为吸引人工智能专家雅虎公布13.5TB用户数据

时间：2016-01-15 11:48:17 来源：腾讯科技编辑：星辉 发表评论无障碍通道

1月15日，外媒报道称，为了‍‍‍‍‍吸引人工智能领域的顶级人才，雅虎公布大量用户的互网络行为数据。

周四，雅虎宣布，公司将公布最大规模的互联网行为数据，数据涉及浏览雅虎体育、雅虎财经、雅虎新闻、雅虎地产和其他版块的2000万匿名用户。雅虎仅面向大学机构公布数据，这些数据将让研究人员切实了解大量用户的互联网行为方式。

由于多年停滞不前，雅虎正面临严重的人才流失难题。人工智能领域快速增长，而且竞争异常激烈，雅虎希望吸引该领域的学术研究人员。

雅虎此举正值科技公司争相与学术界加‍‍强合作之时，而科技公司尤为关注人工智能领域。人工智能涉及机器学习和深度学习技术，这类技术可训练机器挖掘海量数据，旨在回答复杂问题或预测用户行为。

Facebook和谷歌(微博)已经招募顶级人工智能研究人员。例如，2013年燕乐存(Yann LeCun)加盟Facebook，他继续运营纽约大学数据科学中心。

卡内基梅隆大学计算机学院院长安德鲁·穆尔(Andrew Moore)表示：“无论你拥有多少人才，管理者总是希望招募更多的人才。这些大型科技公司总觉得缺少某类研发人才。”

海量数据是机器学习的必备要素。利用这些数据，电脑可分析复杂的模式，根据雅虎的情况给出科学的建议，例如哪种标题或设计更加吸引纽约地区的年轻女孩。大型互联网公司一般严格控制这类数据，外部人士极难获得。雅虎此次公布的数据体积为‍‍‍‍‍13.5 TB，相当于美国国会图书馆数据体积的2/3。

穆尔表示，绝大多数学术计算机科学家未曾接触如此庞大的用户数据，学者可能要把数据存储到大学外部的服务器，他们可能选择亚马逊或谷歌的云计算中心。

去年，雅虎和卡内基梅隆大学签署一份为期5年的合作合同，雅虎将为卡内基梅隆大学提供1000万美元研究资金，目的是基于用户数据开发个性化应用。

加州大学圣地亚哥分校电子与计算机系教授格特·兰克利(Gert Lanckriet)表示：“公司外部人士难以获得数据。”

专家认为，雅虎数据的规模使其极具价值。相较针对少量数据设计的算法，针对海量数据设计的算法具有本质区别。雅虎的数据可以让研究人员开发大型算法，这种算法尤其适合企业。

自2006年以来，雅虎已经发布了50多个数据集，包括2014年的1亿张Flickr照片缓存。此前，雅虎公布的最大数据集为413 GB。谷歌和亚马逊公布的数据集相对较小。

数据科学初创公司Fast Forward Labs创始人希拉里·梅森(Hilary Mason)表示，一方面，科技公司要吸引人才和催生新理念。另一方面，它们要保护用户隐私和保持竞争优势。这种矛盾正逐渐加大。

梅森称，众多大型科技公司正尝试打造同样的功能，例如无人驾驶汽车、图像识别和个性化服务。公布用户数据之后，雅虎承担些许暴露商业秘密的危险，但雅虎认为吸引人才能带来更大回报。

尽管数家公司曾面向研究人员公布用户数据，但结果令人失望。2006年，AOL向研究人员公布用户数据，但意外泄露用户的搜索记录。2009年，Netflix公布大量用户的电影推荐和日志，并提供100万美元奖金，以奖励改进电影推荐算法的开发者。在两个例子中，外部人员都利用数据推测用户的身份，这种侵犯隐私的行为招致集体诉讼。Netflix被迫取消该奖项。

2014年，Facebook和康乃尔大学共同研究和操纵用户的情绪。研究过程中，Facebook调整用户信息流的内容，旨在研究用户的情绪反应，此举引发了巨大争议。随后，Facebook不得不限制用户数据的使用范围。

梅森表示：“自从2006年AOL遭遇隐私灾难，科技公司一直害怕公布数据。”

雅虎数据的敏感度似乎较低，其中仅包括城市、性别、年龄等基本人口统计信息，以及用户与雅虎网站相关的交互信息。

雅虎实验室首席研究科学家贝泽·耶茨(Ricardo Baeza-Yates) 表示，这次公布的数据集能够有效地防止个人追踪用户。例如，雅虎移除了来自人口稀少地区的用户信息。

2024年10月30日，豆神教育在北京举行豆神辞源大模型“名师超拟人，AI新时代”产品发布会，推出自主研发的端模一体教育产品——豆神AI，将客户端与大语言模型深度结合。与之类似，智谱华章有优秀的大模型开发及…

该合作将以联合研究阿拉伯语模型以及沙特特定的人工智能应用为特色，目前有待获得监管机构的批准。新的投资建立在谷歌云在沙特阿拉伯的现有业务基础上，其中包括去年启动的达曼云区域，该区域是谷歌云目前全球40个区域…

微软在周三提交给美国证券交易委员会的文件中写道：我们对 OpenAI Global,LLC（简称OpenAI）进行了投资，并已承诺投资总额为 130 亿美元。在之前提交给美国证券交易委员会的文件中，微…

10 月 31日消息，据《科创板日报》今日消息，荣耀股改引入新一轮投资者，中国电信、中金资本旗下基金、基石旗下基金、特发基金，以及新一轮代理商投资平台（金石星耀）等机构加入。对于此轮融资，荣耀称…

只有形成智算云产业的自循环，中国云谷的建设才有意义。在《机器中的达尔文》一文中，塞缪尔·巴特勒提出了“机械王国”的理论：技术进化与生物进化的过程将多方面重合，但不会像生物进化漫长而平静，而是带有激烈且革命性的色彩。他不吝词藻描绘道：“如今机器被用来生

近日，腾讯音乐娱乐集团（Tencent Music Entertainment Group，简称 “TME”）与中兴通讯近日达成了一项具有重大意义的战略合作，这次的战略合作不仅包含音乐产品合作，也将在音乐AI…

作为 NVIDIA Compute (GPU)、Networking (网络)的双 Elite 精英级合作伙伴,超擎数智在 NVIDIA中国开发者之夜现场展示了擎天系列AI服务器、NVIDIA Quant…

财报显示，按照美国通用会计准则(GAAP)计算，微软第一财季总营收为655.85亿美元，较上年同期的565.17亿美元增长16%，按固定汇率计算同比增长16%；净利润为246.67亿美元，较上年同期的222.…

财报显示，Meta第三季度总营收为405.89亿美元，较上年同期的341.46亿美元增长19%，按固定汇率计算同比增长20%；净利润为156.88亿美元，较上年同期的115.83亿美元增长35%，其中元宇宙业…

随着企业愈发依赖云环境进行应用开发，确保代码安全变得极其重要。作为网络安全领域长期领导者，Check Point CloudGuard 平台不仅持续为用户提供云原生安全，并在公有云、私有云、混合云和多云环境…

会上，中能拾贝解决方案中心总监张闵带来《“AI+”能源大模型赋能大国水电发展水利新质生产力》报告，为与会嘉宾分享中能拾贝多年来的智慧水电应用成果，并就能源电力行业的AI大模型进展及创新应用进行现场探讨。 …

10 月 31 日消息，当地时间 30 日，OpenAI 宣布，为了衡量语言模型的准确性，将开源一个名为 SimpleQA的新基准，可衡量语言模型回答简短的事实寻求（fact-seeking）问题的能力。 …

值得一提的是，荣耀Magic7系列不仅继承了备受好评的鹰眼相机，还升级成为AI鹰眼相机，在抓拍模式下支持10fps高质量连拍，画质较上一代大幅提升。总而言之，荣耀Magic7系列在影像、性能和AI方面都有很…

在智能制造的浪潮中，技术创新是推动产业升级的重要引擎。小笨智能，自创立之初，便致力于成为企业人工智能解决方案领导者。历经9年的技术深耕与迭代，小笨智能通过自建AI交互平台，实现高效的人机交互能力;自建底盘算法平台，打通自研底盘与交互平台，通过高度成熟的双

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区 · 齐鲁软件园鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.

为吸引人工智能专家 雅虎公布13.5TB用户数据

为吸引人工智能专家雅虎公布13.5TB用户数据