50个目标人物关系,超过10亿条的语料数据集合,一次摆在900位大学生面前的天量大数据分析挑战。10月16日,拥有海量数据集的大数据竞赛——百度、西安交通大学大数据竞赛颁奖典礼在西交大圆满落幕。
根据大赛规则,由百度大数据专家和西安交通大学院士专家组成的评审委员会给出了“关于人物关系研究”的课题,要求选手基于百度所提供的含有10亿条语料的数据集建立数据分析模型。语料,在自然语言处理领域特指语言实例(例如:文本)。我们怎么去理解十亿级的语料数据呢?如果我们一个人每天查阅20页,每页800个字的内容,10亿条平均15个字的语料需要花费2569年才看完。
百度、西安交通大学大数据竞赛是百度在大数据人才挖掘上的一次新尝试,早在今年4月,百度公司就与西安交通大学在位于北京的百度大厦签署了战略合作框架协议,该合作旨在联合建设大数据创新平台,挖掘和培养大数据人才。
获奖团队选手与百度大数据竞赛负责人合影
陕西省政府学位委员会秘书长袁宁曾在签约仪式上表示,百度公司与西安交通大学汇集优质力量,将推动竞赛成为高校大数据竞赛第一品牌,成为“互联网+”时代的校企合作典范。
百度副总裁、西安交通大学杰出校友朱光也在签署仪式上表示,百度是以技术为最核心竞争力的高科技公司,人才是最宝贵的财富,百度非常重视人才的培养工作。面对未来的竞争和发展,光靠公司自身是远远不够的,公司需要和优秀的大学合作。西安交大是历史悠久的国家重点高等学府,学风严谨,学术实力雄厚,在社会上有很深远的影响力,为国家培养了很多优秀人才。百度将和西安交大在技术人才培养、学术研究、拓展国际市场等方面,共同携手,优势互补,展开更加深入的合作。