10月16日,百度西安交通大学大数据竞赛在北京落幕,本次赛事吸引了全国数十所一流大学的近900位选手组队参赛,经过5个月的激烈比拼,冠军团队最终凭借其精准清晰的程序结构以及优质完整的算法,经过评审成功摘得桂冠。亚、季军则由六支不同高校的参赛团队选手摘得。
大数据竞赛评委、百度知识图谱产品数据建设负责人牛正雨接受采访时表示“百度将吸收大赛角逐出的优秀数据分析模型,并以此来绘制知识图谱,广泛满足用户获取信息和各种线上、线下服务。”
2013年百度世界大会召开之际,被业内专家称为下一代搜索引擎雏形的百度知识图谱悄然上线。知识图谱(Knowledge Graph)包含世间万物以及它们之间的联系,以图文并茂的方式展现知识的方方面面,让人们更便捷地获取信息、找到所求
知识图谱是搜索结果体系化、关联化和可视化,任何一个搜索请求都能得到一个知识点对应的完整知识体系,不再只是提供网址列表,而是展示关联的知识结点,譬如搜索“王菲”便可看到角色关系图,搜索地名则可以看到地图、天气、旅游景点等关联信息。
“当大家搜一些人名,例如娱乐明星、热点事件人物等就会触发知识图谱”百度西安交通大学大数据竞赛评委、百度知识图谱产品数据建设负责人牛正雨称,“作为典型的知识图谱应用,百度科学家联合西安交通大学院士专家组成的评审委员会为选手们放出了'人物关系'的赛题,要求选手基于超过十亿条的语料构建知识提取与图谱构建模型。”
据牛正雨介绍,本次大数据竞赛,百度为选手们提供了超过十亿条语料的数据集,是数据挖掘、人工智能领域竞赛的最大数据量。(语料,在自然语言处理领域特指语言实例。例如:文本)。我们怎么去理解十亿级的语料数据呢?“假设一个人每天查阅20页文档,每页包含800个字的内容,包含十亿句子的语料需要一个人花费2569年才看完。”牛正雨如是说。
大数据竞赛评委、百度知识图谱产品数据建设负责人牛正雨(左一)与获奖团队选手合影
牛正雨称,本次大数据竞赛主要涉及知识提取技术与图谱生成技术,这些技术横跨自然语言处理、数据挖掘、知识库等领域。在百度实际产品研发过程中,始终面临大数据处理的场景,这也是百度西安交通大学大数据竞赛提供海量数据的原因。他透露,百度搜索大数据基于对海量数据的计算,来满足不同人对信息的获取需求。在搜索技术应用领域,不仅人物关系的搜索需求旺盛,影视同样也是热门,例如电影电视剧,播放简介、地址等等。
目前,知识图谱主要集中在信息类需求的满足,百度目前正在探索基于知识图谱,如何把人和服务连接起来;百度今年推出的个人机器人秘书“度秘”的研发将基于知识图谱技术。”