在2018年中央电视台春节联欢晚会上,以百度无人车等为代表的高科技产品登上了电视荧屏,这使人工智能再次成为社会热议的话题。2月21日,百度自然语言处理团队研发的 V-Net 模型以46.15的 Rouge-L 得分登上微软的 MS MARCO 机器阅读理解测试排行榜首,机器阅读理解领域再次引起内业关注。
正如百度自然语言处理首席科学家兼百度技术委员会主席吴华所说“此次在 MARCO 的测试中取得第一,只是百度机器阅读理解技术经历的一次小考”,未来百度还希望能联手领域内的其他同行者,推进机器阅读理解技术的应用和研究。为实现这一愿景,由百度、中国中文信息学会评测工作委员会(CIPS)和中国计算机学会(CCF)联合举办“2018机器阅读理解技术竞赛”,3月1日,竞赛官网http://mrc2018.cipsc.org.cn/ 正式开启报名通道,并将在第三届语言与智能高峰论坛举办竞赛的颁奖典礼和学术交流活动。
为了进一步提升机器阅读理解的研究水平,推动语言理解和人工智能领域技术研究和应用的发展,2018机器阅读理解技术竞赛孕育而生。本次大赛的任务是对于给定问题q及其对应的文本形式的候选文档集合D=d1, d2, ..., dn,要求参评阅读理解系统自动对问题及候选文档进行分析,输出能够满足问题的文本答案a。为了便于参赛选手快速了解竞赛任务,竞赛还提供了两个开源的阅读理解基线系统,并采用ROUGH-L和BLEU作为评价指标。
此外,百度公司将提供30万个来自于百度搜索的真实问题的数据集,每个问题对应5个候选文档文本,以及人工撰写的优质答案,这些数据集将被划分为28万的训练集,1万开发集和1万测试集。该数据集中包含了DuReader中已发布的20万问题数据,用于预训练和测试,成功报名竞赛的团队将获得新增的10万问题数据集。
通过本次竞赛,百度公司将提供应用于真实场景的大规模中文阅读理解数据集,为研究者提供学术交流的平台,一方面进一步提升机器阅读理解技术的研究水平,提升算法优化的验证效率,吸引、发掘优质AI人才,助力我国高素质AI人才培养,为高质量的算法工程师打下基础,培养中国人工智能领域的精英技术储备人才;另一方面,希望鼓励探索人工智能学科的应用价值,用AI技术增强用户体验、优化产品功能,提升用户获取精准信息的效率,以技术落地改善未来生活。百度公司希望本次比赛能从学术与行业赋能机器阅读理解,提升中国在人工智能领域的影响力。
作为技术型互联网企业,百度多年深耕的AI技术已处于世界领先水平,在语音识别、图像识别、无人驾驶、深度学习等领域遍地开花,同时逐步将AI技术融合到各行业中去,以技术为驱动改变现实生活。不久前,在美国权威杂志《麻省理工科技评论》公布的2018年“全球十大突破性技术”中,百度成为本年度唯一入选的中国公司,也是史上首个连续3年入选该榜单的中国公司。
未来,百度公司将做出更大努力,开放海量优质的数据,助力机器阅读理解技术的迅速崛起与落地,降低机器学习、深度学习的门槛,进一步培养和挖掘人工智能人才,使 AI 能够理解人类的语言、用自然语言与人类交流,让 AI 更‘懂’人类。在此,百度诚邀所有AI数据集有兴趣的技术人才了解和关注百度阅读理解数据集。已公开的阅读理解数据集可以自由下载https://ai.baidu.com/broad/introduction?dataset=dureader,并通过平台提交测试集结果进行系统效果测试。除了阅读理解数据集,百度AI公开数据集计划BROAD(Baidu Research Open-Access Dataset)还发布了视频和图像数据集,更多数据集参见:https://ai.baidu.com/broad 。