您的位置:首页>>互联网

击败苹果、AI2等多支强队 百度拿下MRQA 2019阅读理解国际评测冠军

发布时间:2019-08-19 15:07:19  来源:互联网    背景:

  在国际自然语言处理领域颇具影响力的百度,再传捷报,再度夺冠。2019年8月12日,MRQA 2019阅读理解国际评测落下帷幕。得益于自研开源深度学习平台飞桨(PaddlePaddle)的强势助攻,百度以平均 F1 值72.55%,超出第二名近两个百分点的绝对优势获得冠军。同时,在全部12个测试数据集中的10个上均排名第一。

  本届评测吸引了来自苹果公司、艾伦人工智能研究院(AI2)、哈工大讯飞联合实验室、香港科技大学、富士施乐等全球知名企业和高校研究院所队伍的参与,高手如云。

图片包含 屏幕截图

描述已自动生成

  MRQA 2019阅读理解国际评测最终榜单百度排名第一

  MRQA全称是Machine Reading for Question Answering,即问答阅读理解。问答阅读理解是自然语言处理领域当前最热门的研究方向之一,已成为评估机器语言理解能力的重要方式,也是搜索引擎和对话系统等行业应用中的关键技术。第二届MRQA workshop(MRQA 2019) 将于今年11月在自然语言处理领域顶级学术会议EMNLP 2019上举办。本届研讨会在Research Track的基础上,设立了一个新的问答阅读理解评测。与以往仅聚焦于单个数据集的阅读理解评测不同,本次评测主要有两大挑战:

  首先,本次评测包括训练集和测试集共18个阅读理解数据集,覆盖面广,综合难度高。针对语言理解所应解决的不同挑战,评测从多个角度考察了阅读理解模型理解语言的能力。从数据源角度看,其文档来源是多样化的,包括百科、新闻、搜索结果、电影、生物医药甚至演讲脚本。从应用任务角度来看,评测不仅包含了面向问答设计的数据集,还包含了面向信息抽取、语义解析等任务设计的数据集。此外,从语言理解的能力来看,评测除了包含传统的抽取式问答数据集,还包含了多个需要推理和计算的数据集。本次评测可谓机器阅读理解的“十项全能赛”。

  本次评测的18个数据集

  更重要的是,本次评测要求参赛队伍仅可使用6个数据集训练一个统一的阅读理解模型,之后在其它12个分布各异的数据集上测试模型效果。更困难的是,测试阶段中有6个在训练阶段完全没见过的未知来源数据集。数据集分布的巨大差异和测试数据来源的完全未知为参评系统带来了极大的挑战。这样的评测设置重点考察了阅读理解模型的泛化能力。模型的泛化能力通俗来讲就是模型对未知数据的预测能力,它是机器学习模型最重要的性质之一,决定了模型是否真正具备实用性。能够解决好该问题,意味着模型具有了一定的通用能力,在实际应用中面对不确定的数据,也能够达到可用的效果。

  百度D-NET通用“预训练-微调”模型训练框架

  针对上述问题,百度在本次评测中提出了一个通用的“预训练-微调”模型训练框架D(ecathlon)-NET。目前,“预训练-微调”在自然语言处理领域已成为一种新的、被广泛采用的学习范式,即首先在大规模无标签语料上以语言模型为目标进行预训练,然后再针对特定任务,如阅读理解进行针对性的微调。百度提出的D-NET框架主要包括以下优势:

  在预训练阶段,采用了基于飞桨深度学习框架中的多种预训练模型,融合了多种预训练模型的优势,获得了比官方基线更好的效果。

  在微调之前,D-NET引入了针对更多领域数据的进一步预训练,以提升模型在特定领域上的适应性,弥补预训练模型语料分布的局限性。

  在微调过程中,D-NET采用了基于飞桨多任务学习框架进行多任务学习。在多任务学习的过程中利用了其它有标注的自然语言处理数据集(如自然语言推断、段落排序等)学习更好的语言表示,从而提升模型的泛化能力。“预训练-微调”学习范式在微调阶段的一个问题是容易发生灾难性遗忘。因此,D-NET在微调过程中引入了防止灾难性遗忘的机制。

  在微调结束后,D-NET使用飞桨知识蒸馏框架提升单模型效果,以满足本次评测对模型效率的要求。

  D-NET能在本次评测中获得第一,得益于飞桨(PaddlePaddle) “多,快,好,省”的四大优势:

  “多”:飞桨提供了多种预置的预训练模型,方便开发者仅使用几行代码,即可调用各种预训练模型。正是得益于飞桨中的多种预训练模型库,D-NET融合了各种预训练模型的优势,获得了更好的效果。

  项目地址:https://github.com/PaddlePaddle/models/tree/v1.5.1/PaddleNLP

  https://github.com/PaddlePaddle/ERNIE

  “快”: MRQA2019技术评测的一大挑战是要处理大规模的阅读理解数据。飞桨的高性能分布式训练框架,帮助开发者可以通过仅仅的几行代码,即可让模型进行分布式训练。值得一提的是,为了克服多节点之间通信带来的性能瓶颈,飞桨从梯度压缩,动态混合精度训练,梯度同步算法等方面进行了多项性能优化,使得训练大规模复杂模型的多机加速比提高至77%,极大地缩短了MRQA2019评测策略调研的周期,提高了实验的效率。

  项目地址:https://github.com/PaddlePaddle/Fleet

  “好”: D-NET的一个核心思想是让模型同时从不同类型的语料、不同的自然语言理解任务中进行学习,并将学习到的知识融会贯通,达到举一反三,增强泛化能力的作用。开发多任务学习最大的痛点就是要灵活地调度参数和任务。为此,飞桨开发了一套针对多任务学习场景的高级库PALM(PAddLe Multi-task,预计在Paddle Fluid 1.6版本中开源,敬请期待),让用户只需要开发几十行代码,就可以轻松完成不同模型间参数和任务的调度。

  “省”: D-NET夺冠的另外一个秘密武器就是飞桨提供的高性能预测引擎和模型压缩库PaddleSlim。PaddleSlim提供了丰富高效的模型压缩算法,可以在不损失预测精度的前提下,通过剪枝,量化,蒸馏等算法,将多个复杂神经网络压缩至一个简单网络,从而提高预测速度并降低显存消耗。除此之外,飞桨还针对不同硬件资源的特点在底层进行了一系列的优化,进一步提升了模型在预测部署时的性能和效率,使得D-NET在最终结果提交阶段,在有限的时间和空间内,可以集成更多复杂模型算法,提升模型在真实预测部署场景的精度和效果。

  项目地址:https://github.com/PaddlePaddle/models/tree/v1.5.1/PaddleSlim

  机器阅读理解任务,是衡量机器理解人类语言综合水平的重要方式。MRQA阅读量理解评测取得的进展,将有力推动机器阅读理解技术的发展。同时在产业中,机器阅读理解是构建问答和对话系统的关键技术之一。百度机器阅读理解技术已广泛应用于百度内外,包括搜索、小度音箱等一系列产品中,为数亿用户提供精准问答。

特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。


返回网站首页 本文来源:互联网

本文评论
AI让每一步都成为增长点,金投赏+百度大咖告诉你AI营销的秘密
越来越多的营销人发现,营销从未像今天这样富有挑战:媒介渠道和用户注意力空前碎片化,传统广告创...
日期:10-19
擎朗送餐机器人出席第三届杭州智博会 火爆全场杭州吃货馆
说起国际智能产品博览会,你想到了什么?特聘专家、学者、行业大佬?数字经济、人工智能、产品投资?论...
日期:10-18
“110”网络扶贫创新活动助力礼县苹果热销,1274名贫困人口受益
近日,国家市场监督管理总局、农业农村部信息中心和字节跳动扶贫联合发布了甘肃礼县扶贫成果。字节...
日期:10-18
万门教育:为教育搭建“高铁”,将优质在线课程传递给更多的孩子
互联网近年来发展迅速,从O2O到移动支付,从出行到饮食,互联网以前所未有的深度塑造着每一个席卷的...
日期:10-18
回首协同应用大赛9年 | 我们是见证者,更是参与者
风雨夏秋冬,九年磨一剑。不知不觉,致远互联举办全国协同应用大赛已有九载。时光飞逝,或许你已记...
日期:10-18
赛车手的好搭档,拉力赛冠军选择「瀑布洗」热水器
赛车手的沐浴难题
  我是邓晓文,是一名职业赛车手,曾获得中国拉力锦标赛的冠军。从小热爱...
日期:10-18
创蓝:改变繁琐的工作,人工智能OCR来了!
随着科技的发展,人工智能早已渗透进各个领域和行业,尤其是人工智能技术,在近几年逐渐被广泛应用...
日期:10-18
5G视频彩铃来了
(原标题:5G视频彩铃来了:个人、企业可随意定制)
日期:10-18
2020年的开发人员关键词:开源和远程办公
外媒 TechRepublic 近日就2020年开发人员所需的技能,对Digital Ocean工程副总裁Al Sene进行了访谈...
日期:10-18
透过全球最流行互联网简史 看最强的中文网站百度
互联网简史,就是一部风云变幻史,从1996年到2019年,有的网站倒下了,而新生网站也层出不穷。近日...
日期:10-17
中移动AR文物展示系统惊艳长春航展,富媒体形式讲述文物故事
人机可交互,文物能交流。10月17日,庆祝人民空军成立70周年航空开放活动·长春航空展如期举行...
日期:10-17
双十一买投影划算吗?推荐三款高性价比投影,再不收藏这手可就保不住了
吼~一年一度双十一又要到了,大家都准备好买买买了吗?反正我已经开始午休加购物车,上厕所加购物车...
日期:10-17
中国证券市场研究学者布娜新:预见大时代的领航者
在风起云涌的资本市场中,能够紧跟趋势冷静决策的人当属凤毛麟角。类似新三板这样的新生事物,大部...
日期:10-17
即信云通信参加中国车联网大会 助力智慧交通新时代
日前,由国家工信部、深圳市人民政府联手主办的中国车联网产业展览会于深圳会展中心盛大召开。玄武...
日期:10-17
新华三助力教育行业构筑主动安全,护航智慧校园创新变革
近日,在2019合肥网络安全大会期间,紫光旗下新华三集团与安徽大学共同举办了数字校园安全论坛,众...
日期:10-17
优化管理与放映品质两手抓,不重规模只重品质
2019年,中国电影市场逐渐进入调整期。作为电影市场链条的终端窗口,不同地区影院的经营状态也出现...
日期:10-17
如程可免费入住酒店数增至204家,最牛“超级会员”已免费入住86晚
10月16日,会员制特色度假酒店预订平台“如程”再次新增一家来自天津的“JOURNEY&rd...
日期:10-17
聚力创新,群智合助力行业走向“云化未来”
  企业数字化的时代已经来临,各行业面临智能化、云端化的升级。2018年2月工信部印发了《推动企业上云...
日期:10-17
海思首次外卖4G通信芯片
(原标题:海思首次外卖4G通信芯片 麒麟依然只供华为使用但考虑对外销售)
日期:10-17
相聚Intel物联网合作伙伴峰会 杰和科技与行业伙伴共谋发展
10月16日,2019英特尔人工智能物联网生态合作伙伴峰会在厦门举行,峰会以“智IN万物,识微见远...
日期:10-16
  专栏介绍
海露 的专栏
海露发表的文章
积分:
自我介绍 :