您的位置:首页>>互联网

击败苹果、AI2等多支强队 百度拿下MRQA 2019阅读理解国际评测冠军

发布时间:2019-08-19 15:07:19  来源:互联网    背景:

  在国际自然语言处理领域颇具影响力的百度,再传捷报,再度夺冠。2019年8月12日,MRQA 2019阅读理解国际评测落下帷幕。得益于自研开源深度学习平台飞桨(PaddlePaddle)的强势助攻,百度以平均 F1 值72.55%,超出第二名近两个百分点的绝对优势获得冠军。同时,在全部12个测试数据集中的10个上均排名第一。

  本届评测吸引了来自苹果公司、艾伦人工智能研究院(AI2)、哈工大讯飞联合实验室、香港科技大学、富士施乐等全球知名企业和高校研究院所队伍的参与,高手如云。

图片包含 屏幕截图

描述已自动生成

  MRQA 2019阅读理解国际评测最终榜单百度排名第一

  MRQA全称是Machine Reading for Question Answering,即问答阅读理解。问答阅读理解是自然语言处理领域当前最热门的研究方向之一,已成为评估机器语言理解能力的重要方式,也是搜索引擎和对话系统等行业应用中的关键技术。第二届MRQA workshop(MRQA 2019) 将于今年11月在自然语言处理领域顶级学术会议EMNLP 2019上举办。本届研讨会在Research Track的基础上,设立了一个新的问答阅读理解评测。与以往仅聚焦于单个数据集的阅读理解评测不同,本次评测主要有两大挑战:

  首先,本次评测包括训练集和测试集共18个阅读理解数据集,覆盖面广,综合难度高。针对语言理解所应解决的不同挑战,评测从多个角度考察了阅读理解模型理解语言的能力。从数据源角度看,其文档来源是多样化的,包括百科、新闻、搜索结果、电影、生物医药甚至演讲脚本。从应用任务角度来看,评测不仅包含了面向问答设计的数据集,还包含了面向信息抽取、语义解析等任务设计的数据集。此外,从语言理解的能力来看,评测除了包含传统的抽取式问答数据集,还包含了多个需要推理和计算的数据集。本次评测可谓机器阅读理解的“十项全能赛”。

  本次评测的18个数据集

  更重要的是,本次评测要求参赛队伍仅可使用6个数据集训练一个统一的阅读理解模型,之后在其它12个分布各异的数据集上测试模型效果。更困难的是,测试阶段中有6个在训练阶段完全没见过的未知来源数据集。数据集分布的巨大差异和测试数据来源的完全未知为参评系统带来了极大的挑战。这样的评测设置重点考察了阅读理解模型的泛化能力。模型的泛化能力通俗来讲就是模型对未知数据的预测能力,它是机器学习模型最重要的性质之一,决定了模型是否真正具备实用性。能够解决好该问题,意味着模型具有了一定的通用能力,在实际应用中面对不确定的数据,也能够达到可用的效果。

  百度D-NET通用“预训练-微调”模型训练框架

  针对上述问题,百度在本次评测中提出了一个通用的“预训练-微调”模型训练框架D(ecathlon)-NET。目前,“预训练-微调”在自然语言处理领域已成为一种新的、被广泛采用的学习范式,即首先在大规模无标签语料上以语言模型为目标进行预训练,然后再针对特定任务,如阅读理解进行针对性的微调。百度提出的D-NET框架主要包括以下优势:

  在预训练阶段,采用了基于飞桨深度学习框架中的多种预训练模型,融合了多种预训练模型的优势,获得了比官方基线更好的效果。

  在微调之前,D-NET引入了针对更多领域数据的进一步预训练,以提升模型在特定领域上的适应性,弥补预训练模型语料分布的局限性。

  在微调过程中,D-NET采用了基于飞桨多任务学习框架进行多任务学习。在多任务学习的过程中利用了其它有标注的自然语言处理数据集(如自然语言推断、段落排序等)学习更好的语言表示,从而提升模型的泛化能力。“预训练-微调”学习范式在微调阶段的一个问题是容易发生灾难性遗忘。因此,D-NET在微调过程中引入了防止灾难性遗忘的机制。

  在微调结束后,D-NET使用飞桨知识蒸馏框架提升单模型效果,以满足本次评测对模型效率的要求。

  D-NET能在本次评测中获得第一,得益于飞桨(PaddlePaddle) “多,快,好,省”的四大优势:

  “多”:飞桨提供了多种预置的预训练模型,方便开发者仅使用几行代码,即可调用各种预训练模型。正是得益于飞桨中的多种预训练模型库,D-NET融合了各种预训练模型的优势,获得了更好的效果。

  项目地址:https://github.com/PaddlePaddle/models/tree/v1.5.1/PaddleNLP

  https://github.com/PaddlePaddle/ERNIE

  “快”: MRQA2019技术评测的一大挑战是要处理大规模的阅读理解数据。飞桨的高性能分布式训练框架,帮助开发者可以通过仅仅的几行代码,即可让模型进行分布式训练。值得一提的是,为了克服多节点之间通信带来的性能瓶颈,飞桨从梯度压缩,动态混合精度训练,梯度同步算法等方面进行了多项性能优化,使得训练大规模复杂模型的多机加速比提高至77%,极大地缩短了MRQA2019评测策略调研的周期,提高了实验的效率。

  项目地址:https://github.com/PaddlePaddle/Fleet

  “好”: D-NET的一个核心思想是让模型同时从不同类型的语料、不同的自然语言理解任务中进行学习,并将学习到的知识融会贯通,达到举一反三,增强泛化能力的作用。开发多任务学习最大的痛点就是要灵活地调度参数和任务。为此,飞桨开发了一套针对多任务学习场景的高级库PALM(PAddLe Multi-task,预计在Paddle Fluid 1.6版本中开源,敬请期待),让用户只需要开发几十行代码,就可以轻松完成不同模型间参数和任务的调度。

  “省”: D-NET夺冠的另外一个秘密武器就是飞桨提供的高性能预测引擎和模型压缩库PaddleSlim。PaddleSlim提供了丰富高效的模型压缩算法,可以在不损失预测精度的前提下,通过剪枝,量化,蒸馏等算法,将多个复杂神经网络压缩至一个简单网络,从而提高预测速度并降低显存消耗。除此之外,飞桨还针对不同硬件资源的特点在底层进行了一系列的优化,进一步提升了模型在预测部署时的性能和效率,使得D-NET在最终结果提交阶段,在有限的时间和空间内,可以集成更多复杂模型算法,提升模型在真实预测部署场景的精度和效果。

  项目地址:https://github.com/PaddlePaddle/models/tree/v1.5.1/PaddleSlim

  机器阅读理解任务,是衡量机器理解人类语言综合水平的重要方式。MRQA阅读量理解评测取得的进展,将有力推动机器阅读理解技术的发展。同时在产业中,机器阅读理解是构建问答和对话系统的关键技术之一。百度机器阅读理解技术已广泛应用于百度内外,包括搜索、小度音箱等一系列产品中,为数亿用户提供精准问答。

特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。


返回网站首页 本文来源:互联网

本文评论
百度【智能小程序开发者抗疫联盟】全面扩招,优秀开发者最高可获得奖励150万元!
疫情之下,人们衣食住行的各个方面均受到不同程度的影响。抗击疫情由此成为一场全面、长期的全民战...
日期:02-25
武汉嫂子,菜来了……本来生活@你
前两天,一位#武汉嫂子#教科书式怒怼的视频火了。
日期:02-25
vivo天猫超级品牌日重磅来袭,iQOO3抢先买!
2月25日,iQOO在年后首场发布会上正式推出了年度旗舰iQOO 3,并且将于3月2日全网正式开售。
日期:02-25
员工在家办公毁掉公司数据,微盟公司市值一天蒸发 9 亿港元
2月25日消息,港股上市公司微盟集团今日在港交所公告称,SAAS业务数据遭到一名员工“人为破坏&...
日期:02-25
家用投影仪怎么选?性价比颇高的当贝投影D1怎么样?
随着时代的发展,虽然电视也在不断地进步发展,完成了传统电视到智能电视的转变,但是电视一直存在的一...
日期:02-25
探营北京市朝阳区集中隔离点:24小时值守 机器人送餐
“您好,您的餐食在第一层,请取餐。”2月25日中午,位于北京市朝阳区的某集中医学隔离点...
日期:02-25
华为、苹果、OPPO、vivo 等全面响应苏宁24期免息
2月24日晚,苏宁易购召开线上发布会,宣布27日起,将联合家电、家装、3C等品类品牌,全场景推出&ldq...
日期:02-25
全友、顾家家居、喜临门等全面响应苏宁24期免息
2月24日,包括喜临门、雅兰床垫、全友、顾家家居、鹰牌陶瓷、多乐士、三棵树、万家乐、万和、箭牌、...
日期:02-25
智齿客服赋能5大行业,用AI筑起防疫长城
武汉封城,各地戒严,疫情让全国人民进入紧急状态,尤其是政府、医疗等处在防疫战场最前线的行业。智齿...
日期:02-25
“宅经济”、“无接触服务”兴起,苏宁智慧零售玩转消费新方式
受新冠肺炎疫情的影响,“宅”成为了当下全国居民生活最普遍的生活状态。“宅经济&r...
日期:02-25
华为云携手五所高校,启动鲲鹏计算HCIA在线课程
2月24日,全国首个鲲鹏计算HCIA在线孵化营在成都正式启动。本次孵化营由天府新区成都管委会、华为公...
日期:02-25
英超大咖聚首为中国加油,背后原来是PP体育的硬核操作
疫情阻碍了人们的正常出行,但无法削减足球带来的精彩和温情。近日,英超官方特意为中国球迷录制助威...
日期:02-25
远程办公时期,这些公司为什么都选择了飞书?
自从企业开启远程办公模式以来,这段时间,网上有关钉钉、飞书、企业微信的热议不断。不少网友发出...
日期:02-25
Skullcandy推出“热情粉“限量套装,带你遵循内心的声音
历时十一个月,每月一种配色、一位合作音乐人与运动员、一套限定耳机套装,Skullcandy的12 Moods企...
日期:02-25
苏宁推24期免息,苹果华为联想等3C大牌响应
2月24日晚,苏宁易购召开线上直播发布会,侯恩龙宣布自2月27日开始,苏宁将全面联合家电、家装、手...
日期:02-25
首批“无接触”餐厅落地 餐饮业试水送餐机器人自主配送
近日,全国各地陆续迎来返工潮,如何放心吃饭成了许多人关心的新话题。为了尽可能满足疫情期间消费...
日期:02-25
Tmall China Cool时装秀再现 天猫国潮来了传递中国品牌时尚态度
国潮崛起正在成为中国时尚的代名词,除了常驻时装周的华人设计师品牌数量逐年上升,越来越多的中国...
日期:02-25
华云数据安超云一体机为协和武汉红十字会医院提供云助力
新型冠状病毒肺炎疫情发生以来,全国上下齐心战疫,科技企业也积极投身疫情防控主战场,不仅持续为...
日期:02-25
苏宁与美的、华为、苹果等家电3C品牌“云签约”
“2月27日起,苏宁将全面联合家电、家装、电脑、手机等品类品牌,线上线下推出‘购家电家...
日期:02-25
极光:城市居民置业图鉴2020
极光(Aurora Mobile, NASDAQ:JG)发布《城市居民置业图鉴2020》,回顾2019年全国房市表现,洞悉城市...
日期:02-25
  专栏介绍
海露 的专栏
海露发表的文章
积分:
自我介绍 :