击败苹果、AI2等多支强队百度拿下MRQA 2019阅读理解国际评测冠军

时间：2019-08-19 15:07:19 来源：互联网编辑：星辉 IP：北京 发表评论无障碍通道

在国际自然语言处理领域颇具影响力的百度，再传捷报，再度夺冠。2019年8月12日，MRQA 2019阅读理解国际评测落下帷幕。得益于自研开源深度学习平台飞桨(PaddlePaddle)的强势助攻，百度以平均 F1 值72.55%，超出第二名近两个百分点的绝对优势获得冠军。同时，在全部12个测试数据集中的10个上均排名第一。

本届评测吸引了来自苹果公司、艾伦人工智能研究院(AI2)、哈工大讯飞联合实验室、香港科技大学、富士施乐等全球知名企业和高校研究院所队伍的参与，高手如云。

MRQA 2019阅读理解国际评测最终榜单百度排名第一

MRQA全称是Machine Reading for Question Answering，即问答阅读理解。问答阅读理解是自然语言处理领域当前最热门的研究方向之一，已成为评估机器语言理解能力的重要方式，也是搜索引擎和对话系统等行业应用中的关键技术。第二届MRQA workshop(MRQA 2019) 将于今年11月在自然语言处理领域顶级学术会议EMNLP 2019上举办。本届研讨会在Research Track的基础上，设立了一个新的问答阅读理解评测。与以往仅聚焦于单个数据集的阅读理解评测不同，本次评测主要有两大挑战：

首先，本次评测包括训练集和测试集共18个阅读理解数据集，覆盖面广，综合难度高。针对语言理解所应解决的不同挑战，评测从多个角度考察了阅读理解模型理解语言的能力。从数据源角度看，其文档来源是多样化的，包括百科、新闻、搜索结果、电影、生物医药甚至演讲脚本。从应用任务角度来看，评测不仅包含了面向问答设计的数据集，还包含了面向信息抽取、语义解析等任务设计的数据集。此外，从语言理解的能力来看，评测除了包含传统的抽取式问答数据集，还包含了多个需要推理和计算的数据集。本次评测可谓机器阅读理解的“十项全能赛”。

本次评测的18个数据集

更重要的是，本次评测要求参赛队伍仅可使用6个数据集训练一个统一的阅读理解模型，之后在其它12个分布各异的数据集上测试模型效果。更困难的是，测试阶段中有6个在训练阶段完全没见过的未知来源数据集。数据集分布的巨大差异和测试数据来源的完全未知为参评系统带来了极大的挑战。这样的评测设置重点考察了阅读理解模型的泛化能力。模型的泛化能力通俗来讲就是模型对未知数据的预测能力，它是机器学习模型最重要的性质之一，决定了模型是否真正具备实用性。能够解决好该问题，意味着模型具有了一定的通用能力，在实际应用中面对不确定的数据，也能够达到可用的效果。

百度D-NET通用“预训练-微调”模型训练框架

针对上述问题，百度在本次评测中提出了一个通用的“预训练-微调”模型训练框架D(ecathlon)-NET。目前，“预训练-微调”在自然语言处理领域已成为一种新的、被广泛采用的学习范式，即首先在大规模无标签语料上以语言模型为目标进行预训练，然后再针对特定任务，如阅读理解进行针对性的微调。百度提出的D-NET框架主要包括以下优势：

在预训练阶段，采用了基于飞桨深度学习框架中的多种预训练模型，融合了多种预训练模型的优势，获得了比官方基线更好的效果。

在微调之前，D-NET引入了针对更多领域数据的进一步预训练，以提升模型在特定领域上的适应性，弥补预训练模型语料分布的局限性。

在微调过程中，D-NET采用了基于飞桨多任务学习框架进行多任务学习。在多任务学习的过程中利用了其它有标注的自然语言处理数据集(如自然语言推断、段落排序等)学习更好的语言表示，从而提升模型的泛化能力。“预训练-微调”学习范式在微调阶段的一个问题是容易发生灾难性遗忘。因此，D-NET在微调过程中引入了防止灾难性遗忘的机制。

在微调结束后，D-NET使用飞桨知识蒸馏框架提升单模型效果，以满足本次评测对模型效率的要求。

D-NET能在本次评测中获得第一，得益于飞桨(PaddlePaddle) “多，快，好，省”的四大优势：

“多”：飞桨提供了多种预置的预训练模型，方便开发者仅使用几行代码，即可调用各种预训练模型。正是得益于飞桨中的多种预训练模型库，D-NET融合了各种预训练模型的优势，获得了更好的效果。

项目地址：https://github.com/PaddlePaddle/models/tree/v1.5.1/PaddleNLP

https://github.com/PaddlePaddle/ERNIE

“快”： MRQA2019技术评测的一大挑战是要处理大规模的阅读理解数据。飞桨的高性能分布式训练框架，帮助开发者可以通过仅仅的几行代码，即可让模型进行分布式训练。值得一提的是，为了克服多节点之间通信带来的性能瓶颈，飞桨从梯度压缩，动态混合精度训练，梯度同步算法等方面进行了多项性能优化，使得训练大规模复杂模型的多机加速比提高至77%，极大地缩短了MRQA2019评测策略调研的周期，提高了实验的效率。

项目地址：https://github.com/PaddlePaddle/Fleet

“好”： D-NET的一个核心思想是让模型同时从不同类型的语料、不同的自然语言理解任务中进行学习，并将学习到的知识融会贯通，达到举一反三，增强泛化能力的作用。开发多任务学习最大的痛点就是要灵活地调度参数和任务。为此，飞桨开发了一套针对多任务学习场景的高级库PALM(PAddLe Multi-task，预计在Paddle Fluid 1.6版本中开源，敬请期待)，让用户只需要开发几十行代码，就可以轻松完成不同模型间参数和任务的调度。

“省”： D-NET夺冠的另外一个秘密武器就是飞桨提供的高性能预测引擎和模型压缩库PaddleSlim。PaddleSlim提供了丰富高效的模型压缩算法，可以在不损失预测精度的前提下，通过剪枝，量化，蒸馏等算法，将多个复杂神经网络压缩至一个简单网络，从而提高预测速度并降低显存消耗。除此之外，飞桨还针对不同硬件资源的特点在底层进行了一系列的优化，进一步提升了模型在预测部署时的性能和效率，使得D-NET在最终结果提交阶段，在有限的时间和空间内，可以集成更多复杂模型算法，提升模型在真实预测部署场景的精度和效果。

项目地址：https://github.com/PaddlePaddle/models/tree/v1.5.1/PaddleSlim

机器阅读理解任务，是衡量机器理解人类语言综合水平的重要方式。MRQA阅读量理解评测取得的进展，将有力推动机器阅读理解技术的发展。同时在产业中，机器阅读理解是构建问答和对话系统的关键技术之一。百度机器阅读理解技术已广泛应用于百度内外，包括搜索、小度音箱等一系列产品中，为数亿用户提供精准问答。

在高端电竞本领域，掠夺者一直以先锋姿态引领行业发展，全新掠夺者·战斧18 AI等新品在CES 2025展会一经亮相，便将2025高端AI电竞本的期待值拉满。超前的设计理念和以玩家体验为核心的产品思路，贯穿掠夺者三款重磅新品：从发烧友的终极梦想至尊机皇掠夺者·战斧18 AI，

如今数字娱乐飞速发展，越来越多玩家渴望在家中打造专属游戏空间。电视作为客厅娱乐的核心设备，已经成为家庭游戏的全新阵地。今年，三星AI电视凭借搭载Vision AI技术，全面升级Neo QLED、OLED以及QLED等系列产品，以AI技术将游戏的多元叙事与家庭客厅深度融合，实现游

在智能化浪潮席卷商业领域的当下，清洁行业正迎来一场革命性变革。2024 年，萤石首款云视觉商用清洁机器人 BS1 正式亮相市场，凭借前期先锋客户端的试运行测试及系统深度对接，迅速在全国各大写字楼、展厅、银行、食堂、酒店等场景崭露头角，开启智能清洁新篇章。AI 视

5月16日京东新品日，打开京东APP来新品频道，买华硕天选6 Pro新品享国家补贴20% #京东新品 #京东重磅新品日，到手6999元起。华硕天选6 Pro搭载RTX 5070笔记本电脑GPU，至高可选AMD锐龙9 9955HX或Intel酷睿Ultra 9 275HX高性能平台，采用全新模具和散热系统，集卓越性能

折叠屏手机哪款好?当用户的需求从“尝鲜”过渡到“实用”,衡量一款折叠屏手机好不好,不再只是拼颜值和噱头,而是真正考验其在日常办公、影音娱乐、户外通讯和长期使用舒适度等方面的综合适配能力。经过对市面热销产品的对比分析,荣耀Magic V3无疑以更全面的表现,成为高端

在AI硬件狂飙突进的今天，行业正陷入两种极端：一面是参数竞赛催生的技术神话，一面是场景缺失导致的功能冗余。当多数企业沉迷于堆砌算力与生态故事时，未来智能的新品发布会却将聚光灯投向了一个更本质的命题——如何让技术回归真实需求。5月13日，在中国爱乐乐团音乐

5月13日，未来智能正式发布讯飞AI会议耳机Pro 3(iFLYBUDS Pro 3)，以“AI生产力工具”为定位，将人工智能技术与商务办公场景深度融合。作为一款聚焦效率革命的智能硬件，其通过硬件性能的全面跃升与软件功能的深度进化，为职场人群打造了一款集音质、降噪、记录、总结、

5月13日，未来智能公司正式发布讯飞AI会议耳机iFLYBUDS Air 2，以“未来智能办公与日常生活的高品质耳机”为定位，突破传统耳机的功能边界。iFLYBUDS Air 2面向生活与工作的全场景需求，将人工智能技术深度融入开放式声学设计，在跨国会议的实时翻译、健身房中的稳固佩

2024年5月14日,一加宣布将与MediaTek联合举办“芯旗舰新上限”游戏战略沟通会暨芯片发布会,双方将在游戏技术共融、芯片定制、内核重构、技术联合等多方面展开前所未有的深度战略合作。一加将自研的芯片级游戏技术「风驰游戏内核」首次注入天玑旗舰芯片,让游戏体验再破

【加州纽瓦克电—2025年5月13日】—作为专业的服务器设计与制造商,神达控股股份有限公司(股票代号:3706)旗下子公司神雲科技股份有限公司(MiTAC Computing Technology Corp.)推出了支持AMD EPYC™ 4005系列处理器的最新产品。这些更新的服务器解决方案可提供更高的性能和

作为占据我们一天中约1/3时间的生理现象，睡眠对于整体健康的重要性不言而喻。一直以来，以三星Galaxy Watch系列为代表的智能健康穿戴设备，更是将追踪睡眠情况作为产品体验中极其重要的一部分。作为全球科技的领导者，三星更是通过自身的技术优势，与睡眠领域的权威专

妈妈既是我们最亲密的家人，又是极贴心的挚友，当经历风雨她又会化身避风港，给予最温馨的庇护。母亲节将至，曾为我们遮风挡雨的她，值得被全心全意的去关爱。在众多类型的节日礼物选项中，相信许多朋友关注的都是像三星Galaxy Watch7这样的健康好物，毕竟家人的身体健

电脑品牌技嘉科技持续以新锐技术颠覆PC DIY 组装体验,于 2022 年推出 Project STEALTH 组装套件,第一次导入背插设计主板,提供便利整线的装机体验。顺应市场对纯白与简约美学桌机的高度需求,技嘉正式推出新一代 STEALTH ICE 系列,涵盖 AMD X870 与 B850 主板搭配 GIGABYT

4 月 24 日，以“聚光同行共创新生”为主题的“2025 第五届 CSPC 中国智能投影产业高峰论坛”在北京成功召开。作为中国首个投影亮度标准CVIA流明发起方与智能投影行业领军品牌，当贝受邀参与本次论坛，与产业链上下游企业、行业领袖及权威媒体围绕“行业标准共建、技术

ASUS PRIME AP202灵光岛机箱将于5月7日正式上市。新品上市的倒计时已然开启,众多消费者翘首以盼,期待能第一时间将这款心仪已久的机箱收入囊中。为了回馈消费者的热情支持,华硕在首发期间特别推出了满599元立减50元的超值福利活动,不容错过!全景视界,通透美观在颜值至上

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.

击败苹果、AI2等多支强队 百度拿下MRQA 2019阅读理解国际评测冠军

击败苹果、AI2等多支强队百度拿下MRQA 2019阅读理解国际评测冠军