四大模型革新NLP技术应用揭秘百度文心ERNIE最新开源预训练模型

时间：2021-05-25 20:36:30 来源：互联网编辑：星辉 发表评论无障碍通道

2019年以来，基于深度神经网络的预训练技术在技术创新和工业应用上不断取得突破，但传统预训练技术上仍有一些痛点困扰着开发者：

仅考虑单一粒度语义建模，缺乏多粒度语义理解能力;

受限于 Transformer 结构的建模长度瓶颈，无法处理超长文本;

聚焦语言等单一模态，缺乏工业真实应用场景针对多个模态如语言、视觉、听觉信息的联合建模能力。

5月20日举办的2021深度学习开发者峰会WAVE SUMMIT上，依托飞桨核心框架，百度文心ERNIE最新开源四大预训练模型：多粒度语言知识增强模型 ERNIE-Gram、长文本理解模型 ERNIE-Doc、融合场景图知识的跨模态理解模型 ERNIE-ViL、语言与视觉一体的模型ERNIE-UNIMO。

针对传统预训练技术现存的难点痛点，此次文心ERNIE开源的四大预训练模型不仅在文本语义理解、长文本建模和跨模态理解三大领域取得突破，效果上超越谷歌、微软等业界模型，还拥有广泛的应用场景和前景，进一步助力产业智能化升级。

文心ERNIE开源版地址：https://github.com/PaddlePaddle/ERNIE

文心ERNIE官网地址：https://wenxin.baidu.com/

一、多粒度语言知识增强模型ERNIE-Gram

从 ERNIE模型诞生起，百度研究者们就在预训练模型中引入知识，通过知识增强的方法提升语义模型的能力。本次发布的ERNIE-Gram模型正是通过显式引入语言粒度知识，从而提升模型的效果。具体来说，ERNIE-Gram 提出显式 n-gram 掩码语言模型，学习 n-gram粒度语言信息，相对连续的n-gram掩码语言模型大幅缩小了语义学习空间（ → ，其中为词表大小，为建模的gram 长度），显著提升预训练模型收敛速度。

图1-1 连续 n-gram 掩码语言模型 vs 显式 n-gram 掩码语言模型

此外，在显式 n-gram 语义粒度建模基础上，ERNIE-Gram 提出多层次 n-gram 语言粒度学习，利用 two-stream 双流机制，实现同时学习 n-gram 语言单元内细粒度(fine-grained)语义知识和 n-gram 语言单元间粗粒度(coarse-grained)语义知识，实现多层次的语言粒度知识学习。

图1-2 n-gram 多层次语言粒度掩码学习

ERNIE-Gram在不增加任何计算复杂度的前提下，在自然语言推断任务、短文本相似度任务、阅读理解任务等多个典型中文任务上，效果显著超越了业界主流开源预训练模型。此外，ERNIE-Gram 英文预训练模型也在通用语言理解任务、阅读理解任务上效果超越主流模型。ERNIE-Gram的方法被 NAACL 2021主会长文录用。

论文地址：https://arxiv.org/abs/2010.12148

二、长文本理解模型ERNIE-Doc

Transformer 是 ERNIE预训练模型所依赖的基础网络结构，但由于其计算量和空间消耗随建模长度呈平方级增加，导致模型难以建模篇章、书籍等长文本内容。受到人类先粗读后精读的阅读方式启发，ERNIE-Doc 首创回顾式建模技术，突破了 Transformer 在文本长度上的建模瓶颈，实现了任意长文本的双向建模。

通过将长文本重复输入模型两次，ERNIE-Doc在粗读阶段学习并存储全篇章语义信息，在精读阶段针对每一个文本片段显式地融合全篇章语义信息，从而实现双向建模，避免了上下文碎片化的问题。

此外，传统长文本模型(Transformer-XL等)中Recurrence Memory结构的循环方式限制了模型的有效建模长度。ERNIE-Doc将其改进为同层循环，使模型保留了更上层的语义信息，具备了超长文本的建模能力。

图2-1 ERNIE-Doc中的回顾式建模与增强记忆机制

通过让模型学习篇章级文本段落间的顺序关系，ERNIE-Doc 可以更好地建模篇章整体信息。

图2-2 篇章重排序学习

ERNIE-Doc显著提升了长文本的建模能力，可以解决很多传统模型无法处理的应用难题。例如在搜索引擎中，ERNIE-Doc可以对网页整体理解，返回用户更加系统的结果。在智能创作中，ERNIE-Doc可以用来生成更加长篇、语义丰富的文章。

超长文本理解模型 ERNIE-Doc在包括阅读理解、信息抽取、篇章分类、语言模型等不同类型的13个典型中英文长文本任务上取得最优的效果。ERNIE-Doc的方法被 ACL 2021主会长文录用。

论文链接：https://arxiv.org/abs/2012.15688

三、融合场景图知识的跨模态理解模型ERNIE-ViL

跨模态的信息处理能力需要人工智能模型深入理解并综合语言、视觉、听觉等模态的信息。当前，基于预训练的跨模态语义理解技术，通过对齐语料学习跨模态的联合表示，将语义对齐信号融合到联合表示中，从而提升跨模态语义理解能力。ERNIE-ViL提出了知识增强的视觉-语言预训练模型，将包含细粒度语义信息的场景图(Scene Graph)知识融入预训练过程，构建了物体预测、属性预测、关系预测三个预训练任务，使得模型在预训练过程中更加关注细粒度语义知识，学习到能够刻画更好跨模态语义对齐信息，得到更好的跨模态语义表示。

图3-1知识增强的跨模态预训练ERNIE-ViL框架

ERNIE-ViL首次将场景图知识融入跨模态模型的预训练过程，为跨模态语义理解领域研究提供了新的思路。该模型在视觉问答、视觉常识推理、引用表达式理解、跨模态文本&图像检索等5个典型跨模态任务上取得了领先的效果。ERNIE-ViL模型也逐步在视频搜索等真实工业应用场景中落地。ERNIE-ViL的方法被AAAI-2021主会长文录用。

论文地址:https://arxiv.org/abs/2006.16934

四、语言与视觉一体的模型ERNIE-UNIMO

大数据是深度学习取得成功的关键基础之一。当前的预训练方法，通常分别在各种不同模态数据上分别进行，难以同时支持各类语言和图像的任务。基于深度学习的AI系统是否也能像人一样同时学习各种单模、多模等异构模态数据呢?如果能够实现，无疑将进一步打开深度学习对大规模数据利用的边界，从而进一步提升AI系统的感知与认知的通用能力。

为此，语言与视觉一体的模型ERNIE-UNIMO提出统一模态学习方法，同时使用单模文本、单模图像和多模图文对数据进行训练，学习文本和图像的统一语义表示，从而具备同时处理多种单模态和跨模态下游任务的能力。此方法的核心模块是一个Transformer网络，在具体训练过程中，文本、图像和图文对三种模态数据随机混合在一起，其中图像被转换为目标(object)序列，文本被转换为词(token)序列，图文对被转换为目标序列和词序列的拼接。统一模态学习对三种类型数据进行统一处理，在目标序列或者词序列上基于掩码预测进行自监督学习，并且基于图文对数据进行跨模态对比学习，从而实现图像与文本的统一表示学习。进一步的，这种联合学习方法也让文本知识和视觉知识互相增强，从而有效提升文本语义表示和视觉语义表示的能力。

此方法在语言理解与生成、多模理解与生成，4类场景、共13个任务上超越主流的文本预训练模型和多模预训练模型，同时登顶权威视觉问答榜单VQA、文本推理榜单aNLI。首次验证了通过非平行的文本与图像单模数据，能够让语言知识与视觉知识相互增强。此工作被ACL2021主会长文录用。

论文地址:https://arxiv.org/abs/2012.15409

五、破解NLP技术难题，助力产业智能化

文心ERNIE全新开源发布4 大预训练模型，不断推动NLP模型技术研究层面的创新与应用。

语言与知识技术被看作是人工智能认知能力的核心。2019 年以来，百度凭借在自然语言处理领域的深厚积累取得了系列世界突破，发布了文心ERNIE语义理解平台，该平台广泛用于金融、通信、教育、互联网等行业，助力产业智能化升级。

作为“人工智能皇冠上的明珠”，NLP领域向来是人工智能技术研发与落地实践的前沿。百度文心平台基于领先的语义理解技术，帮助企业在NLP赛道上跨过技术、工具、算力、人才等门槛，对开发者和企业进行开放，全面加速NLP技术助力全产业智能化升级进程，为AI工业大生产插上智能的“翅膀”。

12月16日，讯飞AI录音笔旗舰新品S8离线版重磅上市。该款产品为完全隔绝外界网络转文字AI录音设备，其所有功能均在本地实现，为对安全性有严格要求的用户群提供了新工具。数据泄露事件频发，信息保护需求凸显数字世界以网络连接为基础，以数据流动释放价值。在数字化浪潮

核心亮点：解锁电竞未来： ROG将于CES 2025 ROG新品发布会推出多项创新技术，彰显电竞实力超强产品阵容：探索为顶级性能释放和极致使用体验而打造的全新ROG新品笔记本终极性能：全新ROG枪神系列、ROG魔霸系列、ROG幻Air系列及幻X笔记本登场，为极致性能、便携性及潮流设

近日，以“科技赋能家电产业转型升级”为主题的2024中国家电科技年会在湖北武汉召开，海信空调受邀参加“家电噪声技术专题研讨会”，并作主题汇报。同时，“第三届全国轻工适老创新产品及智能健康解决方案大赛”结果隆重揭晓，海信空调以柔风、送风、智能等显著优势一举

时至十二月，又是一年终末。伴随着12.12的来临，厂商们纷纷开启了新一轮的促销优惠。作为年末备受期待的好物节，声势浩大的促销无疑是大家挑选心仪好物的好机会。如果你想在近期为自己选购一款智能手表来激励运动监测健康，不妨尝试一下最新的三星Galaxy Watch7和三星Ga

2024年进入尾声，国补政策即将在12月31日结束，还尚未使用笔记本国补资格的消费者朋友们不妨关注高颜值游戏本华硕天选5Pro锐龙版，其搭载GeForce RTX 4070笔记本电脑GPU，NVIDIA GeForce RTX™ 和 NVIDIA RTX™ GPU 专为 AI 时代打造。RTX GPU 由业界领先的 NVIDIA GPU

《使命召唤：黑色行动6》是由Treyarch和Raven Software联合开发，并由动视发行的第一人称射击游戏，于2024年10月25日正式发布。游戏上线Steam后，获得了广大玩家的好评。动视官方也宣称，《使命召唤：黑色行动6》成为《使命召唤》系列中首发最成功的作。在游戏正式发布

由GSC Game World开发并发行的《潜行者2:切尔诺贝利之心》已在STEAM正式上线,这是一款探索冒险题材的第一人称射击游戏。游戏以2006年第二次核反应堆爆炸事件为背景,玩家将化身为一名“潜行者”,面对一场史诗级的危险战斗。游戏首发即支持NVIDIA DLSS 3技术,搭载耕升 GeF

ROG游戏手机9系列自上市以来，赢得了不少信仰玩家的喜爱与支持，其凭借着出色的性能释放、独一档的185Hz屏幕刷新率，成为了手游爱好者们绝佳的上分利器。全新的矩阵式液冷散热架构9.0此次更是获得了酷冷风扇X Pro、ROG冰川液冷壳等全新配件的加持，使ROG 9系列获得了更

自12月2日掠夺者电竞大赛2025中国区挑战赛招募贴发布以来，受到了来自全国范围内游戏玩家及无畏契约战队的广泛关注，在不到一周的时间内，百余支战队积极报名。本届掠夺者电竞大赛不仅秉持公平公正的赛事精神，更是在战队筛选中推出了平等化社交媒体化的全新规则，在#宏

近日,2024年得力数码打印新品推介会在湖南长沙隆重举行。新品推介会以“善印起航,智绘新篇”为主题,得力集团副总裁张磊、设备事业部行业部总监薛峰、数码打印产品部总监丁启等众多公司领导共同出席活动,与专业渠道客户、行业渠道客户、B2B平台总部负责人等近百位经销商

在2024年12月6日至7日于北京举行的 “2024 T-EDGE全球创新大会”上，众多科技界精英齐聚一堂。大会期间，备受瞩目的「2024 EDGE AWARDS 全球创新评选」揭晓了年度各大奖项，其中，北京智爱未来科技有限公司旗下的AISON爱畅新一代便携式智能K歌音箱凭借“搭载了优质的扬

随着双12脚步的日益临近，2024年最后一场盛大的的购物狂欢节即将拉开帷幕。在这个专属于消费者的节日里，各大手机厂商也为消费者带来了诸多福利政策，给想要手机换新的朋友带来更多选择。作为潮流科技单品的代表，三星Galaxy Z Flip6集时尚设计、实用外屏、出众影像和尖

近年来，随着科技的迅猛发展和人们生活方式的变化，可穿戴设备的市场呈现出蓬勃发展的趋势。近日，国货品牌西普尼重磅发布首款搭载华为智能机芯的珠宝级智能女表，打破传统智能腕表的设计边界，为年末智能穿戴设备市场带来一场视觉与科技的双重盛宴。在外观设计上，它采

作为全球范围内显示技术的一个极其重要的分支，量子点这项在2023年获得诺贝尔奖的尖端技术，近年来引起了越来越多包括TCL、三星、索尼等在内的电视龙头企业关注，其中作为全球量子点显示技术先行者的TCL，近期在该领域再次取得了新突破，推出了量子点Pro 2025技术，并且

冷冬渐至，北风低吟，随着寒潮席卷国内多地，冬季也正式拉开序幕。骤然变冷的天气不仅容易诱发感冒等季节性疾病，同时也打乱了不少朋友们的生活节奏与运动规律。而如果想要在冬季追求健康生活，一款能够监测运动与身体健康情况的三星Galaxy Watch智能手表就成了非常不错

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区 · 齐鲁软件园鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.

四大模型革新NLP技术应用 揭秘百度文心ERNIE最新开源预训练模型

四大模型革新NLP技术应用揭秘百度文心ERNIE最新开源预训练模型