您的位置:首页>>业界动态

自然语言处理“桥头堡”百度与一线技术专家齐聚AI ProCon ERNIE超“吸睛”

发布时间:2019-09-10 10:51:26  来源:互联网    背景:

  北京虽已入秋,但依旧迎来AI的一股热浪。风靡自然语言处理领域的“网红”预训练模型百度ERNIE再次现身“极客盛宴”,引发行业广泛关注。

  9月5日,CSDN主办的为期三天的 2019 AI开发者大会(AI ProCon)在北京拉开序幕。大会聚集国内外如百度、华为、Google微软等40多知名科技公司,60位一线技术专家,深入聚焦技术与应用,阐述产业变革。7日下午自然语言处理论坛中,百度NLP主任研发架构师孙宇从自然语言处理的关键难点语义表示技术切入,为到场开发者解析了中英文任务超越谷歌BERT的百度语义理解框架ERNIE。

C:\Users\XINYAN~1.HUA\AppData\Local\Temp\1568019207(1).png

  语言表示是解决自然语言理解的首要问题,语言表示的好坏一定程度决定了计算机处理自然语言的效果。基于此,百度在今年3月首次提出知识增强的语义表示模型ERNIE(Enhanced Representation from kNowledge IntEgration),它在中文NLP任务上表现非凡,百度在多个公开的中文数据集上进行了效果验证,在语言推断、语义相似度、命名实体识别、情感分析、问答匹配等自然语言处理各类任务上,超越了谷歌的语义表示模型BERT的效果。

  ERNIE模型通过建模海量数据中的实体概念等先验语义知识,学习真实世界的语义关系。具体来说,百度ERNIE模型通过对词、实体等语义单元的掩码,使得模型学习完整概念的语义表示。相较于 BERT 学习原始语言信号,ERNIE 直接对先验语义知识单元进行建模,增强了模型语义表示能力。

  例如:

  Learned by BERT:哈 [mask] 滨是 [mask] 龙江的省会,[mask] 际冰 [mask] 文化名城。

  Learned by ERNIE:[mask] [mask] [mask] 是黑龙江的省会,国际 [mask] [mask] 文化名城。

C:\Users\XINYAN~1.HUA\AppData\Local\Temp\1567728556(1).png

  在 BERT 模型中,通过『哈』与『滨』的局部共现,即可判断出『尔』字,模型没有学习『哈尔滨』本身的任何知识。而ERNIE通过学习词与实体的表达,使模型能够建模出『哈尔滨』与『黑龙江』的关系,学到『哈尔滨』是 『黑龙江』的省会以及『哈尔滨』是个冰雪城市。

  会上,孙宇还用几道趣味填空题验证了ERNIE的知识学习能力。实验将段落中的实体知识去掉,让模型推理其答案。不难看出,ERNIE在基于上下文知识推理能力上表现的更加出色。

C:\Users\XINYAN~1.HUA\AppData\Local\Temp\1567728618(1).png

  ERNIE在自然语言处理领域前进的脚步从未停歇。沉淀短短几个月,升级后的ERNIE于8月正式推出。百度发布的持续学习的语义理解框架ERNIE 2.0在1.0版本中文任务全面超越BERT的基础上,英文任务取得了全新突破,在共计16个中英文任务上超越了BERT和XLNet, 取得了SOTA效果。

  孙宇指出,以BERT、XLNet为代表的无监督预训练技术在语言推断、语义相似度、命名实体识别、情感分析等多个自然语言处理任务上在近两年取得了技术突破。基于大规模数据的无监督预训练技术在自然语言处理领域变得至关重要。百度发现,之前的工作主要通过词或句子的共现信号,构建语言模型任务进行模型预训练。例如,BERT通过掩码语言模型和下一句预测任务进行预训练。XLNet构建了全排列的语言模型,并通过自回归的方式进行预训练。

  然而,除了语言共现信息之外,语料中还包含词法、语法、语义等更多有价值的信息。例如,人名、地名、机构名等词语概念知识,句子间顺序和距离关系等结构知识,文本语义相似度和语言逻辑关系等语义知识。如果能持续地学习各类任务,模型的效果将会将入一个全新的阶段。

C:\Users\XINYAN~1.HUA\AppData\Local\Temp\1567728771(1).png

  基于此,百度提出可持续学习语义理解框架ERNIE 2.0。该框架支持增量引入词汇(lexical)、语法 (syntactic) 、语义 (semantic) 等3个层次的自定义预训练任务,能够全面捕捉训练语料中的词法、语法、语义等潜在信息。这些任务通过多任务学习对模型进行训练更新,每当引入新任务时,该框架可在学习该任务的同时,不遗忘之前学到过的信息。这也意味着,该框架可以通过持续构建训练包含词法、句法、语义等预训练任务,持续提升模型效果。

C:\Users\XINYAN~1.HUA\AppData\Local\Temp\1568017173(1).png

  依托该框架,百度充分借助飞桨(PaddlePaddle)多机分布式训练优势,利用 79亿tokens训练数据(约1/4的XLNet数据)和64张V100 (约1/8的XLNet硬件算力)训练的ERNIE 2.0预训练模型不仅实现了SOTA效果,而且为开发人员定制自己的NLP模型提供了方案。目前,百度开源了ERNIE 2.0的fine-tuning代码和英文预训练模型。

  百度研究团队分别比较了中英文环境上的模型效果。英文上,ERNIE 2.0在自然语言理解数据集GLUE的7个任务上击败了BERT和XLNet。中文上,在包括阅读理解、情感分析、问答等不同类型的9个数据集上超越了BERT并刷新了SOTA。

  如今,百度已在自然语言处理领域积累十余年,ERNIE的诞生除了在学术领域的价值,也具备相当重要的产业价值,尤其是在目前国际贸易与科技背景下,拥有与谷歌比肩的语义理解框架意义非凡。ERNIE可以说是百度在自然语言处理方面的重要里程碑,未来百度还将持续深耕该领域,搭起人类与机器“畅所欲言”的沟通桥梁。

特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。


返回网站首页 本文来源:互联网

本文评论
头号玩咖参展2019世界VR产业大会 国务院副总理刘鹤莅临指导
2019年10月19日-21日, 2019世界VR产业大会在江西南昌举行。在同期举办的2019 VR/AR产品和应用展览...
日期:10-19
世界VR产业大会开幕 玖的揽获「中国VR50强企业」「VR/AR年度创新奖」两大奖项
10月19日,以“VR让世界更精彩——VR+5G开启感知新时代”为主题的第二届世界VR...
日期:10-19
开发者服务起风了:2019极光开发者大会,聚焦开发价值!
2019年10月19日,“2019极光开发者大会”在深圳召开,数千位互联网公司技术领袖、合作伙...
日期:10-19
华为:希望把VR/AR打造成下个智能手机产业
10月19日消息,2019世界VR产业大会在江西省南昌市举行。华为轮值董事长郭平发表了《打造VR/AR信息高...
日期:10-19
华为云受邀参加2019IDC中国数字化转型年度盛典,“5G+云+AI”助力企业数字转型
2019年10月18日,由IDC中国主办的“2019 IDC数字化转型年度盛典暨第四届中国数字化转型领军用...
日期:10-19
语音识别大拿Daniel Povey正式加入小米,将组团队开发下一代Kaldi
10月19日消息 据小米集团副总裁、小米技术委员会主席@崔宝秋-小米 消息,语音识别大拿Daniel Povey...
日期:10-19
蚂蚁金服共享智能平台打破数据孤岛,荣获“2019CCF 科技进步优秀奖”
10月18日,在2019中国计算机大会上,“蚂蚁金服隐私保护共享智能平台”荣获“CCF科...
日期:10-19
我国研发5款自主产权3D显卡:支持国产处理器及操作系统
   继国产处理器获得突破之后,国产GPU/显卡也取得了重大进展。
日期:10-19
华为开发者大会2020将于明年2月11日在深圳召开
10月19日消息 今日上午,据华为中国官方消息,华为开发者大会2020将于2020年2月11日-12日在深圳召开...
日期:10-19
Digitimes:英特尔将在2020年中发布Xe独显,采用10nm工艺
10月19日消息 根据TPU的报道,接近Digitimes的消息人士透露,英特尔将很快推出其首个10纳米独立显卡...
日期:10-19
AMD有望在11月5日发布新款线程撕裂者和TRX40芯片组
10月19日消息 根据VideoCardz的独家爆料,AMD计划发布三款Threadripper 3000处理器,分别是 3960X,...
日期:10-19
英特尔将于月底推出新款超低压处理器:10nm工艺,3D封装
10月19日消息 根据Notebookcheck的报道,英特尔将于2019年10月23日和24日在加州圣克拉拉的凯悦酒店...
日期:10-19
政企智能转型升级正当时 华为云打造西安智慧产业新高地
10月17日,由华为公司主办的“西安·选择不凡 华为云城市峰会2019”在西安如期举行...
日期:10-19
华为云依托5G+云+AI技术 加速政企转型升级
10月17日,“西安·选择不凡 华为云城市峰会2019”如期在西安举行。西安市市长李明...
日期:10-19
西安航天基地华为云人工智能创新中心正式发布
10月17日,西安·选择不凡 华为云城市峰会2019在西安举行,针对Cloud 2.0时代下的政企上云需...
日期:10-19
人才培养正当时,华为云联合7大高校发布西北鲲鹏人才培养计划
  10月17日,西安·选择不凡 华为云城市峰会2019在西安拉开帷幕,着眼西北地区科技创新发展,华...
日期:10-19
爱奇艺创新CDN系统奇速播荣获中国计算机学会 “CCF科学技术奖科技进步杰出奖”
10月17日-19日,由中国计算机学会(CCF)创办的2019中国计算机大会在苏州举办,爱奇艺融合边缘云的新...
日期:10-19
世界互联网大会开幕,UCloud优刻得展示企业上云新科技
10月18日上午,第六届世界互联网大会“互联网之光”博览会在浙江乌镇拉开帷幕。国家互联...
日期:10-19
Breeno语音“万物互融”丰富覆盖渠道,为开发者提供更多品牌精准客群
10月15日「OnePlus 7T 系列新品发布会」在北京举办。此次发布会除了发布了硬件端旗舰级一加手机,也...
日期:10-18
哈弗H6斩获第76个月销冠,不断刷新SUV市场销量记录
进入2019年下半年后,中国汽车市场发生了微妙的变化,轿车相较2018年依旧呈现下跌态势,而SUV异军突起,...
日期:10-18
  专栏介绍
半斤 的专栏
半斤发表的文章
积分:
自我介绍 :