滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

Facebook这项新技术，或许将帮人类弥合语言鸿沟

时间：2017-08-05 10:03:23 来源：PingWest品玩编辑：星辉 发表评论无障碍通道

《创世记》第11章中记载，人类计划建立通天的高塔，而上帝让人类说不同的语言，使得他们无法协作，计划最终失败。

现实中，不同语言成为了各自所属文化的因子，构建出一种多样的美。但语言仍像鸿沟，阻碍着人类的交流。

最近，Facebook用人工智能对翻译系统进行了一次重大改造。

他们的工程师发现，网站上对帖文和回复进行翻译的按钮每天会被点击数十亿次，翻译动作有数千个方向(比如中英互译，英文到中文是一个方向，反之又是另一个方向)之间。

如此巨量的翻译工作，Facebook一直以来做的却不好。他们过去使用的统计机器系统，翻不准俗语，识别不了错字和缩写，无法理解上下文，很难准确翻译帖文的意图。于是，工程师们用改用一种名叫“带注意力的长短时记忆”(Long Short-Term Memory with attention, LSTM) 的深度学习技术，设计了一套人工智能翻译系统。

目前，新的神经机器翻译系统已完全取代了过去的机翻系统，部署到Facebook网站、Instagram以及其他产品中。改造的效果显著：按照业界公认的BLEU标准，Facebook新翻译系统各种语言互译得分比旧系统提高了11%。

人际沟通大多通过语言完成。而当参与方不使用统一语言，沟通就必须通过翻译。因此翻译系统的准确度极大影响着沟通的成果。但遗憾的是，绝大多数网上和手机上的翻译网站和软件，背后的技术都来自机器翻译。

通常，机翻系统对常见的单词、短语和句法简单的句子翻译效果较好。如果一句话就是主谓宾，比如“我吃米饭”，系统翻译成 “I eat rice”，这没问题。

但比如中日互译、或者下图中土耳其语和英文互译，原文的语言和翻译后语言在句法上有很大的差别，机器翻译就会捉襟见肘了。下图是机翻结果：

20273931_1565950253456397_4591107382708273152_n

翻译出的英文没有语法错误，但还是不太容易懂什么意思。这是因为机翻会把句子拆成一个个字段，结果就是把一个个字段的翻译放出来，没有对目标语言的语序、语法和表达习惯进行优化。

人工智能怎样做到更准确、更有人味儿地翻译呢?

维基百科解释， LSTM是一种在时间上递归神经网络 (Recurrent Neural Network)，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。翻译正好是这种类型的工作，因为很长的一句话，可能后半段是对前半段的逻辑呼应，但机翻系统根本不记得前面说的是什么。

LSTM能记住整句话的内容，对句子的上下文进行反溯，理解逻辑，从而给出更精确、流利和地道的翻译结果，如下图：

20483598_124176098203702_6336092654509490176_n

“注意力”(attention) 也是深度学习里一个很有趣的机制，它有点像人类观察事物时眼神的聚焦，锅里有菜，你会自动把更多注意力分配到菜上而不是锅或者锅柄。

注意力能够帮助新系统留意一些在标准英语辞典里没有出现的词，这些词很有可能是缩写和短语，比如idk (I don’t know)、tmrw (tomorrow)，也有可能是网络用语。当神经机器在句子里发现这样的词，会先留空不翻译，分配一定的计算力，去其他词库和训练数据集查找这个词的释义，最后再翻译出来。

不仅如此，研发团队还利用了一些神经网络剪枝(保留重要的权重)和压缩编码的算法，极大地降低神经翻译系统的词汇表大小，减小了计算量，但没有拉低翻译精度。

搞定了翻译系统，并不是终点，工程师们还要把它部署到Facebook数十亿用户量级的后端系统中去。开发了深度学习框架Caffe的Facebook研究科学家贾扬清，已经带队开发出了更注重模块化，利于移动端和大规模部署的Caffe2。在新框架上运行，神经翻译系统的效率提升了2.5倍。

由于深度学习技术的进展，神经机器翻译在近年越发流行，并已进入许多流行的产品中，开始帮助人们更好地沟通。微软推出的翻译软件Microsoft Translate，让沟通多方像用微信一样加入群聊，自然对话并获得各自的翻译，备受好评。

去年，全球5亿人使用的Google Translate服务中部署了神经翻译机器。当时PingWest品玩用一些经典中英段落测试互译，仍会出现奇怪的翻译：

In my younger and more vulnerable years my father gave me some advice that I’ve been turning over in my mind ever since.

“Whenever you feel like criticizing anyone,”he told me,”just remember that all the people in this world haven’t had the advantages that you’ve had.”

人工翻译：

我年纪还轻，阅历不深的时候，我父亲教导过我一句话，我至今还念念不忘。

“每逢你想要批评任何人的时候，”他对我说，“你就记住，这个世界上所有的人，并不是个个都有过你那些优越条件。”

Google神经机器翻译(去年)：

在我更年轻，更容易年，我的父亲给了我一些建议，我一直在我心中从此翻身。

“每当你觉得批评任何人，”他告诉我，“只记得，所有的在这个世界上的人都没有，你有过的优势。”

时隔一年之久再去测试，效果已经好了很多：

在我年轻，更脆弱的岁月里，我父亲给了我一些建议，自从我一直在转过头来。

“每当你想批评任何人，”他告诉我，“只要记住，这个世界上所有的人都没有你的优势。”

这是由于神经机器翻译后端的深度学习系统学习能力比统计机更强。随着输入的数据源，以及使用的人越来越多，它能不断提升翻译技巧。Facebook用户刚刚超过20亿，每天都有超过13亿说不同语言的人在上面分享活动、发图片、评论以及点赞。现在，Facebook翻译后端已经完全迁移至神经机器翻译，这些训练好的神经网络每天处理多达45亿次翻译请求。

未来，Facebook打算引入一些更先进的神经网络架构，比如卷积神经网络 (Convolutional Neural Networks, CNNs)。测试结果发现使用CNN进行英法互译的BLEU得分比LSTM进一步提升了12%。不仅如此，他们也在尝试一些更难的挑战，比如多语种(而非双语种)翻译。

届时，基于神经网络的翻译系统，将在精度、地道程度、多语种翻译能力等更多维度上超过和取代统计机，甚至人工翻译——就目前来看，取代这些工作可能是人工智能为数不多的坏处之一。

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

中央经济工作会议力推哪些新兴经济模式？

12-19

水滴公司Q3财报亮点：营收稳步增长，运营利润达2650万

12-19

技嘉冰雕X870I主板全白亮相，AORUS PRO ICE图赏来袭！

12-19

宠物粮市场乱象频发，铲屎官如何为宠物选对粮？

据“趣解商业”了解，“源鲜”曾是网易严选、喵梵思等国产中高端品牌多次合作的代工厂，在不少养宠人心中有较高信任度；“源鲜”的塌房，再次挑动了许多养宠人的神经。 Erica还提到，宠粮本质上属于快消行业，并不是靠…

12-19

柔韧机器人：具身智能的新赛道与革命性突破？

相比于现阶段普遍使用的基于电机关节、金属材料、复杂传感器和精密加工工艺的“刚性”机器人技术，万勋科技通过使用软性材料与气/液驱动，以软材料仿生肌肉和神经元智能复刻人类肌肉柔韧特性，具备轻巧灵活、安全互动、易…

12-19

北京中关村科学城国际医谷开工，打造医疗健康产业集聚新高地

作为项目建设推进方，北京海新域城市更新集团相关负责人介绍，中关村科学城国际医谷项目将在产业链上游吸引顶尖研发机构和企业，汇聚创新源头力量；在中游通过公共技术服务平台降低研发门槛，助力创新的想法实施；在下游建…

12-19

《猎人克莱文》IGN仅评3分，高成本制作却换来低质口碑？

12-19

中兴通讯股价异动，公司称生产经营正常，无未公开重大信息影响股价

12-19

顺丰控股11月速运物流营收微增，供应链及国际业务增长超两成

12-19

澳门风情画轴展开，智界新S7穿梭其中成焦点

12-19

国产高端仪器新突破！首套高精度激光干涉仪测评装置研制成功

12-19

中国大陆TFT基Micro LED量产线点亮，新一代显示技术破茧而出！

12-19

字节跳动警示：勿盲从“豆包概念股”市场传言

三言科技12月19日消息，今日，字节跳动发布声明称，近期，资本市场出现炒作“豆包概念股”现象，流传着众多夸大其词甚至虚构内容。涉及字节跳动资本开支、数据中心花费、AI硬件、应用合作等多方面。字节跳动强调，投…

12-19

第十六届无锡新能源展盛启，27大项目签约，新能源装备之都蓄势待发！

12-19

极氪007猎装版路测谍照流出，圆润车身配空气悬架引期待

12-19

点击查看更多 +

全站最新

黑洞风狂飙！时速3600万英里，能否重塑宇宙星系新貌？

月亮对地球有多重要？《我们真的需要月亮吗》纪录片深度解读

水滴公司Q3财报亮点：营收稳步增长，运营利润达2650万

技嘉冰雕X870I主板全白亮相，AORUS PRO ICE图赏来袭！

iQOO Neo10 Pro：游戏玩家新宠，旗舰性能畅爽体验

国产DDR5新突破！光威金百达32GB套装仅需499元首发

热门内容

本栏最新

水滴公司Q3财报亮点：营收稳步增长，运营利润达2650万

技嘉冰雕X870I主板全白亮相，AORUS PRO ICE图赏来袭！

宠物粮市场乱象频发，铲屎官如何为宠物选对粮？

柔韧机器人：具身智能的新赛道与革命性突破？

北京中关村科学城国际医谷开工，打造医疗健康产业集聚新高地

《猎人克莱文》IGN仅评3分，高成本制作却换来低质口碑？

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区 · 齐鲁软件园鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.