边听边看风光无限！百度全新发布语音到语音的同传AI小程序

时间：2019-05-28 17:08:37 来源：ITBear编辑：星辉 发表评论无障碍通道

翻译为人类重新建立交流的巴别塔，机器翻译则让无障碍沟通的门槛降得更低。5月26日，2019自然语言处理前沿论坛上百度人工智能技术委员会主席何中军博士带来“机器同传：进展与展望”的主题演讲，并现场使用了“百度翻译AI同传”这一语音到语音的全新同传产品。

据介绍，全新百度翻译AI同传小程序仅需扫码即可使用，同传直播页支持边听边看，体验更实时、流畅。采用云端接入方式，无需传统的同传设备，降低会议成本。此外，会后同传记录还可以一键同步网盘，方便随时查看。

机器同传：机遇与挑战并存

机器同传成为人工智能领域前沿研究方向之一。随着语音和机器翻译技术的进步，机器同传取得了较大进展，也面临着一系列挑战:

挑战一：语音识别错误。由于演讲者的口音、语速以及会场的噪声影响，语音识别通常会存在一定的错误率，这错误会在翻译中进一步放大。解决这一问题，需要从两方面下功夫，一是高质量的语音识别系统，二是具有容错能力、高鲁棒性的翻译模型。

挑战二：质量与时延的平衡。同传最具魅力的地方在于其低时延，但高质量翻译和低时延之间存在天然矛盾。要想获得高质量的翻译，需要等待演讲者更多的信息，时延就会变长。目前，几乎所有的“实时”翻译系统仍然使用传统的全句(即，非同时的)翻译方法，造成至少一个句子的延迟，使得译文与说话者不同步。

挑战三：翻译的连贯性和一致性。目前，几乎所有的翻译系统都是以句子为单位进行翻译的，句子与句子之间连贯性较差。同传的主要场景是对演讲者的内容，进行实时翻译，需要保证翻译前后内容的连贯和一致。

挑战四：训练数据不足。在语音领域，有数十万小时的训练数据;在机器翻译领域，有数十亿句对的训练数据。然而，面向真实场景的同传数据，只有几十到几百个小时，远远不足以训练高质量的同传系统。

挑战五：评价指标的挑战。在文本翻译任务中，一般根据翻译句子的流利度(语序)和忠实度(完整翻译)对结果进行评价。同传不同于笔译，可以有足够的时间去构思、推敲，同声传译要求译员在极有限的时间内对接受到的信息进行重组，使目的语听众了解原语发言人的讲话内容。因此，会采用“顺句驱动”“合理简约”等方法。传统的评价文本翻译的指标不适用于评价同传的结果。

百度翻译AI同传：多项创新技术取得突破进展

百度翻译AI同传集成了百度在同传上的最新技术，在语音容错、可控时延、篇章翻译、端到端模型等方面都提出了创新的解决方案。

在语音容错方面，为提高翻译的准确度和鲁棒性，百度提出了“联合文本和拼音编码”的语音翻译模型(Robust Neural Machine Translation with Joint Textual and Phonetic Embedding)。这一模型的创新之处在于对文本和拼音进行联合编码，缓解语音识别带来的错误。比如，发音都是“datang”的“大堂”和“大唐”很容易令语音识别系统混淆。传统的翻译模型只使用了文本信息进行编码，百度提出的模型在编码端加入了音节信息，使得模型具有容错能力。

在实时性方面，人工同传可以很好的处理质量与时延的平衡。从人类译员那里获得灵感，百度提出了具有预测和可控时延的翻译模型(STACL： Simultaneous Translation with Integrated Anticipation and Controllable Latency)。在这个模型中，在等待讲话者开始后的第K个词，就开始翻译。模型在每个步骤使用源语句的可用前缀，以及到目前为止的翻译来决定翻译中的下一个单词。该模型一个显著的优点是其具有可调节性，实际使用中可以根据需要调节K值，以平衡翻译质量和时间延迟。

在语篇翻译方面，百度提出了基于多轮解码校对网络的篇章翻译模型(Modeling Coherence for Discourse Neural Machine Translation)，用于解决篇章翻译过程中的一致性和连贯性问题。该模型首先进行第一轮解码根据单个句子生成初步的翻译结果，其后根据已经生成的上下文信息，对翻译结果进行第二次解码，重新调整翻译内容。并且利用深度增强学习的技术，调整当前句子的译文和已经生成的译文保证良好的连贯性和一致性，在译文的整体流畅性上取得显著提高。

在端到端机器同传模型方面，百度提出基于知识蒸馏的同传模型(End-to-End Speech Translation with Knowledge Distillation)。首先利用大规模文本翻译语料训练一个教师模型，然后利用端到端语音翻译训练语料中的源语言转录文本和目标语言翻译文本对教师模型进行微调(fine-tune)。在微调的过程中，利用知识蒸馏技术(Knowledge Distillation)对端到端语音翻译的学生模型(Student Model)进行预测分布修正。该模型可以有效克服数据稀疏问题，显著提升翻译质量。

“未来，机器同传可以从以下三个方面开展工作，在模型方面，研究高鲁棒、低时延的同传模型;在数据方面，建设大规模面向真实场景的同传数据;在评价方面，建立面向同传的评价体系和标准。” 何中军表示。

层出不穷的网络新词，难以理解的语境，让机器翻译还不能做到“信达雅”，但随着技术的发展，机器翻译也在不断进化。为推动机器同传技术发展，百度翻译联合CCMT2019(全国机器翻译研讨会)推出全球首个面向真实场景的中英同传评测任务(http://ccmt2019.jxnu.edu.cn/page/main1923/pctz.htm)，同时发布了首个真实演讲场景的中英同传数据集CCMT2019-BSTC(http://ai.baidu.com/broad)，两项工作都将极大地推动同声传译的相关研究和发展。

“有一天，当你在北京人民大会堂和世界各国友人聚会的时候，你会发现，无论哪个国家的人在台上讲话，与会者都能从耳机里听到自己国家的语言……” 这是54年前，刘涌泉、高祖舜、刘倬合著的《机器翻译浅说》里对未来的机器翻译发展和应用的畅想和展望。而今天，随着技术的进步，畅想正在逐步走向现实。百度翻译AI同传解决方案的提出，提供了一种更方便、成本更低的服务选择，而未来，随时随地自由沟通的梦想也将离我们越来越近。

根据美国官网的新闻稿，新款MacBook Pro的起售价（14英寸机型、M4芯片、16GB统一内存、512GB固态硬盘）为1599美元。MacBook Pro硬件中最受关注的自然是M4系列芯片，该系列采用…

寒冷冬日里，一款Popsockets x Pingu联名的毛绒支架不仅能为你的手机提供稳固的支撑，还能以其可爱的毛绒外观温暖你的手心，爆款直降到手189元，无论是自用还是送礼，都是绝佳的选择。贝尔金扩展坞以其…

10 月 31 日消息，科技媒体 9to5Google 于 10 月 29 日发布博文，报道称谷歌向更多安卓平板、可折叠手机扩展推出Gemini AI 分屏功能。三星的 Galaxy Z Fold6 手机…

10 月 30 日消息，搭载 M2 和 M3 芯片的 MacBook Air 现标配 16GB 内存，相比之前翻倍，而起售价 7999元，IT之家附价格如下： M2MacBook Air：8 核心 CPU+…

10月31日消息，近日，荣耀Magic7系列旗舰新品发布会上，荣耀CEO赵明正式宣布荣耀GT将成为独立产品线，定位“更懂年轻人的全新性能科技系列”，并确认首款产品将于年底发布。荣耀CEO赵明在采访中表示，作…

其搭载的M4系列芯片采用了台积电第二代3nm工艺制造，集成了运行速度更快的中央处理器，有着更先进的图形处理器和能效更高的神经网络引擎；所有机型均配备一个支持最高8K分辨率的HDMI端口，一个SDXC卡插槽，一…

10月31日消息，近日，荣耀于深圳正式发布了年度AI旗舰手机——荣耀Magic7系列，首发搭载AI智能体，支持全焦段AI超清雅顾人像模式，全系搭载骁龙8至尊版处理器，第三代青海湖电池等，售价4499元起。作…

小米15 Pro则为2K 6.73英寸等深四曲屏，对比小米14的1.5K屏，小米15Pro的2K屏的功耗几乎相同，整个屏幕的功耗下降了24%。不同的是，小米15 Pro提升了长焦配置，采用小米14 Ul…

搭载天玑8250星速版旗舰芯片，Reno12在性能上有着出色的表现，无论是多任务处理还是大型游戏，都能流畅运行，满足用户对高性能手机的需求。无论是追求时尚的Reno12、耐用的A3 Pro，还是性能旗舰Fi…

快科技10月31日消息，今天，Redmi K80全系获得入网许可，其中24122RKC7C是K80标准版，24127RK2CC是K80Pro，两款机型将于11月正式发布。入网信息显示，K80标准版支持90…

随后，荣耀方面在向《每日经济新闻》记者发送的一份声明中表示，荣耀始终坚持公开透明的发展原则，持续推动股权结构多元化。早在2022年11月，荣耀便完成了一轮战略融资，当时新增了6名股东，包括屏幕显示供应商京东方…

目前官方尚未透露红魔高能量密度电池技术的细节，这块电池预计采用新一台硅碳负极材料。另外，红魔10 Pro系列首发新一代真全面屏，这块屏幕由红魔和京东方联合打造，双方共同研发了超级COP封装工艺，同时还搭载…

快科技10月31日消息，作为别克的“现金奶牛”，GL8向来都是畅销车，价格也相当坚挺，在别克品牌里属于异端，然而今天随着新款Gl8陆尊的上市，一切都发生了变化。全新一代别克GL8陆尊在上汽通用泛亚设计中心正式…

10月31日，CNMO注意到，在小米15系列发布后，小米高管们开始将预热重点转向另外一款旗舰机型——Redmi K80系列。小米中国区市场部副总经理、Redmi品牌总经理王腾则表示：“极致性价比会由Redm…

据悉，联发科天玑8400芯片将采用台积电的4nm工艺打造，全球首发Cortex-A725全大核架构，理论跑分在170万分到180万分左右。作为对比，目前的高通骁龙8Gen 2移动平台机型跑分为160万分左…

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区 · 齐鲁软件园鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.

边听边看风光无限！ 百度全新发布语音到语音的同传AI小程序

边听边看风光无限！百度全新发布语音到语音的同传AI小程序