(原标题:网易有道段亦涛:神经网络翻译帮助我们更好理解人工智能)
2017GMIC(全球移动互联网大会)未来创新峰会上,网 易有道首席科学家段亦涛发表了《机器翻译皆有道》的主题演讲,分享了其在神经网络翻译领域的研究,并表示该技术将在有道词典、有道翻译官、有道翻译网页版等产品上陆续上线,这意味着超7亿有道用户将便捷地享受到这一技术带来的便利。段亦涛表示,神经网络翻译是人工智能在翻译领域的具体应用,是目前最前沿的机器翻译技术,它带来的翻译质量提升是过去十年的总和。
以下是其演讲原文(有删减):
大家好,很高兴有机会在这里跟大家分享有道在机器翻译方面做的一些探索。先简单自我介绍,我是网 易有道首席科学家,本科和硕士在北航学飞机设计专业,博士在加州大学伯克利分校学计算机科学。之后我就加入了网 易有道,目前主要关注机器学习领域,尤其是深度学习在机器翻译、图象识别、在线教育等方面的应用。
神经网络翻译质量提升 是过去十年总和
有道其实很早就开始做机器翻译,我们在2008年就推出了机器翻译的服务,应该是国内最早推出这一服务的互联网公司。这两年我们更关注把深度学习接入机器翻译领域,我们研究成果是非常显著的,我们的机器翻译质量有非常大的提升。
我们先看两个例子,给大家一个直观的感受。第一个例子是英译中的,我们随便从外媒选取了一段新闻报道,报道内容是关于前段时间巴黎恐怖事件。我们用各个翻译引擎来进行了翻译,第一个是统计翻译模型,第二个是我们的神经网络翻译模型,第三种是某海外的神经网络翻译引擎。
从上面的结果可以看出来,统计翻译模型的结果拼凑感非常明显,而且有些片断翻译还搞错了,整体来看很不通顺;有道的翻译结果,可以看到是相当的准确和流畅的;第三个国外神经网络翻译模型的结果,可以看到不少的不准确的地方。
我们再来看一个中译英的例子,我们摘取了机器之心前段时间发布的一条消息。我们主要看看各家神经网络翻译的结果,可以看到,有道上线的神经网络翻译的结果,仍然是通顺和准确的,这里面几乎没有任何语法错误。这个结果,即使是普通人中等英文水平,都很难达到,但是我们的神经网络翻译做到了。再来看另个国外神经网络模型的翻译结果,其实还是看出有明显的不合适的地方,比如“起起伏伏”以及一些词之间的关系搞错。
也许有人会问,这些例子是不是精心挑选出来的。事实上,以上两个例子只是我们随机选出的两个,没有特别的筛选。我们对质量的评测非常严格和客观,我们采用庞大的评测数据集,并在这个数据集上看整体的质量。大家可以下载有道翻译官App直接体验这个最新的翻译结果。
另外我们再看两个数字,首先有道过去两年研究神经网络翻译所带来的质量提升差不多是过年十年质量提升的总和,同时这个技术很快会被有道旗下的超过7亿的用户便捷地享受到。
人工智能改变翻译 更聪明更高效
神经网络模型是一个很前沿的技术,那它为什么能够在机器翻译领域能起到如此大的作用呢?实际上,神经网络模型模仿了人脑的工作机制,整个模型由大量的“神经元”来构成,一个“神经元”完成一些简单的任务,然后通过对这些“神经元”的组合来协调工作,最终得到更加出色的效果。
而以前的统计翻译模型更像一个机械系统,它由很多个组件来构成,包括短语组件、分词组件、条序组件还有原模型等等。每个模块都是有各自的功能和各自的目标,然后机械地拼装在一起,完成一个翻译的结果。和它相比,神经网络翻译模型更像一个有机体,模型里面有很多参数,这些参数都是为同一个目标来调整和优化的;它们中间的结合和交互更加有机,所以整体效果会更好。
另一个不同是,两种模型的内部信息的表达方式也不一样。在统计翻译模型里,其表达方式能够识别词,但却不能够表达词与词之间的关系,比如两个词的词义是相似还是相反的。而我们的神经网络翻译模型,它使用一个十数位的向量来表达每个词,它的表达能力更丰富、更灵活,以及能够更好地来表达词和词之间的关系。比如说“计算机”和“电脑”这两个词,那么它们很可能在向量空间里离得很近。这种表达方式能够顾及到更多这样的关系,它的内部表达是一个有机整体,从而生成更通顺的翻译结果。
正如刚才所说,有道很早就开始研究机器翻译领域,我们今天之所以在神经网络翻译领域能够获得这样的效果,有几方面的原因。
首先,有道在机器翻译领域深耕了近十年,我们积累了大量的优质的语料和技术。我们依托有道词典积累的语料和用户数据,能够在英语学习这种翻译场景下做到最好。其次,我们更加关注中文和其他外语之间的翻译,所以火力更加集中,我们针对中文特有的语言现象做了非常多的优化,包括中文的分词等等。这些优化都直接体现在最终的翻译结果中。另外,我们集合网 易公司的研发之力,和网 易杭州研究院一起,攻克了数据处理、大规模框架、模型优化、领域适配等技术难题,开发了一些我们特有的技术,比如我们自己的领域适配技术,使得我们的模型能够自动识别不同场景。目前已经在新闻、学习、口语和一些科技领域等场景下做到了最优。”
我们做的神经网络翻译技术,目前可以很便捷让用户体验到。比如用我们的翻译引擎来做文本翻译,翻译效果比以前有了很大的提升;有道翻译官的拍照翻译,用户只需要对文本进行拍照,就可实时展现出神经网络翻译的结果。另外,我们人工翻译的团队也开始全面使用有道上线的神经网络翻译技术,推出了“有道人机翻译”服务:客户提交订单后,神经网络翻译模型会先做一版初步翻译,译员们再在这个基础上进一步调整,这就很大地提高了翻译效率,同时翻译费用降低了50%。
有道翻译官拍照翻译中的应用
机器翻译的未来 打破语言障碍
回到问题的最初,我们为什么要投入这么巨大的人力物力财力,研究神经网络机器翻译呢?
最直接和现实的价值就是,神经网络翻译能够帮助人打破语言的障碍,使得信息的流通更加通常。纵观历史,信息交流的变革都是对人类技术进步有很强的刺激作用,往远看有印刷术、造纸术,近代有无线和有线电报等,以及到今天互联网。虽然目前来看,信息技术的发展使得数据传输不再是瓶颈,但是另一个面临的问题就是语言的障碍,比如数据传过来没有问题,但能不能看懂和理解就是另外回事。那么神经网络翻译能够帮助人们打破这个障碍,使人的交流更加通常,这个意义是非常重大的。
同时,神经网络翻译对整个人工智能领域有明显的促进作用。语言和文字体系是人类特有的特性,所以如果我们没有真正的理解语言的机制,那么就不可能说我们真正理解和做到人工智能。而在神经网络翻译的研究过程中,既包括了对语言的理解,也包括了语言的生成,所以对它的研究能够很好地促进人工智能整体发展。
也正因为如此,有道以及网 易公司将以神经网络翻译技术为契机,进一步探索人工智能与机器翻译的结合,推动行业的技术创新和发展。