近日,全球领先的智能金融搜索引擎虎博科技公布了最新前沿研究成果Levenshtein Transformer,在机器翻译领域提升相关速率3倍以上,占领现有机器翻译高地。虎博科技创始人兼CEO陈烨表示,机器翻译能力的明显提升,不仅有助于提高人力效率,还能推动计算机科学、数学、语言学、翻译学等多种学科的快速发展,更对解决全球信息不对称难题有着重大帮助,可加速文化全球化的快速融合。
Levenshtein Transformer基于Transformer模型上进行优化与升级,是第一个可以自由控制长度的翻译模型,颠覆了现有机器翻译的流程和方式,以更灵活的序列打造机器翻译的机制和流程。通过在不同分词间进行增加词或者删除词的行为,突破了原有限定边界,同步优化整体语言表达,提升译文效果、摘要能力和时间效率,实现了目前最短时间达成长文本高质量译文的记录。据悉,Transformer是目前国际上公认的最先进的机器翻译模型,由Google于2017年提出并开源,全球一线科技公司均在使用。
虎博科技算法负责人Jake Zhao参与了此次研究,并针对不同目标、3组不同语言,在公开数据集上进行了多次试验。研究结果显示,新模型不仅在翻译速度上至少提升3倍,更在译文质量上有了显著变化。通常来说,现有Transformer模型需要对原文进行至少20次以上的串行解码行为,在测试集上的平均用时超过300毫秒,但Levenshtein Transformer可将串行的部分显著减少,通过并行得进行插词、删词来完成翻译。这样的模型设计不但将翻译的平均用时减到了100毫秒左右,还给予了模型在翻译中的能动灵活性。从译文质量上来说,基于Levenshtein Transformer的译文质量普遍评分更高。
Levenshtein Transformer实验结果
以“ The too high rotation speed produces the reverse deformation”为例,Levenshtein Transformer模型在3个插入删除周期后得到了质量较高的翻译。据了解,该模型在全球语言的转换中游刃有余,支持任何语种的直接翻译和总结。
Levenshtein Transformer实验示例
Jake Zhao表示,Levenshtein Transformer利用模仿学习的方式来训练插入和删除,让机器能更快更自然地进行模拟交流。同时,由于插入删除的互补性,借助模型插入后的句子去训练如何删除、用模型删除后的句子去训练插入,给予模型一个自我检查修改的机会,“例如,传统的autoregressive模型只能实现长度的增长和停止,但如果模型发现生成了不佳的词,并没有办法将该词撤回。而得益于可实现插入和删除的Levenshtein Transformer模型,它能自主、动态得控制模型的生成长度,让模型解码更具灵活性”。Jake Zhao进一步解释:“就和人类写作文一样,以前的模型不但是一个字一个字的写,而且不支持写完后修改,Levenshtein Transformer就更聪明,写完了还会自己修改”。
目前,虎博科技每天的全球资讯及金融数据机器翻译总量达上亿万次。以使用虎博搜索查找海外上市公司活跃用户为例,当键入“拼多多活跃用户”进行提问,搜索后台在一秒内进行千百万次计算,经过对“拼多多”“活跃用户的语言理解,识别并提取对应“PDD”、“Active Buyers”对应内容,一键呈现最准确的数据,又如搜索“Tesla Model 3产能”,系统自动理解产能的意义,抽取财报对应的“Model 3 production”内容,第一时间提供。这个过程中,虎博核心技术之一——机器翻译就承担了对公司名、业务描述及英文财报的理解和翻译工作。
据了解,此项研究成果将应用于虎博科技底层架构,全面提升现有机器翻译能力,以更地道的理解和表达直接作用于虎博搜索、西梅、招股书、财神股票、虎博翻译等产品中,打破全球金融信息的语言壁垒,为用户提供更贴心的产品体验。随着未来虎博科技业务领域的扩展,优异的机器翻译能力也将同步应用于更广阔的全领域信息获取范畴,加速文化全球化的融合。
文化全球化同经济全球化一样,是一种世界发展的趋势,因为前沿科技的发展,人们的交流更加容易,文化之间的交流更加顺畅。陈烨表示,虎博科技将持续致力于前沿科技的探索,以科技之力加速产业智能化的落地,推动全球经济的发展,“我们将不遗余力的开展全球前沿技术交流,探索全球文化融合与发展的更多可能”。