本文(《三种提升一对多多语言翻译策略》)是搜狗和中科院自动化所合作发表在 EMNLP 2018 上的工作。搜狗翻译目前采用业界领先的神经网络机器翻译框架支持 60 种以上不同语言之间的互译,考虑到当前支持单一语言对的翻译模型需要较大规模存储和计算资源,而支持一对多多语言翻译模型虽然能较好的解决资源占用却面临着翻译质量不高的问题,所以搜狗翻译对实现和优化多语言翻译模型存在客观需要。

深度学习 机器翻译 新方法 深度翻译策略_深度学习 机器翻译 新方法

论文方法

当前主流的一对多的多语言翻译模型在该研究之前还存在一定的不合理性。 这种不合理性主要体现在不同语言都包含其特有的语义信息和句法结构,用同一套分布式向量表征会导致模型存在相应的偏差。 

鉴于此,该工作提出了三种策略,改进了多语言翻译框架来提升多语言神经翻译模型的翻译质量。

深度学习 机器翻译 新方法 深度翻译策略_知乎_02

▲ 图1. “一到多”多语言翻译示意图

该策略首先将目标端句子初始位置加上表征翻译方向的标签,指示翻译生成的方向。其次,考虑对于不同的语言而言,结构具有不一致性,这里针对不同的语言尝试使用不同的位置向量来表征相应的时序信息。该工作对比了绝对位置和相对位置两种不同的建模方式。

最后,由于神经网络结构的隐层向量包含着语义信息和句法结构,区别于使用同一套隐层单元表示不同的语言,该策略采用了共享和特有的方式,其中共享一部分隐层向量表征不同语言的共性,而其他部分隐层向量用来表示不同语言特有的属性。 

深度学习 机器翻译 新方法 深度翻译策略_深度学习 机器翻译 新方法_03

▲ 图2. 解码器网络隐层状态表示图。其中,蓝色表示共享的单元,黄色、绿色、红色分别表示不同具备不同语言特征的隐层单元。

实验结果

该工作是针对当前多语言翻译模型的表征问题来提升多语言翻译性能的一次尝试,将不同语言特有属性融合到翻译模型当中,取得了显著的提升。

深度学习 机器翻译 新方法 深度翻译策略_多语言_04

▲ 表1. 我们的方法在中英日和英德法两个翻译任务上的表现。其中,Indiv表示仅包含双语句对的模型翻译结果。O2M是我们复现的谷歌多语言翻译模型,作为基线系统。①, ②和 ③分别代表我们提出的三种不同的策略。

深度学习 机器翻译 新方法 深度翻译策略_知乎_05

▲ 图3. 不同共享隐层单元数的比较