1.机器翻译概述:
使用计算机将一种自然语言转换成另一种自然语言的过程,机器翻译试图利用计算机来模拟人的翻译能力,因此他也成为人工智能的一个重要分支[1]。
2.机器翻译发展历史
开创期:(1947-1964)
1954年美国乔治敦大学与IBM公司合作,首次完成了英俄机器翻译,展示了机器翻译的可行性,拉开了机器翻译发展的序幕,随后多个国家开始对机器翻译的研究。[2]
低潮期:(1964-1975)
1964年,美国的语言自动处理咨询委员会,在经过两年对机器翻译发展的调查后,发表了名为《语言与机器》报告,这份报告认为机器翻译的是无法得到良好发展的,指出了计算机无法克服的“语义障碍”问题,在这份报告的影响下,机器翻译进入了低潮期[3]。
复苏期:(20世纪70年代)
随着社会,经济的发展,使得全球一体化的趋势不可避免,国家与国家间的交流往来更加密切,简单的人工翻译显然已经无法满足人们对交流的需求,因此人们重新将目光转向了机器翻译,同时随着转化生成理论取得重大进步以及人工智能的发展,这些技术的出现,为机器翻译复苏的发展奠定了基础。
新时期:(1980-今) 简单机器翻译技术由于各种缺陷无法满足人们对高精度翻译的需求,同时人工神经网络在各个方面展示了很好的优越性,人们开始对基于神经网络的机器翻译技术展开研究。不同的算法如雨后春笋般相继问世,百度于2015年前后发布了将统计和自动学习相结合的在线机译系统;Google翻译提出了使用循环神经网络; 之后基于卷积神经网络开发的语言翻译模型由Facebook公司提出。

3.机器翻译技术

3.1 基于规则

法国机器翻译专家B.Vauquois教授用“机器翻译金字塔”(MT Pyramid)总结了基于语言规则的机器翻译方法的翻译过程,基于此可分为直接翻译,转换式翻译,中间语言翻译。[4]

transformer机器翻译 blue “机器翻译”_语言模型


图1 机器翻译金字塔

直接翻译:将源文中的单词或者句子换成对应的目标语言的单词,往往由于源文和译文的结构差异较大,所以翻译结果并不理想。

transformer机器翻译 blue “机器翻译”_机器翻译_02


(图2 直接翻译的过程)

转化式翻译:在直接翻译的基础上,考虑到句子构造上的对应关系,根据美国心理语言学家乔姆斯基( N. chomsky) 提出了句子的双重结构理论,由乔姆斯基提出的理论,在交流中,使用的具体的句子就是句子的表层结构,而想表述的意思就是句子的深层结构。 对于同一事件的表达,其深层结构是完全一致的。 而转换式翻译就是考虑到语言的深层结构,对原文的句法,语义进行分析。[5]。但只有当语言的规则较强时适用。

transformer机器翻译 blue “机器翻译”_自然语言_03

中间语言翻译:既考虑句子的多层意义,也忽略语言之间的复杂结构关系,在不同的语言之间建立一个通用的语义-句法表达式
![(图4 中间语言翻译的过程)]()

3.2基于统计的机器翻译
充分利用机器学习的优点对大量的语料进行统计分析从而达到翻译的目的,通俗来讲,基于统计的方法将翻译转化为寻找合适译文最大概率的问题。
P(t|s)=((P(s|t)P(t)))/((P(s)))
公式的分母表示源文概率, 在具体例子中是固定值.因此求p (t|s) 的最大值, 等同于寻找t^, 使公式右边的乘积最大
t^=argmaxtP(s|t)P(t)
P(t)是语言模型,P(s|t)是翻译模型。
语言模型通常可以理解为字符组成这个字符串的概率。
S=W1W2W3W4…WT
P(S)=P(W1)P(W2|W1)P(W3|W1,W2)…P(WT|W1,W2,W3…WT-1)
通过公式我们可以看出在当源文中的单词过多时,参数数量会变得很多,为了解决这个问题,马尔科夫提出了:随机随机词出现的概率只与其前面 n 个词的有限个数有关,基于这种假设提出的语言模型称为N-gram语言模型。
n=1时
即一个词的出现与它周围的词是独立,称为一元语言模型。
n=2时
一个词的出现的概率只和前一个词有关,叫二元语言模型。
n=3时
一个词的出现概率仅与前面的两个词有关,也就是三元模型。

基于统计的翻译质量取决于模型结构的构建和语料库的覆盖范围。[6]

3.3基于实例
由日本翻译专家长尾真提出,基本思想是在已经创建的双语实例库中找到与待翻译的源文最相近的译文,再对译文进行增删改等操作。

transformer机器翻译 blue “机器翻译”_自然语言_04


transformer机器翻译 blue “机器翻译”_语言模型_05


3.4 基于深度学习

基于深度学习的机器翻译采用“编码解码”结构,将源文到译文的转换分成了两个阶段。第一个阶段,使用一个神经网络,成为“编码器”,将含有n的单词的源文序列X=(x1x2x3…xn)进行编码,输出到固定维度的向量Cn,其表示源文序列到第n个单词的信息,第二各阶段,使用一个神经网络,称为“解码器”,利用生成的向量解码,产生译文序列Y=y1y2y3…yn。

transformer机器翻译 blue “机器翻译”_自然语言_06


3.4.1基于循环神经网络的机器翻译

在每一时刻t, RNN的单元结构A的输入:xt,ht-1;RNN的单元结构A的输出:ot,ht[7]

transformer机器翻译 blue “机器翻译”_机器翻译_07

将RNN应用到“编码-解码”的结构中后,可得到如图所示的结构。

transformer机器翻译 blue “机器翻译”_自然语言_08


hi=f(xi,hi-1)

c=q({h1,…,ht})

p(yt|{yi,…,yt-1,c})=g(yt-1,st,c)3.4.2 基于长短时记忆网络的机器翻译

循环神经网络通过前一个时刻的隐藏状态,影响当前时刻的隐藏状态。如利用前一个单词的含义影响当前单词的意思。但如果当前的单词与和与它有关信息之间的间隔太大,这种长距离的学习能力RNN并不具备,因此在翻译长句时并不理想。

原始RNN的隐藏层只有一个状态h,而LSTM增加了一个状态C用来保存长时记忆,叫做细胞状态(cell state )[8]。

transformer机器翻译 blue “机器翻译”_自然语言_09

在t时刻,LSTM有三个输入:当前输入值,前一时刻输出值,前一时刻的单元状态
LSTM 的输出有两个:当前输出值、和当前时刻的单元状态

transformer机器翻译 blue “机器翻译”_机器翻译_10


transformer机器翻译 blue “机器翻译”_机器翻译_11

遗忘门(forget gate)
它决定了上一时刻的单元状态 ct-1 有多少保留到当前时刻 ct
F=sigmoid (Wf[ht-1, xt]+bf) wf是遗忘门的权重矩阵,bf是遗忘门的偏置项。
输入门(input gate)
它决定了当前时刻网络的输入 xt 有多少保存到单元状态 ct
I=sigmoid (Wi[ht-1, xt]+bi)
输出门(output gate)
控制单元状态 ct 有多少输出到 LSTM 的当前输出值 ht
O=sigmoid (Wo[ht-1, xt]+bo)
当前时刻的状态:
Z=tanh (Wz[ht-1, xt])
新状态:
Ct=F·Ct-1+I·Z
输出值:
Ht=O·tanh Ct
长短期记忆的机器翻译利用遗忘门,输入门,输出门可以很容易携带长距离的信息。

3.4.3注意力机制
在“编码-解码”的结构中,解码的过程完全依赖于编码的结果,因此产生了一个新的问题, 解码器的输入仅依赖于编码器的输出,而忽略了其待翻译语句和翻译后语句部分片段之间的对应这就导致对长句子的翻译效果很差。	
注意力机制的基本思想是在当单个目标单词在解码器端生成时,与这个单词相关的只是原文的部分单词,基于这种思想在在解码是就不用使用源文的全部向量,只用关注与目标词相关的源文的上下文。

p(yt|{y1,…,yt-1,x})=g(yt-1,st,ct)
ct就是上下文向量,它的取值依赖源文的编码(h1,h2,h3,…,ht), aij 衡量编码中第j 阶段的 hj和解码时第 i 阶段的相关性。
c_t=∑_(j=0)^t▒〖a_tj h_i 〗

(图14 应用注意力机制的解码器结构)
例如:
“我爱苹果”在进行编码后为“h1h2h3h4”,译文为“I love apple”
h1a11+h2a12+h3a13+h4a14=c1 I
h1a21+h2a22+h3a23+h4a24=c2 Love
h1a31+h2a32+h3a33+h4a34=c3 apple
4.机器翻译现存问题
每一种自然语言都存在歧义,层出不穷的新词热词,网络流行词以及各种未知问题,由于文化的差异,同一个词可能代表不同的意思,这就很容易对机器翻译造成误解,导致翻译结果不理想,人工翻译可以根据源文内容,文化背景,自身的经验理解,灵活的对源文进行修改加以润色,但机器翻译是建立在大量的数据和严密的逻辑推导上的,没有思考的能力,不能根据现实情况灵活多变的翻译。
5.机器翻译的未来研究方向
通过分析我们可以知道阻碍机器翻译的瓶颈是结构歧义和语义歧义。原因归结于翻译的复杂性,自然语言本身的复杂性和机器翻译的局限性[9]。一方面在句法学,语义学等方面的研究成果没有很好地转化为计算机语言,另一方面在于平行语料库的应用需要庞大的数据作为驱动。 机器翻译的发展是一个庞大且复杂的过程,其发展不仅需要计算机领域的专家学者,也需要语言学家、数学家等其他领域的专家的配合。利用大数据,云计算提供性能优异的平行语料库也是解决目前机器翻译的困境的方法之一。
6.总结
随着全球化和互联网的发展,跨语言的信息呈现几何倍数增长,迅速的改变着信息的传递方式,极大的刺激着全球机器翻译产业的发展[10],应用的领域也不仅仅局限在文本翻译。机器翻译在语音翻译,图像翻译,视频翻译,VR翻译等方面也取得了重大成果。总体来说机器翻译的未来发展将趋向于实用化,多语言,多模态。