1、董振东先生对机器翻译方法的评价: 基于规则和实例的机器翻译是傻子(依赖一定人工,在匹配规则和模板的情况下翻译质量高,但是系统泛华能力有限),统计和神经机器翻译是疯子(只依赖数据,系统健硕性强,但是精度不稳定且翻译过程难以人工干预)。

2、翻译质量评价:

  有参考答案的评价:在参考答案或者评价标准已知的情况下对译文进行打分;

  无参考答案的评价:在没有人工评价和参考答案的情况下,对译文进行质量“预测”。

3、翻译质量评价:

  人工评价;

  自动评价;评价指标:BLEU(Bilingual Evaluation Understudy)、TER(Translation Edit Rate)、WER、PER、(一般BLEU与TER搭配使用,如使用BLEU与TER相减后的值作为评价指标)、基于监测点的评价。

  BLEU优点:简单、高效、可重复、不依赖人工评价、引入n-gram的匹配、截断计数和短句惩罚;

      缺点:依赖参考译文、评价结果与人工评价不一致;

  TER优点:(没找到)

  BLEU、TER的共同缺点:缺乏对具体问题的细致评价;

  基于检测点的评价优点:对MT系统个给出一个总体评价的同事,针对系统在各个具体问题上的翻译能力进行评估,便于比较不同翻译模型的性能;是对BLEU等评价指标的一种很好的补充。

4、机器翻译应用:网页翻译、科技文献翻译、视频字幕翻译、社交、同声传译、医药领域翻译、中国传统语言文化的翻译、全球化、翻译机、翻译结果后编辑。

5、常用数据集:CCMT(全国机器翻译大会)、WMT、NIST、IWSLT、WAT、NTCIR。

6、学习资源:《Statistical Machine Translation》、《Foundations of Statistical Natural Language Processing》、《统计自然语言处理》、《Deep Learning》(Ian Goodfellow)、《Neural Network Methods for Natural Language Processing》、《机器学习》、《统计学习方法》、《神经网络与深度学习》;

  TensorFlow 官网提供了一个有关神经机器翻译的教程,介绍了从数据处理开始如何利用TensorFlow 工具从零搭建一个神经机器翻译系统以及如何解码,其地址为https://www.tensorflow.org/tutorials/text/nmt_with_attention。此外谷歌和Facebook 也分别提供了基于序列到序列机器翻译模型的高级教程。谷歌的版本是基于TensorFlow 实现,网址为:https://github.com/tensorflow/nmt,Facebook的教程主要是基于PyTorch 实现,网址为:https://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.html。网站上也包含一些综述论文,其中详细的介绍了神经机器翻译的发展历程,问题定义以及目前遇到的问题。

7、机器翻译的会议论文:主要看ACL,EMNLP,NAACL,COLING和期刊CL,TACL