机器翻译评价指标BLUE 机器翻译评价指标包括

转载

mob64ca14068b0b 2024-04-18 10:27:26

文章标签 机器翻译评价指标BLUE python 神经网络召回率评价指标 文章分类 NLP 人工智能

ROUGE基于召回率，BLEU更看重准确率

BLEU

BLEU总体思想就是准确率，假如给定标准译文reference，神经网络生成的句子是candidate，candidate长度为n，candidate中有m个单词出现在reference，m/n就是bleu的1-gram的计算公式。

BLEU还有许多变种。根据n-gram可以划分成多种评价指标，常见的指标有BLEU-1、BLEU-2、BLEU-3、BLEU-4四种，其中n-gram指的是连续的单词个数为n。

BLEU-1衡量的是单词级别的准确性，更高阶的bleu可以衡量句子的流畅性。

$机器翻译评价指标BLUE 机器翻译评价指标包括_召回率$

分子

神经网络生成的句子是candidate，给定的标准译文是reference。

1）第一个求和符号统计的是所有的candidate，因为计算时可能有多个句子，

2）第二个求和符号统计的是一条candidate中所有的n−gram，而 $机器翻译评价指标BLUE 机器翻译评价指标包括_python_02$

所以整个分子就是在给定的candidate中有多少个n-gram词语出现在reference中。

分母

前两个求和符号和分子中的含义一样，Count(n-gram’)表示n−gram′在candidate中的个数，综上可知，分母是获得所有的candidate中n-gram的个数。

BLEU实质是对两个句子的共现词频率计算，但计算过程中使用好些技巧，追求计算的数值可以衡量这两句话的一致程度。BLEU容易陷入常用词和短译句的陷阱中，而给出较高的评分值。

ROUGE

机器自动摘要常见的参考指标rouge有若干个优化版本，核心是通过统计机器候选摘要句子和标准摘要句子重叠的单元n-gram，来评判摘要的质量。

ROUGE-1
ROUGE-2
ROUGE-3
ROUGE-N
ROUGE-L
ROUGE-W
ROUGE-S
ROUGE-SU

ROUGE-N

机器翻译评价指标BLUE 机器翻译评价指标包括_召回率_03

分子表示所有样本的reference结果按N-gram拆分后与candidate结果按N-gram拆分后匹配上个数的和；分母表示所有样本的reference结果，按N-gram拆分后的和。可以发现分子跟BLEU相同，而分母是不同的，更注重召回。

ROUGE-L

最长公共子序列的重合率计算。

S是人工摘要，C是机器摘要

$机器翻译评价指标BLUE 机器翻译评价指标包括_召回率_04$

$机器翻译评价指标BLUE 机器翻译评价指标包括_评价指标_05$

$机器翻译评价指标BLUE 机器翻译评价指标包括_python_06$

$机器翻译评价指标BLUE 机器翻译评价指标包括_评价指标_07$ 表示召回率，而 $机器翻译评价指标BLUE 机器翻译评价指标包括_评价指标_08$ 表示精确率， $机器翻译评价指标BLUE 机器翻译评价指标包括_python_09$ 就是 ROUGE-L。一般 beta 会设置为很大的数，因此 $机器翻译评价指标BLUE 机器翻译评价指标包括_python_09$ 几乎只考虑了 $机器翻译评价指标BLUE 机器翻译评价指标包括_评价指标_07$