最近我在做Natural Language Generating的项目，接触到了BLEU这个指标，虽然知道它衡量的是机器翻译的效果，也在一些文献的experiment的部分看到过该指标，但我实际上经常会略去阅读实验效果的部分(纯粹感觉不如理论部分激动人心哈哈哈)，现在轮到自己做项目了，下定决心要搞懂这个指标到底在干嘛。不足之处还是希望大家能够指正。同时也欢迎大家转载我的这篇blog 原创不易还请注明出处~

首先是原始论文地址: https://www.aclweb.org/anthology/P02-1040.pdf

其次我在阅读原始论文的时候也参考了这篇博客：https://www.cnblogs.com/by-dream/p/7679284.html 对我的帮助也很大

接下来纯粹是按照我的个人理解对原论文进行的一个提炼故未必代表论文的本意。

1 BLEU指标的提出和假设

BLEU用于衡量机器翻译结果(candidate)和参考译文(reference)之间的相似程度。 BLEU可以衡量任意语种之间的翻译效果。它的前提假设是：翻译效果的好坏可以由n-gram在candidate和reference中出现的频率来体现。直觉上来说，如果candidate中的每一个单词（或者bi-gram, tri-gram）出现的频率和reference中的每一个单词（或者bi-gram, tri-gram）的出现频率差不多，那么我们就可以认为机器翻译的效果很好。但是这种直觉理解存在一定的问题，需要正式化（formalization）。

2 BLEU指标的formalization

假定翻译效果的好坏可以n-gram的频率来体现，那么依然存在以下的问题：

如何正式化所谓的频率相近？
给定一句机器翻译结果，可以存在多句参考译文
如何衡量一篇文章（包含多个句子）的翻译效果好坏？
基于1，2，3给出的metric是否存在让某些低质量的candidate反而获得好评的可能性？

下面针对上述问题给出解答。

2.1 “频率相近”的正式化

直觉上，一句句子中包含多个单词(uni-gram), 如果大部分单词都出现在了reference中，则认为这是一句好的翻译句子。很自然的，会想到用

precision=number of unigram in candidate which appears in reference /number of unigram in candidate

但在正式化之前，这个直觉存在一个错误，考虑如下例子：

Candidate: the the the the the the the 

Reference : The cat is on the mat

Candidate一共有7个单词，每一个单词都出现在了Reference当中，所以precision=7/7，很野路子。

这个直觉的本质问题是reference中只有2个the（忽略大小写），而Candidate中有7个the，所以合理的度量应该是2/7，也就是相似度受到Reference中the的出现频率的制约。

下面结合问题2一起给出BLEU的初步正式化。

2.2 单个candidate+多个reference的BLEU初步正式化

声明：之后如果是reference则指代一句参考译文，references指代多句参考译文

Candidate: the the the the the the the cat cat

Reference1: There is a cat on the mat

Reference2: The cat is on the mat

计算BLEU的步骤以及直觉如下，先以unigram为例

1. 计算Candidate中所有单词的出现频率, 此处为 {the: 7, cat: 1}

2. 计算所有unigram在每一句referece中出现的频率, 此处应为：

{the in Ref1: 1, the in Ref2: 2, cat in Ref1: 1, cat in Ref2: 1}

3. 保留每一个unigram在references中最大的频数，得到：

{the in Ref2: 2, cat in Ref1: 1}

之所以保留最大频数，我认为体现了“宽容”的思想, 不同的reference由不同的翻译人员给出，体现了翻译人员不同的风格，在这种多风格中选取和candidate最相似的

即可，不必吹毛求疵

4. 'Clipped' Step

这一步就是抑制第一个例子中的“野路子”

the = min(the in Ref2, the) = (2,7) = 2

cat = min(the in Ref1, cat) = (1,1) = 1

5 计算precision

p = (2+1)/(7+1)=3/8

计算bigram, trigram的思路也和unigram一样，在原来的论文中，作者提到：

A translation using the same words (1-grams) as in the references tends to satisfy adequacy. The longer n-gram matches account for fluency.

unigram用来衡量adequacy, 有两种情况需要考虑：

如果candidate的翻译结果多出了许多不曾出现在references中的单词，则我们的p会很小，BLEU做出了惩罚。
如果candidate的翻译结果少了很多单词，我们的p可能会是1！考虑如下例子：
```
Candidate: the

Reference1: The cat is on the mat
```
p = min(1,2)/1 = 1

因此到目前为止的BLEU需要继续调整。

而bigram，trigram等等则是衡量文章的通顺性，并且unigram中存在的问题在multi gram的情况下依然存在

2.3 多个candidate+多个reference的BLEU初步正式化

论文中把多个candidate所组成的document成为corpus.尽管是多个candidate,但是每个candidate本身对应了多个reference,因此2.3只是2.2的简单扩充而已。

对于n-gram的BLEU的初步计算公式如下：

\[p_n = \frac{\sum_{C\in{Candidates}}\sum_{n-gram\in{C}}Count_{clip}(n-gram)}{\sum_{C'\in{Candidates}}\sum_{n-gram'\in{C'}}Count(n-gram')}
\]

其中：

\[Count_{clip}(n-gram) = min(freq_{C}(n-gram),max_{R\in references}freq_{R}(n-gram))
\]

$ freq_{C}(n-gram)$ 是给定n-gram在C中出现的频率

$freq_{R}(n-gram)$是给定n-gram在R中出现的频率

$Count(n-gram')$是指给定n-gram'在C'中出现的频率

结合多个n-gram:

如2.1中提到的，不同的n-gram具有不同的作用，因此需要综合考虑

\[exp(\sum_{n=1}^N\omega_{n}log(p_{n}))
\]

$log(p_n)$的原因是：在论文实证的过程中发现随着n-gram中n的增加，$p_n$的下降呈现指数型，因此简单的平均$p_n$会让指标过度倾向于1-gram,所以需要对数化的调整。

$w_n$在论文中为1/N。并且论文中的经验结果表明N=3-5已经足够反应句子的翻译质量了。

2.4 对翻译句子长度的调整

我们在2.2中提到了一个极端的例子，candidate长度极短却获得了$p_1$=1的效果，因此需要对翻译句子的长度做出惩罚。惩罚分为两种：过长和过短。过长的句子实际上已经通过$p_n$被惩罚了，过长的句子会导致$p_n$中的分母很大，从而使得BLEU整体较小。故仅考虑句子过短的情况，原文中对句子过短却依然取得很高$p_n$的情况成为The trouble with recall，实际上就是references（实际为正例）中仅有很小一部分出现在candidate(预测为正例)中。

依然假设我们的corpus中有多个candidate,每个candidate有多个reference, 论文中把references 中最接近candidate长度的那个reference的长度称为“best match length ”

直觉上，可以计算corpus中每一个candidate的对应惩罚，求和后取平均。但是论文认为这样做对短句子的惩罚过大。这里也体现了BLEU的宽容思想，我们可以容忍corpus中存在一些短句子，但是如果每一句句子都过短，则无法容忍。

首先计算effective referecne length(r), 即把每一个candidate对应的best match length相加求和

再次计算corpus中所有candidate的长度之和c

惩罚项：

\[BP=\left\{
\begin{array}{rcl}
1 & & {r<c}\\
\exp(1-\frac{r}{c}) & & {r\geq c}\\

\end{array} \right.
\]

综上，最终的BLEU为：

\[BLEU = BP*exp(\sum_{n=1}^N\omega_{n}log(p_{n}))
\]

3 BLEU指标总结

不难看出，BLEU指标实际上是对“n-gram频率相似”的一个科学化的表达。

其对两种不匹配做出了惩罚：

n-gram频率不匹配
句子过长或者过短

BP对句子过短做出了惩罚，而exponential项对n-gram频率不匹配做出了惩罚，顺带解决了对过长句子的惩罚问题。

关于机器翻译评价指标BLEU(bilingual evaluation understudy)的直觉以及个人理解的更多相关文章

BLEU (Bilingual Evaluation Understudy)
什么是BLEU? BLEU (Bilingual Evaluation Understudy) is an algorithm for evaluating the quality of text w ...
机器翻译评价指标 — BLEU算法
1,概述机器翻译中常用的自动评价指标是 $BLEU$ 算法,除了在机器翻译中的应用,在其他的 $seq2seq$ 任务中也会使用,例如对话系统. 2 $BLEU$算法详解假定人工给出的译文为$re ...
bilingual evaluation understudy
BLEU is designed to approximate human judgement at a corpus level, and performs badly if used to eva ...
机器翻译评测——BLEU算法详解
◆版权声明:本文出自胖喵~的博客,转载必须注明出处. 转载请注明出处:http://www.cnblogs.com/by-dream/p/7679284.html 前言近年来,在自然语言研究领域中, ...
机器翻译评价指标之BLEU详细计算过程
原文连接 https://blog.csdn.net/guolindonggld/article/details/56966200 1. 简介 BLEU(Bilingual Evaluation Un ...
机器翻译评测——BLEU改进后的NIST算法
◆版权声明:本文出自胖喵~的博客,转载必须注明出处. 转载请注明出处:http://www.cnblogs.com/by-dream/p/7765345.html 上一节介绍了BLEU算的缺陷.NIS ...
机器翻译质量评测算法-BLEU
机器翻译领域常使用BLEU对翻译质量进行测试评测.我们可以先看wiki上对BLEU的定义. BLEU (Bilingual Evaluation Understudy) is an algorithm ...
Deep Learning基础--机器翻译BLEU与Perplexity详解
前言近年来,在自然语言研究领域中,评测问题越来越受到广泛的重视,可以说,评测是整个自然语言领域最核心和关键的部分.而机器翻译评价对于机器翻译的研究和发展具有重要意义:机器翻译系统的开发者可以通过评测 ...
学习笔记TF067:TensorFlow Serving、Flod、计算加速，机器学习评测体系，公开数据集
TensorFlow Serving https://tensorflow.github.io/serving/ . 生产环境灵活.高性能机器学习模型服务系统.适合基于实际数据大规模运行,产生多个模型 ...

随机推荐

fastjson 1.2.6以下版本　解析字符串末尾出现/x会陷入死循环　报oom异常
记一次使用阿里fastjson遇到的问题项目最好将fastjson版本升级到1.2.6或以上版本 1．2．6以下版本存在漏洞,测试如下代码直接报错 public class FastJsonTest ...
后端开发实践：Spring Boot项目模板
在我的工作中,我从零开始搭建了不少软件项目,其中包含了基础代码框架和持续集成基础设施等,这些内容在敏捷开发中通常被称为"第0个迭代"要做的事情.但是,当项目运行了一段时间之后再来反 ...
SpringCloud Alibaba系列(三) Sentinel热点参数限流
愿你生命中有够多的云翳,造就一个美好的黄昏欢迎关注公众号[渣男小四],一个喜欢技术更喜欢艺术的青年一.介绍热点即经常访问的数据.很多时候我们希望统计某个热点数据中访问频次最高的 Top K 数据 ...
001 win10下安装linux子系统--Ubuntu及其图形界面
首次启动图形界面关键步骤及相关命令: 步骤: 打开Xlunch 打开XLaunch,选择:"one large window",Display number设置成0,其它默认即可, ...
【题解】[SHOI2007]善意的投票 / [JLOI2010]冠军调查
Link $\text{Solution:}$ 我们令源点和汇点分别为睡觉和不睡觉这两种互斥的决策点.把小朋友看成点,问题转化为最小割. 每一个小朋友对自己的意愿指向的汇点/源点.容量为\(1.\ ...
十一长假我肝了这本超硬核PDF，现决定开源！！
写在前面在 [冰河技术] 微信公众号中的[互联网工程]专题,更新了不少文章,有些读者反馈说,在公众号中刷历史文章不太方便,有时会忘记自己看到哪一篇了,当打开一篇文章时,似乎之前已经看过了,但就是不 ...
Prometheus第一篇：Prometheus架构解析
Prometheus是新一代的监控系统解决方案,原生支持云环境,和kubernetes无缝对接,的却是容器化监控解决方案的不二之选.当然对传统的监控方案也能够兼容,通过自定义或是用开源社区提供的各种e ...
拉格朗日乘子法与KKT条件
拉格朗日乘子法 \[min \quad f = 2x_1^2+3x_2^2+7x_3^2 \\s.t. \quad 2x_1+x_2 = 1 \\ \quad \quad \quad 2x_2+3x_ ...
macvlan几种模式
vepa模式:各个子设备直接无法直接通信(可以通过支持端口聚合的交换机通信),可以和外部通信. private模式:和vepa模式类似,各个子设备之间无法通信,即使通过支持端口聚合的交换机也不能. b ...
跨境 TCP 传输优化实录 — 使用 BBR 解决 LFN 问题
背景近期开通了一条访问美国机房的 1G 专线,用于提供行情数据备源,并基于 TCP 建立了一套数据传输服务.上线后发现一个严重的问题:应用程序发送队列中的数据大量积压,最终导致程序 OOM Kill ...

关于机器翻译评价指标BLEU(bilingual evaluation understudy)的直觉以及个人理解