机器翻译评价指标

1，概述

　　机器翻译中常用的自动评价指标是 $BLEU$ 算法，除了在机器翻译中的应用，在其他的 $seq2seq$ 任务中也会使用，例如对话系统。

2 $BLEU$算法详解

　　假定人工给出的译文为$reference$，机器翻译的译文为$candidate$。

　　1）最早的$BLEU$算法

　　　　最早的$BLEU$算法是直接统计$cadinate$中的单词有多少个出现在$reference$中，具体的式子是：

　　　　$BLEU = \frac {出现在reference中的candinate的单词的个数} {cadinate中单词的总数}$

　　　　以下面例子为例：

　　　　$ candinate:$ the the the the the the the

　　　　$ reference:$ the cat is on the mat

　　　　$cadinate$中所有的单词都在$reference$中出现过，因此：

　　　　$BLEU = \frac {7} {7} = 1$

　　　　对上面的结果显然是不合理的，而且主要是分子的统计不合理，因此对上面式子中的分子进行了改进。

　　2）改进的$BLEU$算法 — 分子截断计数

　　　　针对上面不合理的结果，对分子的计算进行了改进，具体的做法如下：

　　　　$Count_{w_i}^{clip} = min(Count_{w_i},Ref\_Count_{w_i})$

　　　　上面式子中：

　　　　$Count_{w_i}$ 表示单词$w_i$在$candinate$中出现的次数；

　　　　$Ref\_Count_{w_i}$ 表示单词$w_i$在$reference$中出现的次数；

　　　　但一般情况下$reference$可能会有多个，因此有：

　　　　$Count^{clip} = max(Count_{w_i,j}^{clip}), j=1,2,3......$

　　　　上面式子中：$j$表示第$j$个$reference$。

　　　　仍然以上面的例子为例，在$candinate$中只有一个单词$the$，因此只要计算一个$Count^{clip}$，$the$在$reference$中只出现了两次，因此：

　　　　$BLEU = \frac {2} {7}$

　　3）引入$n-gram$

　　　　在上面我们一直谈的都是对于单个单词进行计算，单个单词可以看作时$1-gram$，$1-gram$可以描述翻译的充分性，即逐字翻译的能力，但不能关注翻译的流畅性，因此引入了$n-gram$，在这里一般$n$不大于4。引入$n-gram$后的表达式如下：

　　　　$p_{n}=\frac{\sum_{c_{\in candidates}}\sum_{n-gram_{\in c}}Count_{clip}(n-gram)}{\sum_{c^{'}_{\in candidates}}\sum_{n-gram^{'}_{\in c^{'}}}Count(n-gram^{'})}$

　　　　很多时候在评价一个系统时会用多条$candinate$来评价，因此上面式子中引入了一个候选集合$candinates$。$p_{n}$ 中的$n$表示$n-gram$，$p_{n}$表示$n_gram$的精度，即$1-gram$时，$n = 1$。

　　　　接下来简单的理解下上面的式子，首先来看分子：

　　　　1）第一个$\sum$ 描述的是各个$candinate$的总和；

　　　　2）第二个$\sum$ 描述的是一条$candinate$中所有的$n-gram$的总和；

　　　　3）$Count_{clip}(n-gram)$ 表示某一个$n-gram$词的截断计数；

　　　　再来看分母，前两个$\sum$和分子中的含义一样，$Count(n-gram^{'})$表示$n-gram^{'}$在$candinate$中的计数。

　　　　再进一步来看，实际上分母就是$candinate$中$n-gram$的个数，分子是出现在$reference$中的$candinate$中$n-gram$的个数。

　　　　举一个例子来看看实际的计算：

　　　　$candinate:$ the cat sat on the mat

　　　　$reference:$ the cat is on the mat

　　　　计算$n-gram$的精度：

　　　　$p_1 = \frac {5} {6} = 0.83333$

　　　　$p_2 = \frac {3} {5} = 0.6$

　　　　$p_3 = \frac {1} {4} = 0.25$

　　　　$p_4 = \frac {0} {3} = 0$

　　4）添加对句子长度的乘法因子

　　　　在翻译时，若出现译文很短的句子时往往会有较高的$BLEU$值，因此引入对句子长度的乘法因子，其表达式如下：

　　　　在这里$c$表示$cadinate$的长度，$r$表示$reference$的长度。

　　将上面的整合在一起，得到最终的表达式：

　　　　$BLEU = BP exp(\sum_{n=1}^N w_n \log p_n)$

　　其中$exp(\sum_{n=1}^N w_n \log p_n)$ 表示不同的$n-gram$的精度的对数的加权和。

3，$NLTK$实现

　　可以直接用工具包实现

from nltk.translate.bleu_score import sentence_bleu, corpus_bleu

from nltk.translate.bleu_score import SmoothingFunction

reference = [['The', 'cat', 'is', 'on', 'the', 'mat']]

candidate = ['The', 'cat', 'sat', 'on', 'the', 'mat']

smooth = SmoothingFunction()  # 定义平滑函数对象

score = sentence_bleu(reference, candidate, weight=(0.25,0.25, 0.25, 0.25), smoothing_function=smooth.method1)

corpus_score = corpus_bleu([reference], [candidate], smoothing_function=smooth.method1)

　　$NLTK$中提供了两种计算$BLEU$的方法，实际上在sentence_bleu中是调用了corpus_bleu方法，另外要注意$reference$和$candinate$连个参数的列表嵌套不要错了，weight参数是设置不同的$n-gram$的权重，另外weight元祖中的数量决定了计算$BLEU$时，会用几个$n-gram$，以上面为例，会用$1-gram, 2-gram, 3-gram, 4-gram$。SmoothingFunction是用来平滑log函数的结果的，防止$f_n = 0$时，取对数为负无穷。

机器翻译评价指标 — BLEU算法的更多相关文章

机器翻译评测——BLEU算法详解
◆版权声明:本文出自胖喵~的博客,转载必须注明出处. 转载请注明出处:http://www.cnblogs.com/by-dream/p/7679284.html 前言近年来,在自然语言研究领域中, ...
关于机器翻译评价指标BLEU(bilingual evaluation understudy)的直觉以及个人理解
最近我在做Natural Language Generating的项目,接触到了BLEU这个指标,虽然知道它衡量的是机器翻译的效果,也在一些文献的experiment的部分看到过该指标,但我实际上经常 ...
机器翻译质量评测算法-BLEU
机器翻译领域常使用BLEU对翻译质量进行测试评测.我们可以先看wiki上对BLEU的定义. BLEU (Bilingual Evaluation Understudy) is an algorithm ...
机器翻译评测——BLEU改进后的NIST算法
◆版权声明:本文出自胖喵~的博客,转载必须注明出处. 转载请注明出处:http://www.cnblogs.com/by-dream/p/7765345.html 上一节介绍了BLEU算的缺陷.NIS ...
机器翻译评价指标之BLEU详细计算过程
原文连接 https://blog.csdn.net/guolindonggld/article/details/56966200 1. 简介 BLEU(Bilingual Evaluation Un ...
BLEU (Bilingual Evaluation Understudy)
什么是BLEU? BLEU (Bilingual Evaluation Understudy) is an algorithm for evaluating the quality of text w ...
对于文本生成类4种评价指标的的计算BLEU METEOR ROUGE CIDEr
github下载链接:https://github.com/Maluuba/nlg-eval 将下载的文件放到工程目录,而后使用如下代码计算结果具体的写作格式如下: from nlgeval imp ...
Deep Learning基础--机器翻译BLEU与Perplexity详解
前言近年来,在自然语言研究领域中,评测问题越来越受到广泛的重视,可以说,评测是整个自然语言领域最核心和关键的部分.而机器翻译评价对于机器翻译的研究和发展具有重要意义:机器翻译系统的开发者可以通过评测 ...
理解bleu
bleu全称为Bilingual Evaluation Understudy(双语评估替换),是2002年提出的用于评估机器翻译效果的一种方法,这种方法简单朴素.短平快.易于理解.因为其效果还算说得过 ...

随机推荐

Service Fabric 与 Ocelot 集成
概要云应用程序通常都需要使用前端网关,为用户.设备或其他应用程序提供同一个入口点. 在 Service Fabric 中,网关可以是任意无状态服务(如 ASP.NET Core 应用程序) . 本文 ...
dotnet中Stream、string及byte[]的相关操作
string与byte[](UTF-8) //string to byte[] string str = "abc中文"; //0x61 0x62 0x63 0xE4 0xB8 0 ...
【死磕 Spring】----- IOC 之解析 bean 标签：开启解析进程
原文出自:http://cmsblogs.com import 标签解析完毕了,再看 Spring 中最复杂也是最重要的标签 bean 标签的解析过程. 在方法 parseDefaultElement ...
Java数据结构和算法 - 栈和队列
Q: 栈.队列与数组的区别? A: 本篇主要涉及三种数据存储类型:栈.队列和优先级队列,它与数组主要有如下三个区别: A: (一)程序员工具数组和其他的结构(栈.队列.链表.树等等)都适用于数据库应 ...
Microsoft Power BI 学习笔记
Power Bi 学习笔记一 Power BI 是微软发布的一系列的软件服务.应用和连接器,这些软件服务.应用和连接器协同工作,将不相关的数据源转化为合乎逻辑.视觉上逼真的交互式见解. ...
Intellij IDEA 阅读源码的 4 个绝技，我必须分享给你！
前段时间分享了<阅读跟踪 Java 源码的几个小技巧>是基于 Eclipse 版本的,看大家的留言都是想要 IDEA 版本的源码阅读技巧. 所以,为了满足众多 IDEA 粉丝的要求,栈长我 ...
聊聊在AOP模式下的缓存方案
面向方法的数据集缓存使用了autofac做为ioc容器,使用Autofac.Extras.DynamicProxy2作为方法拦截器,缓存面向方法,直接在方法上添加CachingAttribute特性 ...
qs.stringify和JSON.stringify的使用和区别
qs可通过npm install qs命令进行安装,是一个npm仓库所管理的包. 而qs.stringify()将对象序列化成URL的形式,以&进行拼接. JSON是正常类型的JSON,请对 ...
Python：游戏：扫雷（附源码）
这次我们基于 pygame 来做一个扫雷,上次有园友问我代码的 python 版本,我说明一下,我所有的代码都是基于 python 3.6 的. 先看截图,仿照 XP 上的扫雷做的,感觉 XP 上的样 ...
3.1依赖注入「深入浅出ASP.NET Core系列」
希望给你3-5分钟的碎片化学习,可能是坐地铁.等公交,积少成多,水滴石穿,谢谢关注. 从UML来理解依赖 1.1什么是依赖我们先看下图可以简单理解,一个HomeController类使用到了DBC ...

机器翻译评价指标 — BLEU算法

机器翻译评价指标 — BLEU算法的更多相关文章

随机推荐

热门专题