机器翻译评测——BLEU改进后的NIST算法

　　转载请注明出处：http://www.cnblogs.com/by-dream/p/7765345.html

　　上一节介绍了BLEU算的缺陷。NIST(National Institute of standards and Technology)方法是在BLEU方法上的一种改进。最主要的是引入了每个n-gram的信息量(information)的概念。BLEU算法只是单纯的将n-gram的数目加起来，而nist是在得到信息量累加起来再除以整个译文的n-gram片段数目。这样相当于对于一些出现少的重点的词权重就给的大了。

　　信息量的计算公式是：

　　解释一下：分母是n元词在参考译文中出现的次数，分子是对应的n-1元词在参考译文中的出现次数。对于一元词汇，分子的取值就是整个参考译文的长度。这里之所以这样算，应该是考虑到出现次数少的就是重点词这样的一个思路。

　　计算信息量之后，就可以对每一个共现n元词乘以它的信息量权重，再进行加权求平均得出最后的评分结果：　　

　　这里注意几个地方：

　　1、N一般取5

　　2、β是一个常数，在Lsys/Lref=2/3 时，β使得长度罚分率为0.5，它是个经验值，大概的曲线是：

　　3、Lref 是参考答案的平均长度（注意L的上方有一个平均符号）

　　4、Lsys是译文的长度

　　下面是我费劲千辛万苦找到了计算nist值的工具：

　　首先进入nist组织的官网：https://www.nist.gov/itl/iad/mig/tools

　　下载第三个，然后我们直接运行，发现因为找不到依赖的库，会出现报错：

　　Can't locate XML/Twig.pm in @INC (you may need to install the XML::Twig module)

　　之前也不会perl，这个也折腾了好久。下载XML-Twig 。进入：http://search.cpan.org/~mirod/XML-Twig-3.48/Twig.pm

　　下载成功后，需要三步：

　　1、perl Makefile.PL -y ：这一步在下载下来的readme中有说明，参数还可以指定 -n。

　　2、make

　　3、make install：这一步需要root权限，否则会报错

　　没给root权限，报的错

　　我们再运行一下，没有再报错了

　　我们用nist提供的example试试，发现算法可以使用：

我们看下其他的用法：

BLEU-4（mteval-v13a，官方OpenMT12评估指标）

　　调用行： perl mteval-v13a.pl -r REFERENCE_FILE -s SOURCE_FILE -t CANDIDATE_FILE -c -b

　　选项-c：区分大小写的得分

　　选项-b：仅BLEU得分

IBM BLEU（bleu-1.04a）

　　调用行： perl bleu-1.04.pl -r REFERENCE_FILE -t CANDIDATE_FILE

　　默认情况下，评分是区分大小写的

NIST（mteval-v13a）

　　调用行： perl mteval-v13a.pl -r REFERENCE_FILE -s SOURCE_FILE -t CANDIDATE_FILE -c -n

　　选项-c：区分大小写的得分

　　选项-n：仅NIST评分

TER（tercom-0.7.25）

　　调用行： java -jar tercom.7.25.jar -r REFERENCE_FILE -h CANDIDATE_FILE -N -s

　　选项-N：启用归一化

　　选项-s：区分大小写的得分

METEOR（气象0.7）

　　调用行： perl meteor.pl -s SYSTEM_ID -r REFERENCE_FILE -t CANDIDATE_FILE --modules "exact porter_stem wn_stem wn_synonymy"

　　选项--modules "exact porter_stem wn_stem wn_synonymy"：按照顺序使用所有四个METEOR匹配模块

　　这里我们可以看到除了提供nist算法外，还提供BLEU，于是我们用BLEU那篇文章中举例的那句话，我们看看值是否相等。

　　src.xml:

<?xml version="1.0" encoding="utf-8"?>

<!DOCTYPE mteval SYSTEM "ftp://jaguar.ncsl.nist.gov/mt/resources/mteval-xml-v1.3.dtd">

<mteval>

    <srcset setid="example_set" srclang="Arabic">

        <doc docid="doc1" genre="nw">

            <p>

                <seg id="1">下午去打篮球不？"</seg>

            </p>

        </doc>

    </srcset>

</mteval>

　　tst.xml:

<?xml version="1.0" encoding="utf-8"?>

<!DOCTYPE mteval SYSTEM "ftp://jaguar.ncsl.nist.gov/mt/resources/mteval-xml-v1.3.dtd">

<mteval>

    <tstset setid="example_set" srclang="Arabic" trglang="English" sysid="sample_system">

        <doc docid="doc1" genre="nw">

            <p>

                <seg id="1">Going to play basketball this afternoon ?</seg>

            </p>

        </doc>

    </tstset>

</mteval>

　　ref.xml:

<?xml version="1.0" encoding="utf-8"?>

<!DOCTYPE mteval SYSTEM "ftp://jaguar.ncsl.nist.gov/mt/resources/mteval-xml-v1.3.dtd">

<mteval>

    <refset setid="example_set" srclang="Arabic" trglang="English" refid="ref1">

        <doc docid="doc1" genre="nw">

            <p>

                <seg id="1">Going to play basketball in the afternoon ?</seg>

            </p>

        </doc>

    </refset>

</mteval>

　　运行命令：

　　得到的bleu值和我们之前计算的bleu值是一致的。成功~

　　然后我在后续计算的过程中，发现了nist脚本中的BLEU计算的时候，会把xml中的符号例如“左括号”他会转移为( 进行计算。而(就是左括号的标准转义字符，只不过这里计算的时候刚好给相反了，有点让人想不通。。

　　最后附上转换xml的脚本，因为之前BLEU计算的时候，不需要xml格式的，因此写了一个批量转化的脚本：

#!/usr/bin/python

#coding=utf8

import sys

import re

import codecs

import os

from xml.etree.ElementTree import ElementTree as etree

from xml.etree.ElementTree import Element, SubElement, ElementTree

reload(sys)

sys.setdefaultencoding( "utf-8" )

# 传入至少5个参数

# 生成译文的xml

# param 1: 要处理的是什么文件，只允许传入 "src","tst","ref"

# param 2：评测集名称

# param 3：源语言

# param 4：目标语言

# param 5..：要处理的文件

# 例如

# 生成原文

# python genXML.py src tmq30 English Chinese tmq30.txt

# 生成译文

# python genXML.py tst tmq English Chinese baidu.txt Google.txt

# 生成ref

# python genXML.py ref tmq English Chinese ref.txt ref2.txt 

'''

@ 生成ref的xml

@ param 1: 多份ref的list，list中每一个元素为一个ref的list

@ param 2：评测集名称

@ param 3：源语言

@ param 3：目标语言

'''

def genrefxml(reflists, setid, srclang, trglang):

    mteval = Element('mteval')

    for reflist in reflists:

        sysid = reflist[0]

        set = SubElement(mteval, "refset")

        set.attrib = {"setid":setid, "srclang":srclang, "trglang":trglang, "refid":sysid}

        doc = SubElement(set, "doc")

        doc.attrib = {"docid":"doc1"}

        i = 0

        for sentence in reflist:

            # 第一位存储具体是哪个引擎

            if i != 0:

                p = SubElement(doc, "p")

                seg = SubElement(p, "seg")

                seg.attrib = {"id":str(i)}

                seg.text = sentence

            i = i+1

    tree = ElementTree(mteval)

    tree.write(setid+'_ref.xml', encoding = 'utf-8')

'''

@ 生成译文的xml

@ param 1: 多份译文的list，list中每一个元素为一个译文的list

@ param 2：评测集名称

@ param 3：源语言

@ param 3：目标语言

'''

def gentstxml(tstlists, setid, srclang, trglang):

    mteval = Element('mteval')

    for tstlist in tstlists:

        sysid = tstlist[0]

        set = SubElement(mteval, "tstset")

        set.attrib = {"setid":setid, "srclang":srclang, "trglang":trglang, "sysid":sysid}

        doc = SubElement(set, "doc")

        doc.attrib = {"docid":"doc1"}

        i = 0

        for sentence in tstlist:

            # 第一位存储具体是哪个引擎

            if i != 0:

                p = SubElement(doc, "p")

                seg = SubElement(p, "seg")

                seg.attrib = {"id":str(i)}

                seg.text = sentence

            i = i+1

    tree = ElementTree(mteval)

    tree.write(setid+'_tst.xml', encoding = 'utf-8')

'''

@ 生成原文的xml

@ param 1: 原文内容的list

@ param 2：评测集名称

@ param 3：源语言

'''

def gensrcxml(senlist, setid, srclang):

    mteval = Element('mteval')

    set = SubElement(mteval, "srcset")

    set.attrib = {"setid":setid, "srclang":srclang}

    doc = SubElement(set, "doc")

    doc.attrib = {"docid":"doc1"}

    i = 1

    for sentence in senlist:

        p = SubElement(doc, "p")

        seg = SubElement(p, "seg")

        seg.attrib = {"id":str(i)}

        seg.text = sentence

        i = i+1

    tree = ElementTree(mteval)

    tree.write(setid+'_src.xml', encoding = 'utf-8')

# 调用具体的生成xml

def genxmltree(filetype, setid, srclang, trglang, files):

    if filetype not in ["src","tst","ref"]:

        print "filetype is error"

        return

    # 处理原文

    if filetype == "src":

        srclist = []

        for line in open(files[0]):

            line = line.strip()

            if line:

                srclist.append(line)

        gensrcxml(srclist, setid, srclang)

    # 处理译文

    if filetype == "tst":

        tstslist = []

        for tstfile in files:

            tstlist =[]

            tstlist.append(str(tstfile).strip('.txt'))

            for line in open(tstfile):

                line = line.strip()

                if line:

                    tstlist.append(line)

            tstslist.append(tstlist)

        gentstxml(tstslist, setid, srclang, trglang)

    # 处理ref

    if filetype == "ref":

        reflists = []

        for reffile in files:

            reflist =[]

            reflist.append(str(reffile).strip('.txt'))

            for line in open(reffile):

                line = line.strip()

                if line:

                    reflist.append(line)

            reflists.append(reflist)

        genrefxml(reflists, setid, srclang, trglang)

argv_len = len(sys.argv)

#print argv_len

if argv_len < 6:

    print "param error! src/ref tmq English Chinese 1.txt "

    sys.exit()

filetype = sys.argv[1]

setid = sys.argv[2]

srclang = sys.argv[3]

trglang = sys.argv[4]

files = []

for i in range(5, len(sys.argv)):

    files.append(sys.argv[i])

genxmltree(filetype, setid, srclang, trglang, files)

文中nist算法参考论文《Automatic Evaluation of Machine Translation Quality Using N-gram Co-Occurrence Statistics 》

机器翻译评测——BLEU改进后的NIST算法的更多相关文章

Python实现改进后的Bi-RRT算法实例
Python实现改进后的Bi-RRT算法实例 1.背景说明以下代码是参照上海交通大学海洋工程国家重点实验室<基于改进双向RRT的无人艇局部路径规划算法研究>的算法思想实现的. 2.算法流 ...
机器翻译评测——BLEU算法详解
◆版权声明:本文出自胖喵~的博客,转载必须注明出处. 转载请注明出处:http://www.cnblogs.com/by-dream/p/7679284.html 前言近年来,在自然语言研究领域中, ...
改进Zhang Suen细化算法的C#实现
本文主要实现了改进Zhang Suen细化算法的C#实现,相关论文 :“牟少敏,杜海洋,苏平,查绪恒,陈光艺.一种改进的快速并行细化算法[J].微电子学与计算机,2013,(第1期)” .这篇论文中关 ...
李宏毅机器学习笔记4：Brief Introduction of Deep Learning、Backpropagation(后向传播算法)
李宏毅老师的机器学习课程和吴恩达老师的机器学习课程都是都是ML和DL非常好的入门资料,在YouTube.网易云课堂.B站都能观看到相应的课程视频,接下来这一系列的博客我都将记录老师上课的笔记以及自己对 ...
机器翻译评价指标 — BLEU算法
1,概述机器翻译中常用的自动评价指标是 $BLEU$ 算法,除了在机器翻译中的应用,在其他的 $seq2seq$ 任务中也会使用,例如对话系统. 2 $BLEU$算法详解假定人工给出的译文为$re ...
KMP算法(改进后的字符串匹配算法)
转载:http://blog.csdn.net/liu88010988/article/details/50789960 kmp算法完成的任务是:给定两个字符串O和f,长度分别为n和m,判断f是否在O ...
java词频统计——改进后的单元测试
测试项目博客文章地址:[http://www.cnblogs.com/jx8zjs/p/5862269.html] 工程地址:https://coding.net/u/jx8zjs/p/wordCo ...
关于机器翻译评价指标BLEU(bilingual evaluation understudy)的直觉以及个人理解
最近我在做Natural Language Generating的项目,接触到了BLEU这个指标,虽然知道它衡量的是机器翻译的效果,也在一些文献的experiment的部分看到过该指标,但我实际上经常 ...
改进遗传算法之CHC算法简要介绍
简要介绍: CHC算法是Eshelman于1991年提出的一种改进的遗传算法的缩称,第一个C代表跨世代精英选择(Cross generational elitist selection)策略, H代表 ...

随机推荐

Spring之注解实现aop(面向切面编程)
1:Aop(aspect object programming)面向切面编程,名词解释: 1.1:功能:让关注点代码与业务逻辑代码分离 1.2:关注点重复代码就叫做关注点 ...
http://codeforces.com/contest/845
A. Chess Tourney time limit per test 1 second memory limit per test 256 megabytes input standard inp ...
Java历程-初学篇 Day07 循环结构2 for循环
一,格式 for(赋值语句//为循环变量赋初值;条件语句//循环结构的循环条件;赋值语句//迭代,修改循环变量的值){ //循环体; } 二,简单举例 for(int i=1;i<=10;i++ ...
jquery.form.js的重置表单增加hidden重置代码
jquery.form.js的resetForm()方法无法重置hidden元素,打开文件在1460行加上以下代码即可
ubuntu中切换到root账号方法
ubuntu如何切换到root用户身份? 前面小编分享了ubuntu怎么开启root用户,下面小编来分享如何切到到root用户方法/步骤按照下面的方式打开终端工具,或者使用终端工具的快捷键Ctrl ...
一步使你的asp.net网站在手机浏览器上全屏显示
首先要加入下面的代码: <meta name="viewport" content="width=device-width, initial-scale=1.0, ...
SQL查找删除重复数据只保留一条
--用SQL语句,删除掉重复项只保留一条 --在几千条记录里,存在着些相同的记录,如何能用SQL语句,删除掉重复的呢 --1.查找表中多余的重复记录,重复记录是根据单个字段(peopleId)来判断 ...
NPOI导出excel（带图片）
近期项目中用到Excel导出功能,之前都是用普通的office组件导出的方法,今天尝试用下NPOI,故作此文以备日后查阅. 1.NPOI官网http://npoi.codeplex.com/,下载最新 ...
学习PID
最近在想自己的文章有些是不是写的太难以理解了呢.........竟然好多人看了还是会直接问我很多问题....... 其实PID哈靠自己想像就能自己写出来自己的代码,也许是网上的讲的太过的高深什么积分微 ...
css笔记-文本样式
聊聊text-decoration.text-indent.text-transform.letter-spacing.word-spacing.vertical-align.下面是一些常用设置文本样 ...

机器翻译评测——BLEU改进后的NIST算法

机器翻译评测——BLEU改进后的NIST算法的更多相关文章

随机推荐

热门专题