5.3序列模型与注意力机制

觉得有用的话,欢迎一起讨论相互学习~Follow Me

3.6Bleu得分

在机器翻译中往往对应有多种翻译，而且同样好，此时怎样评估一个机器翻译系统是一个难题。 常见的解决方法是通过BLEU得分来进行判断

评价机器翻译Evaluating machine translation

Papineni K. Bleu:A Method for Automatic Evaluation of Machine Translation[J]. Proc Acl, 2002.
示例法语句子 :Le chat est sur le tapis
- 人工翻译参考1 The cat is on the mat
- 人工翻译参考2 There is a cat on the mat
- 实际上两个翻译都能准确地翻译了这个法语句子，BLEU得分做的就是给定一个机器生成的翻译，这个算法能够自动地计算一个分数来评价机器翻译的好坏。如果机器翻译的语句能够与任意一个人工翻译参考相近，其就会得到很高的BLEU分数。
BLEU 代表 bilingual evalution understudy--双语评估替补 在戏剧界，替补演员通过学习资深演员以能够在适当时机替代资深演员。 BLEU 相当于请评估员人工评估机器翻译系统，BLEU得分 相当于一个候补者代替人类来评估机器翻译的每一个翻译结果。 BLEU得分 背后的理念是 观察机器生成的翻译，然后看生成的词是否至少出现在一个人工翻译参考之中 因此这些人工翻译的参考会包含在开发集或测试集中

观察输出结果的每一个词看起是否出现在人工参考中
衡量机器翻译输出质量的方法之一是 观察输出结果的每一个词看起是否出现在人工参考中，这被定义为机器翻译的精确度
- 机器翻译结果MT 假设机器翻译得到一个极端的解：the the the the the the the
  - 这种情况下，得到了7个单词，并且这七个单词都出现在了两个参考中，因此根据定义这个输出的精确度是7/7 ，看上去这个结果十分好但是实际结果却不是这样。
  - 所以把出现在参考中的词在MT输出的所有词中所占的比例作为精确度评估标准并不是很有用
    
    改良后的精确度评估方法
把每个词的计分上限定位它在参考句子中出现的最多次数， 在参考一中单词 the 出现了2次，所以上限是2。参考二中，单词the只出现了1次，取参考句子中单词出现的最大值，所以单词“the”的计分上限是2 所以机器翻译结果最终的分数是 2/7

二元组BLEU得分 Bleu score on bigrams
考虑BLEU得分不仅只考虑单个单词，还应该考虑成对的单词(相邻的单词组)的得分
示例法语句子 :Le chat est sur le tapis
- 人工翻译参考1 The cat is on the mat
- 人工翻译参考2 There is a cat on the mat
- MT机器翻译 The cat the cat on the mat
机器翻译中的二元组
- Count_Clip(截断计数) 定义为算法的得分上限，上限值为二元词组出现在参考1和参考2中的最大次数。
- 所以改进后的 Bleu分数 即为 Count_Clip之和除以Count之和
Bigrams Count Count_Clip

the cat 2 1

cat the 1 0

cat on 1 1

on the 1 1

the mat 1 1
- 此例中 Bleu分数 为 \(\frac{4}{6}\)

Bigrams	Count	Count_Clip
the cat	2	1
cat the	1	0
cat on	1	1
on the	1	1
the mat	1	1

N元组BLEU得分

一元组Bleu得分 \[P_1=\frac{\sum_{unigram\in \hat{y}}count_{clip}(unigram)}{\sum_{unigram\in \hat{y}}count(unigram)}\]
N元组Bleu得分 \[P_n=\frac{\sum_{n-gram\in \hat{y} }count_{clip}(n-gram)}{\sum_{n-gram\in \hat{y}}count(n-gram)}\]

Bleu 得分细节

\(P_n\) 表示n元词组这一项的BLEU得分，为了使用一个数值来评价一个机器翻译系统，需要将\(P_1,P_2,P_3,P_4...\)的数值整合进行计算。
\[Bleu score=BPexp(\frac{1}{4}\sum^{4}_{n=1}P_n)\]
使用BP进行 简短惩罚(brevity penalty) ,意思是如果机器翻译输出了一个非常简短的翻译，则其很容易得到一个高分的Bleu值(输出的大部分词可能都出现在参考之中，但是如果我不想要很简短的翻译，则需要使用到简短惩罚) ，其是一个惩罚项，能够惩罚输出了太短的 机器翻译系统
公式
- 即如果 机器翻译的长度 大于 人工翻译输出的长度 ，BP=1，而其他情况下 BP的定义会遵从一个式子，从而减小Bleu得分的值。
Bleu得分 是一个 单一实数评价指标 ，其在 机器翻译 和 图片描述 中应用广泛，用以评价机器生成的语句和实际人工生成的结果是否相近。

[DeeplearningAI笔记]序列模型3.6Bleu得分/机器翻译得分指标的更多相关文章

[DeeplearningAI笔记]序列模型3.7-3.8注意力模型
5.3序列模型与注意力机制觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.7注意力模型直观理解Attention model intuition 长序列问题 The problem of ...
[DeeplearningAI笔记]序列模型3.3集束搜索
5.3序列模型与注意力机制觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.3 集束搜索Beam Search 对于机器翻译来说,给定输入的句子,会返回一个随机的英语翻译结果,但是你想要一 ...
[DeeplearningAI笔记]序列模型3.2有条件的语言模型与贪心搜索的不可行性
5.3序列模型与注意力机制觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.2选择最可能的句子 Picking the most likely sentence condition lan ...
[DeeplearningAI笔记]序列模型1.5-1.6不同类型的循环神经网络/语言模型与序列生成
5.1循环序列模型觉得有用的话,欢迎一起讨论相互学习~Follow Me 1.5不同类型的循环神经网络上节中介绍的是具有相同长度输入序列和输出序列的循环神经网络,但是对于很多应用\(T_{x}和 ...
[DeeplearningAI笔记]序列模型1.1-1.2序列模型及其数学符号定义
5.1循环序列模型觉得有用的话,欢迎一起讨论相互学习~Follow Me 1.1什么是序列模型在进行语音识别时,给定了一个输入音频片段X,并要求输出片段对应的文字记录Y,这个例子中的输入和输出都输 ...
[DeeplearningAI笔记]序列模型3.9-3.10语音辨识/CTC损失函数/触发字检测
5.3序列模型与注意力机制觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.9语音辨识 Speech recognition 问题描述对于音频片段(audio clip)x ,y生成文本 ...
[DeeplearningAI笔记]序列模型3.1基本的 Seq2Seq /image to Seq
5.3序列模型与注意力机制觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.1基础模型 [1] Sutskever I, Vinyals O, Le Q V. Sequence to Se ...
[DeeplearningAI笔记]序列模型1.10-1.12LSTM/BRNN/DeepRNN
5.1循环序列模型觉得有用的话,欢迎一起讨论相互学习~Follow Me 1.10长短期记忆网络(Long short term memory)LSTM Hochreiter S, Schmidhu ...
[DeeplearningAI笔记]序列模型1.7-1.9RNN对新序列采样/GRU门控循环神经网络
5.1循环序列模型觉得有用的话,欢迎一起讨论相互学习~Follow Me 1.7对新序列采样基于词汇进行采样模型在训练完一个模型之后你想要知道模型学到了什么,一种非正式的方法就是进行一次新序列采 ...

随机推荐

React Native 【学习总结】-【常用命令】
前言刚接触RN,相信很多人无从下手,不知道下一步要干什么,能干什么,本次学习围绕这个问题,将RN的常用命令总结一下,帮助你快速上手架构理解光知道命令的作用,远远不够,如果知道命令背后的意义,才能 ...
winform default模式下和英文模式下修改问题
1.修改控件大小.位置等属性在default模式下修改: 2.修改控件属性最好不要做鼠标拖动放大,拖动修改位置等,建议用属性栏中的数字来改变.
（一）java数据类型图
┏数值型━┳━整数型:byte short int long ┏基本数据类型━━┫ ┗━浮点型:float double ...
Java 异常注意事项
异常的注意事项: 1,子类在覆盖父类方法时,父类的方法如果抛出了异常, 那么子类的方法只能抛出父类的异常或者该异常的子类. 2,如果父类抛出多个异常,那么子类只能抛出父类异常的子集. ...
Week2-作业1 -阅读《构建之法》
第一章在阅读第1.2.2节时,感受最深,记得开学初有老师就给我们分析过计算机专业和我们专业的区别,当时是给我们讲的是计算机科学注重的是理论,偏向于硬件方面,而软件工程则注重实践,偏向于软件方面.然很 ...
oracle 行转列和列转行
WITH L AS ( ), m AS ( SELECT A.LV AS LV_A, B.LV AS LV_B, TO_CHAR(B.LV) || 'x' || TO_CHAR(A.LV) || '= ...
对象库（UI MAP）
目的:能够使用配置文件存储被测页面上元素的定位方式和定位表达式,做到定位数据和程序的分离. 测试程序写好以后,可以方便不具备编码能力的测试人员进行自定义修改和配置 : package dataDriv ...
java 两个数组合并
需求:两个字符串合并(如果想去重复,参考下一篇--数组去重复及记录重复个数) //方法一 Arrays类 String[] a = {"A","B"," ...
怎么用JavaScript实现tab切换
先看一下代码实现后的最终效果: 用JavaScript实现思路很简单,就是先把所有的内容隐藏,点击标题对应的内容显示, css代码如下: <style type="text/css&q ...
SQL Server Management Studio（SSMS）的使用与配置整理
目录目录 SQL Server Management Studio的使用与配置 1 设置SSMS显示行号 2 添加注释与取消注释的快捷键 3 新建查询的快捷键 4 开启sql语句TIME与IO的统计 ...

[DeeplearningAI笔记]序列模型3.6Bleu得分/机器翻译得分指标

5.3序列模型与注意力机制

觉得有用的话,欢迎一起讨论相互学习~Follow Me

3.6Bleu得分

评价机器翻译Evaluating machine translation

观察输出结果的每一个词看起是否出现在人工参考中

改良后的精确度评估方法

二元组BLEU得分 Bleu score on bigrams

N元组BLEU得分

Bleu 得分细节

[DeeplearningAI笔记]序列模型3.6Bleu得分/机器翻译得分指标的更多相关文章

随机推荐

热门专题