5.3序列模型与注意力机制

觉得有用的话,欢迎一起讨论相互学习~Follow Me

3.3 集束搜索Beam Search

对于机器翻译来说，给定输入的句子，会返回一个随机的英语翻译结果，但是你想要一个最好的英语翻译结果。对于语音识别也是一样，给定一个输入的语音片段，你不会想要一个随机的文本翻译结果，你想要一个最接近愿意的翻译结果。
Jane visite l'Afrique en septembre 希望翻译成英文句子 Jane is visiting Africa in September

集束搜索第一步就是挑选出英文翻译句子中的第一个单词。
1. 首先英语字典可表示为：
2. 第一个英语翻译的单词的概率可表示为:
  \(P(y^{<1>}|x)\) , 其中x表示输入的法语句子，\(y^{<1>}\)表示输出的第一个英语单词。
3. 此步骤的结构可表示为:
4. 贪婪算法只会挑出最可能的那个单词，然后继续，然而 集束搜索算法 会考虑多个结果， 集束搜索算法 会有一个参数B，叫做 集束宽(beam width) 在这个例子中，设置集束宽(beam width) 为3 这表明其会一次性考虑三个候选单词。然后 集束搜索算法 会把结果存到计算机内存中，以便后面尝试使用这三个词。
5. 过程是先将整个待翻译的句子输入到绿色的编码网络中，然后使用紫色的解码网络进行解码，结果是一个1W维的向量，用来表示第一个英文单词的概率，选择概率最大的 3个(集束宽) 单词存储在内存中。
对于第二个单词，是要在确定第一个单词的情况下进行搜索。
1. 假设第一个单词被设置为 in 或 jane 或 september
2. 将第一个单词 in 作为 解码器 的第一个节点的输出，并且将其作为第二个节点的输入。这样这个网络就能评估第二个词的概率了 \(P(y^{<2>}|x,"in")\)
3. Note 在第二步中，第一个和第二个单词的联合概率是关心的重点即\(P(y^{<1>},y^{<2>}|x)\),根据概率公式，有:\(P(y^{<1>},y^{<2>}|x)=p(y^{<1>}|x)P(y^{<2>}|x,y^{<1>})\).
4. 同样，对第一个翻译结果的其他候选词("jane, september")进行如上操作.
5. 由于使用的 集束宽 为3 ，并且词汇表中单词的数量为 1W, 所以最终会有3W(集束宽 * 词典中词汇总量)个可能的结果
6. 再从3W个结果中挑选出3(集束宽)个概率最大的结果
- Note 对于第二个单词的挑选，使用三(集束宽)个不同的网络，因为每个网络的 \(y^{<1>}\) 不同。
保存已经挑选出的前两个单词与在输入为x的条件下，前两个单词的概率，同上述操作挑选出第三个词：
集束搜索通过这种方法每次找到一个词，最终得到 Jane visits africa in september 这个句子终止在句尾符号

3.4 改进集束搜索Refinements to beam search

长度归一化 Length Normalization

取log值

集束搜索的目的是最大化下式

其中：上式也可表示为下式 \[P(y^{<1>}y^{<2>}...y^{<T_{y}>})=P(y^{<1>}|x)P(y^{<2>}|x,y^{<1>})...P(y^{<T_{y}>}|x,y^{<1>}...,y^{<T_{y}-1>})\]

但是\(P(y^{<1>}|x)P(y^{<2>}|x,y^{<1>})...P(y^{<T_{y}>}|x,y^{<1>}...,y^{<T_{y}-1>})\)这个乘积式中的因子都是小数，其乘积会是一个十分小的数，会造成 数值下溢(numerical underflow)
为了解决这个问题，将最大化的乘积式取对数 ，由 **logM*N=logM+logN** 公式可得，上述需要最大化的乘积式可以转化为:

即乘积的log变成了log的求和，最大化这个log的求和值能够得到同样的结果，并且不会出现 数值下溢和四舍五入

归一化

由于\(P(y^{<1>}|x)P(y^{<2>}|x,y^{<1>})...P(y^{<T_{y}>}|x,y^{<1>}...,y^{<T_{y}-1>})\)乘积式中各个因此都是小数，所以随着翻译句子的增长，P的乘积会越来越小。而 集束搜索 的结果会选取较大的P的乘积式。这样搜索方法会不自然的偏向 更短的翻译输出 因为 短句子 的概率是由更少的小于1的数字乘积得到的。而对于乘积的 对数式 ，由于取对数后的结果是负数，要取得更大的概率值，也会偏向于 更短的翻译结果
因此将原先的公式 除以翻译后句子的总长度/翻译后句子总长度的指数(指数小于1) ，这样很明显的减少了对输出长的结果的惩罚

束宽选择 Beam width B

束宽B越大，你考虑的选择越多，找到的句子可能越好，但是B越大，算法的计算代价越大，程序运行的也会相对较慢，因为要把更多可能的选择保存下来。
束宽B越小，需要考虑的选择越少，内存占用小，程序运行越快，但是效果没有那么好。
普通时候B一般选择10，工业界上也可以选择100，科研任务中需要得到最好的结果，也有将B设置为1000或3000的时候。
Note 相对于 深度优先搜索 ， 广度优先搜索 等算法来说，束搜索运行的更快但是不能包含保证一定能找到arg max的准确的最大值

3.4 集束搜索误差分析 Error analysis on beam search

束搜索算法是一种 近似搜索算法(approximate search algorithm) , 也被称为 heuristic search algorithm 启发式搜索算法 ，其不总是输出可能性最大的句子，它仅记录着B为前3或者10或者100种可能。所以束搜索方法也会出现错误。本节将使用 误差分析 的方法对 束搜索(beam search) 进行改进，发现到底是束搜索方法出现了问题还是构造的RNN模型出现了问题导致整个系统的失效。
例句 Jane visite l'Afrique en septembre ,验证集中人工翻译的正确答案为 Jane visits Africa in September 将人工翻译的结果标记为 \(y^{ * }\) ,使用训练完成的机器翻译模型翻译为 Jane visited Africa last September 并将其标记为 \(\hat{y}\)
当然，机器翻译的结果不能算是好的翻译，其中机器翻译可以被分成两个部分 编码器与解码器 ，束搜索B 。必须有方法判断出是两部分中的哪部分的问题，导致翻译系统不能很好的工作。

增大束宽B 意味着在选择单词时有更好的选择，但是一味的增大束宽B也会带来不好的结果。
RNN的功能是计算P(y|x),所以可以通过比较 \(P(y^{ * }|x)\) 和 \(P(\hat{y}|x)\) 的值的大小来判断RNN和束搜索方法的好坏。

\(P(y^{ * }|x) \ge P(\hat{y}|x)\)

束搜索方法选择了 \(\hat{y}\) , RNN计算P(y|x), 而束搜索方法就是找到了 \(\hat{y}\) ，使得P(y|x)达到最大。所以此时能够判断 束搜索方法不能提供一个能是P(y|x)达到最大的y值

\(P(y^{ * }|x) \le P(\hat{y}|x)\)
在例子中设定 \(y^{ * }\) 是比 \(\hat{y}\) 更好的翻译结果，不过根据RNN的概率计算 \(P(y^{ * }|x) \le P(\hat{y}|x)\) 这与P(x|y)的实际定义不符合，RNN应该判断更好的翻译结果具有更高的P(x|y)值，所以此时可以认为是RNN模型出了问题，不能对P(x|y)做出有效的判断。

总结
通过这个过程，你就能执行误差分析得出束搜索算法和RNN模型出错的比例是多少。可以通过对开发集中每一个错误例子(即翻译比人工差的情况)尝试确定这些错误，是搜索算法还是RNN模型出错。并且通过这个过程可以发现其中哪个对翻译出错的影响更大。并且只有当发现是束搜索算法引发了大量错误时，才可以决定增大集束宽度B。如果是发现RNN出了问题，你可以进行更深层次的分析来决定是需要增加正则化还是获取更多的训练数据或是尝试一个不同的网络结构

[DeeplearningAI笔记]序列模型3.3集束搜索的更多相关文章

[DeeplearningAI笔记]序列模型3.2有条件的语言模型与贪心搜索的不可行性
5.3序列模型与注意力机制觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.2选择最可能的句子 Picking the most likely sentence condition lan ...
[DeeplearningAI笔记]序列模型3.9-3.10语音辨识/CTC损失函数/触发字检测
5.3序列模型与注意力机制觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.9语音辨识 Speech recognition 问题描述对于音频片段(audio clip)x ,y生成文本 ...
[DeeplearningAI笔记]序列模型3.7-3.8注意力模型
5.3序列模型与注意力机制觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.7注意力模型直观理解Attention model intuition 长序列问题 The problem of ...
[DeeplearningAI笔记]序列模型3.6Bleu得分/机器翻译得分指标
5.3序列模型与注意力机制觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.6Bleu得分在机器翻译中往往对应有多种翻译,而且同样好,此时怎样评估一个机器翻译系统是一个难题. 常见的解决 ...
[DeeplearningAI笔记]序列模型3.1基本的 Seq2Seq /image to Seq
5.3序列模型与注意力机制觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.1基础模型 [1] Sutskever I, Vinyals O, Le Q V. Sequence to Se ...
[DeeplearningAI笔记]序列模型1.10-1.12LSTM/BRNN/DeepRNN
5.1循环序列模型觉得有用的话,欢迎一起讨论相互学习~Follow Me 1.10长短期记忆网络(Long short term memory)LSTM Hochreiter S, Schmidhu ...
[DeeplearningAI笔记]序列模型1.7-1.9RNN对新序列采样/GRU门控循环神经网络
5.1循环序列模型觉得有用的话,欢迎一起讨论相互学习~Follow Me 1.7对新序列采样基于词汇进行采样模型在训练完一个模型之后你想要知道模型学到了什么,一种非正式的方法就是进行一次新序列采 ...
[DeeplearningAI笔记]序列模型1.5-1.6不同类型的循环神经网络/语言模型与序列生成
5.1循环序列模型觉得有用的话,欢迎一起讨论相互学习~Follow Me 1.5不同类型的循环神经网络上节中介绍的是具有相同长度输入序列和输出序列的循环神经网络,但是对于很多应用\(T_{x}和 ...
[DeeplearningAI笔记]序列模型1.3-1.4循环神经网络原理与反向传播公式
5.1循环序列模型觉得有用的话,欢迎一起讨论相互学习~Follow Me 1.3循环神经网络模型为什么不使用标准的神经网络假如将九个单词组成的序列作为输入,通过普通的神经网网络输出输出序列, 在 ...

随机推荐

由A到D中间可不止“B、C”
在电子信息系统的学习中,我们或许早就被告知现实世界是模拟的,而数字化的模拟世界则越来越展现更多的风采.但是所谓的数字和模拟只是相对的而已,你可以把模拟量当做无穷数字量的组合,也可以把数字量当做具有不同 ...
Bracket Sequences Concatenation Problem括号序列拼接问题（栈+map+思维）
A bracket(括号) sequence is a string containing only characters "(" and ")".A regu ...
效能检测 psp
1.本周psp: 2.本周进度条: 3.累计进度图(折线图) 4.psp饼状图:
20172326『Java程序设计』课程结对编程练习_四则运算第二周阶段总结
20172326『Java程序设计』课程结对编程练习_四则运算第二周阶段总结小组成员 20172313 余坤澎 20172332 于欣月 20172326 康皓越小组编程照片设计思路通过一个E ...
c# webBrowser打开pdf问题
1.生成模式使用release加*86尝试,使用debug则webBrowser不生效
C++：const用法的简单总结
一.对变量的修饰在c++中,如果我们希望定义一个值不会被改变的变量,那么可以用关键字const对它进行修饰,被修饰后的变量其作用相当于一个常量 //这两种方式等价 2 语法1:const 类型名变 ...
lilntcode-508-摆动排序
508-摆动排序给你一个没有排序的数组,请将原数组就地重新排列满足如下性质 nums[0] <= nums[1] >= nums[2] <= nums[3].... 注意事项请就 ...
团队项目利用Msbuild自定义Task实现增量发布
最近一直在做自动部署工具,主要利用到了Msbuild的自定义Task,通过Task我们可以自定义编译.部署过程减少人工直接干预.Msbuild的详细用法,可以去园子里搜一下,有很多的基础教程,这里就不 ...
软件工程个人作业3——集大通APP案例分析
第一部分:调研, 评测 1.第一次上手体验主要界面截图: 感受: 1.界面不美观: 2.特色功能展现模块不突出,以上截图为打开APP所看到的界面展示,但是这些功能都不是该APP的特色功能,显得有些累 ...
week1读构建之法-读书笔记
最开始听见杨老师说邹欣老师这个名字总觉得很熟悉,后来看见博客上老师的头像恍然大悟,原来机缘巧合已经在微博上关注邹老师许久,一直觉得邹老师是个很有意思的人,兴趣一定十分广泛,看了老师的书确实能感觉到邹老 ...

[DeeplearningAI笔记]序列模型3.3集束搜索

5.3序列模型与注意力机制

觉得有用的话,欢迎一起讨论相互学习~Follow Me

3.3 集束搜索Beam Search

3.4 改进集束搜索Refinements to beam search

长度归一化 Length Normalization

取log值

归一化

束宽选择 Beam width B

3.4 集束搜索误差分析 Error analysis on beam search

\(P(y^{ * }|x) \ge P(\hat{y}|x)\)

\(P(y^{ * }|x) \le P(\hat{y}|x)\)

总结

[DeeplearningAI笔记]序列模型3.3集束搜索的更多相关文章

随机推荐

热门专题