Deep Learning（深度学习) 学习笔记（四）

神经概率语言模型，内容分为三块：问题，模型与准则，实验结果。[此节内容未完待续...]

1，语言模型问题

语言模型问题就是给定一个语言词典 $D=\{ w^{1},w^{2}, ...,w^{v}\}$ 包括v个单词，对一个字串 $W^{t}_{1}=w_{1}w{2}...w_{t}$ 做出二元推断，推断其是否符合该语言表达习惯。也就是 $Pr(W_{1}^{t})$ 的取值为0或者为1。

概率语言模型放松了对 $Pr(W_{1}^{t})$ 取值的限制，让其在0~1之间取值（语言模型
v.s 概率语言模型），而且全部的字串的概率之和为1。维基百科对于概率语言模型的解释为：是借由一个概率分布，而指派概率给字词所组成的字串。可是须要注意的是直接对 $Pr(W_{1}^{t})$ 进行求其概率分布是不现实的，由于理论上这样的字串数量是无限的。直接求其概率分布会导致维度灾难。

为了解决这个问题，首先引入链式法则（chain rule），觉得字串中第i个字符出现的概率是由其前面i-1个字符决定的。这样就有例如以下公式：

$Pr(W_{1}^{t})=\sum_{i=1}^{t}Pr(w_{i}|w_{1}w_{2}...w_{i-1})$

可是，有了这个公式还是太复杂了。继续引入如果简化公式，觉得字串中第i个字符出现的概率是由其前面n-1个字符决定(也就是如果 $Pr(w_{i}|w_{1}...w_{i-1})=Pr(w_{i}|w_{i-n+1}...w_{i-1})$ )的。这样公式就继续被简化：

$Pr(W_{1}^{t})=\sum_{i=1}^{t}Pr(w_{i}|w_{i-n+1}...w_{i-1})$

模型如今就变得非常easy了，就是计算条件概率 $Pr(w_{i}|w_{i-n+1}...w_{i-1})$ 。也就是须要计算给定字串 $w_{i-n+1}...w_{i-1}$ 后，字典中的每一个字出现的概率 $Pr(w|w_{i-n+1}...w_{i-1})$ 。

2. 模型与准则

2.1 数据给定一些标记号的样本 $\{(w_{t-n+1}^{t-1},w_{t})\},n \leq t \leq T$ .

2.2 模型

图1. 模型图解

图片来自：http://licstar.net/archives/328

建模步骤

2.2.1 查表：将输入的单词 $w_{i}, t-n+1 \leq i \leq t-1$ ,通过查表（图1中Table
look-up过程）将单词映射为m维的词向量。此处的所查的表并非给定的，是在模型学习中获得的附加产物(也就是word2vec产生的那些向量玩意)。

2.2.2 线性变换：将2.2.1中的n-1个m维度的向量通过首尾拼接的方式线性变换成为(n-1)*m维的向量。也就是在中间那个tanh层输入处（以下）全部分向量C(w)合并为一个大的维度为(n-1)*m的向量[Mikolov的RNNLM在此做出改变：不只只看n-1个单词的信息，而是看该词前面全部的单词信息]。

2.2.3 非线性变换：在中间那个tanh层处进行非线性变换。这里须要的是一个变换矩阵 $H\in R^{((n-1)*m)*h}$ 和偏置矩阵 $d \in R^{h}$ 。也就是对于中间那一层（tanh所在的那一层），该层的输入是(n-1)*m的向量 $x$ ，输出是 $z=tanh(Hx+d)$ 。经过线性变换后，先前的(n-1)*m维的向量成为了h维的向量。

2.2.4 输出处理：在最后一层（softmax层）进行处理输出。这里须要一个变换矩阵 $W \in R^{h*v}$ 和一个偏置矩阵 $b \in R^{v}$ 。最后输出就是 $Wz+b$ 。注意到最后输出的是一个v维度的向量，和我们的第一节中词典D的维度是一致的。向量中每个维度相应的实数就是输出该单词的概率。

2.3 准则

对全部的训练样本，其准则为使 $-\sum_{t=n}^{T}\log p(w_{t}|w_{t-n+1}...w_{t-1})+ \lambda$ 取最小,此处 $\lambda$ 为正则项。能够使用梯度下降法进行求取。

模型中须要人工设定的參数是模型的元数n，词向量的维度m，隐层的输出维度h。

须要模型优化的參数：变换矩阵W和H，偏置矩阵d和b，查表所使用的词向量表都是须要优化的參数，也就是我们所求取的參数。

3.实验结果

语言模型困惑度 $PPL=$\sqrt[T]{\prod_{i=1}^{T}\frac{1}{p(w_{t}|w_{t-n+1}...w_{t-1})}}$$ 。模型困惑度是用来评价不同的语言模型好坏的一种方法（另一种方法是Word
Error Rate，Mikolov的博士论文《Statistical Language
Models based on Neural Networks》博士论文对这两种方法有介绍和比較）。给定測试数据集合，模型在该測试集合上的困惑度越小越好。

測试集合一：

Brown Corpus，共计118w单词，当中80w训练，20w验证，其它18w作为測试集合。

在n=5，m=30，h=100时候NNLM的PPL为270。该測试集合眼下最好的n-gram模型（n=3）的PPL为312。设置权重进行模型融合后的PPL为252。

測试集合二：

AP News，共计1600w词，当中1400w训练，100w验证，其它100w作为測试集合。

在n=6，m=100，h=109时候NNLM的PPL为109。该測试集合眼下最好的n-gram模型的PPL为117。

网上学习资料：

关于神经网络语言模型的博客：点击打开链接

Mikolov的博士论文《Statistical Language
Models based on Neural Networks》关于n-gram语言模型的评价是简单有用（N-gram models are today still considered as state of the art not because there are no better techniques, but
because those better techniques are computationally much more complex, and provide just marginal improvements, not critical for success of given application.），模型的关键就是选择n值和平滑技术。其固有缺点例如以下：

第一，n-gram模型的n值无法取大。由于模型n-gram片段的数量会随着n值的变大指数增长。这一点就决定了n-gram模型无法有效的利用更长的上下文信息。特殊的，当被提供海量训练语料时，n-gram模型也无法有效捕捉一些长距离的语言现象。

第二，即使n值能够取得比較大，n-gram无法有利用长距离的上下文信息。比如，有一个句子The sky above our heads is bleu. 这句话里面单词 bleu对单词sky有着非常强的依赖关系，无论这两个单词中间插入多少变量都不会破坏这样的关系。比如The
sky this morning was bleu. 可是对n-gram模型，即使放开n值的限制，取一个较大的n值，也无法有效地捕捉这样的长距离的语言现象。

第三，n-gram模型无法高效的对相似的词语进行辨别。比如：训练语料中存在Party will be on Monday. 和Party will be on Tuesday. 模型无法对类似Party
will be on Friday.的句子赋予较高的概率。尽管我们人可以清楚知道“Monday”,"Tuesday","Friday"这些是类似的概念，可是只对字面进行建模的n-gram无法辨别。

Deep Learning（深度学习) 学习笔记（四）的更多相关文章

Deep learning with Python 学习笔记（1）
深度学习基础 Python 的 Keras 库来学习手写数字分类,将手写数字的灰度图像(28 像素 ×28 像素)划分到 10 个类别中(0~9) 神经网络的核心组件是层(layer),它是一种数据 ...
Deep learning with Python 学习笔记（11）
总结机器学习(machine learning)是人工智能的一个特殊子领域,其目标是仅靠观察训练数据来自动开发程序［即模型(model)］.将数据转换为程序的这个过程叫作学习(learning) 深 ...
Deep learning with Python 学习笔记（10）
生成式深度学习机器学习模型能够对图像.音乐和故事的统计潜在空间(latent space)进行学习,然后从这个空间中采样(sample),创造出与模型在训练数据中所见到的艺术作品具有相似特征的新作品 ...
Deep learning with Python 学习笔记（9）
神经网络模型的优化使用 Keras 回调函数使用 model.fit()或 model.fit_generator() 在一个大型数据集上启动数十轮的训练,有点类似于扔一架纸飞机,一开始给它一点推 ...
Deep learning with Python 学习笔记（8）
Keras 函数式编程利用 Keras 函数式 API,你可以构建类图(graph-like)模型.在不同的输入之间共享某一层,并且还可以像使用 Python 函数一样使用 Keras 模型.Ker ...
Deep learning with Python 学习笔记（5）
本节讲深度学习用于文本和序列用于处理序列的两种基本的深度学习算法分别是循环神经网络(recurrent neural network)和一维卷积神经网络(1D convnet) 与其他所有神经网络一 ...
Deep learning with Python 学习笔记（4）
本节讲卷积神经网络的可视化三种方法可视化卷积神经网络的中间输出(中间激活) 有助于理解卷积神经网络连续的层如何对输入进行变换,也有助于初步了解卷积神经网络每个过滤器的含义可视化卷积神经网络的过滤 ...
Deep learning with Python 学习笔记（3）
本节介绍基于Keras的使用预训练模型方法想要将深度学习应用于小型图像数据集,一种常用且非常高效的方法是使用预训练网络.预训练网络(pretrained network)是一个保存好的网络,之前已在 ...
Deep learning with Python 学习笔记（2）
本节介绍基于Keras的CNN 卷积神经网络接收形状为 (image_height, image_width, image_channels)的输入张量(不包括批量维度),宽度和高度两个维度的尺寸通常 ...
（转）基于Theano的深度学习(Deep Learning)框架Keras学习随笔-01-FAQ
特别棒的一篇文章,仍不住转一下,留着以后需要时阅读基于Theano的深度学习(Deep Learning)框架Keras学习随笔-01-FAQ

随机推荐

AngularJS_百度百科
AngularJS_百度百科 AngularJS 编辑 AngularJS是为克服HTML在构建应用上的不足而设计的. 目录 1简介引引端对 ...
[置顶] RFS的web自动化验收测试——常见问题指引
引言:什么是RFS——RobotFramework+Selenium2library,本系列主要介绍web自动化验收测试方面. ( @齐涛-道长新浪微博) 下面的内容还没整理好,先发个问题解决机制吧 ...
中国还是和AMD走到一起了但美国会高兴吗（网易科技卢鑫）
文/ 网易科技卢鑫去年的这个时候,小编写下了一篇<易评:还给AMD一个公正!>——此文由AMD惨不忍睹的第一季度财报展开,谈到了该公司将全部资源押宝2016的现实.如今,2016第一季 ...
CSS3实现时间轴效果
原文:CSS3实现时间轴效果最近打开电脑就能看到极客学院什么新用户vip免费一个月,就进去看看咯,这里就不说它的课程怎么滴了,里面实战路径图页面看到了这个效果: 有点像时间轴的赶脚,而且每一块鼠标悬 ...
[置顶] js中如何复制一个对象，如何获取所有属性和属性对应的值
在js中如何复制一个对象,例如如下一个js对象. 如果知道这个对象的所有属性自然就可以重新new一个,然后对每个属性赋值,就可以做到,但如果不知道呢?如何创建一个内容相同的对象呢? var obj= ...
Head First PHP &MySQL学习笔记
近期一段时间在学习PHP,买了<Head First PHP&MySQL>中文版这本书,之前买过<Head First设计模式>,感觉这系列的书籍整体来说非常不错. ...
拍照图片滤镜sample
本文章主要介绍拍完照片后对图片的渲染进行处理可以对拍出的照片进行选择不同的滤镜,令在图片上附有编辑框,供大家对图片进行描述,这是一个可以手动拖动的编辑框,在这里主要介绍下,手指放到控件上什么情况下视 ...
Java基础：泛型及其擦除性、不可协变性
转载请注明出处:jiq•钦's technical Blog 1泛型语法: 泛型类: class ClassName<T>{} 泛型方法:public <T> void f(T ...
Atitit.软件仪表盘(2)--vm子系统--资源占用监測
Atitit.软件仪表盘(2)--vm子系统--资源占用监測 1. Jvisualvm.exe 2. jprofile 3. Heap //permgen monitor 作者::老哇的爪子At ...
FairScheduler的任务调度机制——assignTasks
首先需要了解FairScheduler是如何在各个Pool之间分配资源,以及每个Pool如何在Job之间分配资源的.FairScheduler的分配资源发生在update()方法中,而该方法由一个线程 ...

Deep Learning（深度学习) 学习笔记（四）

Deep Learning（深度学习) 学习笔记（四）的更多相关文章

随机推荐

热门专题