语言模型

所谓的语言模型，即是指在得知前面的若干个单词的时候，下一个位置上出现的某个单词的概率。

最朴素的方法是N-gram语言模型，即当前位置只和前面N个位置的单词相关。如此，问题便是，N小了，语言模型的表达能力不够。N大了，遇到稀疏性问题，无法有效的表征上下文。

LSTM模型一般会将单词embedding到连续空间，然后输入进LSTM，从而有效的表征上下文。但LSTM的问题在于，作为递归模型，当前状态依赖于上一状态，并行化受到限制。

门限卷积

所谓的门限卷积，其核心在于为卷积的激活值添加一个门限开关，来决定其有多大的概率传到下一层去。下面一步步对上图进行解析。

首先，将单词embedding到连续空间；即上图中的第二部分Lookup Table。这样，单词序列就能表现为矩阵了。

然后就是卷积单元了（上图中的第三部分），与普通卷积不同，门限卷积在这里分为两部分，一部分是卷积激活值，即B，该处于普通卷积的不同在于没有用Tanh，而是直接线性。另一部分是门限值，即A，A也是直接线性得到，但会经过一个sigmoid运算符。

之后就是门限单元，A和B进行element-wise的相乘，得到卷积后的结果。卷积单元和门限单元加起来形成一个卷积层。

经过多个这样的卷积层之后，再将其输入到SoftMax中，得到最后的预测。

细节

在做卷积层的时候，需要不让第i个输出值看到i以后的输入值。这是由语言模型的特性决定的，需要用i之前的信息来预测i。为了达到这样的效果，需要将输入层进行偏移，偏移k/2个单位，其中k是卷积的宽度，偏移后开头空缺的部分就用0进行padding。

由于residual network的强大能力，在真正的实现里，会把卷积单元和门限单元包在一个residual block里。

在最后的softmax层，普通的softmax会因为词表巨大而非常低效。因而选用adaptive softmax。adaptive softmax可以为高频词分配更多的空间而给低频次分配比较少的空间。

门限机制

LSTM中有input门和forget门两种，这两种缺一则会导致有些信息的缺失。而卷积中，经过实验，不需要forget gate。

而LSTM中使用的input门，如上。这种在卷积上却容易导致vanishing问题。因为tanh‘和σ’都是小于1的值。

因而，在卷积上，使用：

该方法存在一路使得X的导数可以不被downscale的传下去。

实验

Setup

使用Google Billion Word和WikiText-103两种数据集。
使用perplexity来进行衡量结果。
使用Nesterov’s momentum算法来训练，momentum设为0.99。
weight normalization.
gradient clipping to 0.1
使用Kaiming initialization
learning rate 从[1., 2.]中uniformly选取

效果测试

单GPU上效果最好。

性能测试

Throughput是指在并行化条件下最大输出。
Responsiveness是指序列化的处理输入。
由表可知，CNN本身的处理速度非常快。而LSTM在并行化后也能拥有很高的速度。究其原因，是在cuDNN中对LSTM有特别的优化，而对1-D convolution却没有。但即便如此，CNN仍然完胜。

不同门限测试

GTU: tanh(X*W+b)⊗σ(X*V+c)
GLU: (X*W+b)⊗σ(X*V+c)
ReLU: X⊗(X>0)
Tanh: tanh(X*W+b)

非线性模型测试

上一个实验证明了Gated linear unit深受Linear unit的好处。这里评测一下GLU和纯线性模型的比较。

Bilinear: (X*W+b)⊗(X*V+c)

纯Linear模型同5-gram模型效果类似。

模型深度测试

Context Size测试

训练测试

缺点

卷积不似LSTM那样灵活，输入只能是定长。

Language Modeling with Gated Convolutional Networks的更多相关文章

Language Modeling with Gated Convolutional Networks(句子建模之门控CNN）--模型简介篇
版权声明:本文为博主原创文章,遵循CC 4.0 by-sa版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/liuchonge/article/deta ...
RNN and Language modeling in TensorFlow
RNNs and Language modeling in TensorFlow From feed-forward to Recurrent Neural Networks (RNNs) In th ...
Emotion Recognition Using Graph Convolutional Networks
Emotion Recognition Using Graph Convolutional Networks 2019-10-22 09:26:56 This blog is from: https: ...
【注意力机制】Attention Augmented Convolutional Networks
注意力机制之Attention Augmented Convolutional Networks 原始链接:https://www.yuque.com/lart/papers/aaconv 核心内容 ...
【论文笔记】Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition 2018-01-28 15:4 ...
论文笔记之：Semi-supervised Classification with Graph Convolutional Networks
Semi-supervised Classification with Graph Convolutional Networks 2018-01-16 22:33:36 1. 文章主要思想: 2. ...
VGGNet论文翻译-Very Deep Convolutional Networks for Large-Scale Image Recognition
Very Deep Convolutional Networks for Large-Scale Image Recognition Karen Simonyan[‡] & Andrew Zi ...
Recurrent Neural Network Language Modeling Toolkit代码学习
Recurrent Neural Network Language Modeling Toolkit 工具使用点击打开链接本博客地址:http://blog.csdn.net/wangxingin ...
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition (ST-GCN)
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition 摘要动态人体骨架模型带有进行动 ...

随机推荐

jq实现上传头像并实时预览功能
效果页面结构 <form action="" name="form0" id="form0"> <input type= ...
springboot注解使用说明
springboot注解 @RestController和@RequestMapping注解我们的Example类上使用的第一个注解是 @RestController .这被称为一个构造型(ster ...
parseInt原来是这样用的
今天在群里无意中看到了这样一个问题,突然发现不会,结果运行一看,懵逼了,不知道为什么???(结果是啥?自己去试试看) 现在我们还是先来复习一下parseInt()这个知识点吧! parseInt() ...
如何看apache的版本号
在服务器上输入httpd -v就可以看到在服务器上运行apachectl -v命令即可 Server version: Apache/2.2.3 Server built: Feb 25 2012 ...
7系列高速收发器总结 GTP IP核使用篇
上一篇7系列收发器博文讲解了GTP IP核的基本配置,本文继续分析如何将它使用起来.生成IP核后打开example design,先看看工程中包含的文件结构. 顶层文件下包含了gtp ip核系统顶层文 ...
jQuery中foreach的continue和break
摘录自:http://blog.csdn.net/penginpha/article/details/12159389 1. continue. 可以使用return. $("***&quo ...
Java 获取年月日时分秒
/** * 英文简写(默认)如:2010-12-01 */ public static String FORMAT_SHORT = "yyyy-MM-dd"; /** * 英文全称 ...
scrapy-redis功能简介
connection:连接redis最基本文件 default:默认值设置文件 dupefiler_key 保存指纹 dupefilter:替换scrapy默认的url去重器 piklecompat: ...
python_协程方式操作数据库
# !/usr/bin/python3 # -*- coding: utf-8 -*- import requests import gevent import pymysql from gevent ...
转-WebService到底是什么？
原文链接:WebService到底是什么? 一.序言大家或多或少都听过WebService(Web服务),有一段时间很多计算机期刊.书籍和网站都大肆的提及和宣传WebService技术,其中不乏很多 ...

Language Modeling with Gated Convolutional Networks