语言模型

所谓的语言模型,即是指在得知前面的若干个单词的时候,下一个位置上出现的某个单词的概率。

最朴素的方法是N-gram语言模型,即当前位置只和前面N个位置的单词相关。如此,问题便是,N小了,语言模型的表达能力不够。N大了,遇到稀疏性问题,无法有效的表征上下文。

LSTM模型一般会将单词embedding到连续空间,然后输入进LSTM,从而有效的表征上下文。但LSTM的问题在于,作为递归模型,当前状态依赖于上一状态,并行化受到限制。

门限卷积

 

所谓的门限卷积,其核心在于为卷积的激活值添加一个门限开关,来决定其有多大的概率传到下一层去。下面一步步对上图进行解析。

首先,将单词embedding到连续空间;即上图中的第二部分Lookup Table。这样,单词序列就能表现为矩阵了。

然后就是卷积单元了(上图中的第三部分),与普通卷积不同,门限卷积在这里分为两部分,一部分是卷积激活值,即B,该处于普通卷积的不同在于没有用Tanh,而是直接线性。另一部分是门限值,即A,A也是直接线性得到,但会经过一个sigmoid运算符。

之后就是门限单元,A和B进行element-wise的相乘,得到卷积后的结果。卷积单元和门限单元加起来形成一个卷积层。

经过多个这样的卷积层之后,再将其输入到SoftMax中,得到最后的预测。

细节

在做卷积层的时候,需要不让第i个输出值看到i以后的输入值。这是由语言模型的特性决定的,需要用i之前的信息来预测i。为了达到这样的效果,需要将输入层进行偏移,偏移k/2个单位,其中k是卷积的宽度,偏移后开头空缺的部分就用0进行padding。

由于residual network的强大能力,在真正的实现里,会把卷积单元和门限单元包在一个residual block里。

在最后的softmax层,普通的softmax会因为词表巨大而非常低效。因而选用adaptive softmax。adaptive softmax可以为高频词分配更多的空间而给低频次分配比较少的空间。

门限机制

LSTM中有input门和forget门两种,这两种缺一则会导致有些信息的缺失。而卷积中,经过实验,不需要forget gate。

而LSTM中使用的input门,如上。这种在卷积上却容易导致vanishing问题。因为tanh‘和σ’都是小于1的值。

因而,在卷积上,使用:

该方法存在一路使得X的导数可以不被downscale的传下去。

实验

Setup

  • 使用Google Billion Word和WikiText-103两种数据集。
  • 使用perplexity来进行衡量结果。
  • 使用Nesterov’s momentum算法来训练,momentum设为0.99。
  • weight normalization.
  • gradient clipping to 0.1
  • 使用Kaiming initialization
  • learning rate 从[1., 2.]中uniformly选取

效果测试

 

单GPU上效果最好。

性能测试

Throughput是指在并行化条件下最大输出。 
Responsiveness是指序列化的处理输入。 
由表可知,CNN本身的处理速度非常快。而LSTM在并行化后也能拥有很高的速度。究其原因,是在cuDNN中对LSTM有特别的优化,而对1-D convolution却没有。但即便如此,CNN仍然完胜。

不同门限测试

  • GTU: tanh(X*W+b)⊗σ(X*V+c)
  • GLU: (X*W+b)⊗σ(X*V+c)
  • ReLU: X⊗(X>0)
  • Tanh: tanh(X*W+b)

非线性模型测试

上一个实验证明了Gated linear unit深受Linear unit的好处。这里评测一下GLU和纯线性模型的比较。

  • Bilinear: (X*W+b)⊗(X*V+c)

纯Linear模型同5-gram模型效果类似。

模型深度测试

Context Size测试

训练测试

缺点

  • 卷积不似LSTM那样灵活,输入只能是定长。

Language Modeling with Gated Convolutional Networks的更多相关文章

  1. Language Modeling with Gated Convolutional Networks(句子建模之门控CNN)--模型简介篇

    版权声明:本文为博主原创文章,遵循CC 4.0 by-sa版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/liuchonge/article/deta ...

  2. RNN and Language modeling in TensorFlow

    RNNs and Language modeling in TensorFlow From feed-forward to Recurrent Neural Networks (RNNs) In th ...

  3. Emotion Recognition Using Graph Convolutional Networks

    Emotion Recognition Using Graph Convolutional Networks 2019-10-22 09:26:56 This blog is from: https: ...

  4. 【注意力机制】Attention Augmented Convolutional Networks

    注意力机制之Attention Augmented Convolutional Networks 原始链接:https://www.yuque.com/lart/papers/aaconv 核心内容 ...

  5. 【论文笔记】Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition

    Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition 2018-01-28  15:4 ...

  6. 论文笔记之:Semi-supervised Classification with Graph Convolutional Networks

    Semi-supervised Classification with Graph Convolutional Networks 2018-01-16  22:33:36 1. 文章主要思想: 2. ...

  7. VGGNet论文翻译-Very Deep Convolutional Networks for Large-Scale Image Recognition

    Very Deep Convolutional Networks for Large-Scale Image Recognition Karen Simonyan[‡] & Andrew Zi ...

  8. Recurrent Neural Network Language Modeling Toolkit代码学习

    Recurrent Neural Network Language Modeling Toolkit  工具使用点击打开链接 本博客地址:http://blog.csdn.net/wangxingin ...

  9. Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition (ST-GCN)

    Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition 摘要 动态人体骨架模型带有进行动 ...

随机推荐

  1. windows下pip安装python模块时报错

    windows下pip安装python模块时报错总结  装载于:https://www.cnblogs.com/maxaimee/p/6515165.html 前言: 这几天把python版本升级后, ...

  2. 记录idea maven项目打包部署web项目mapper扫描失败

    最开始以为这里出了问题,后来加上以后还是不能把mapper.xml打包进去 这是报的异常信息 Mybatis启动老是报绑定错误(找不到Mapper对应的 SQL配置),经过一番Google未能解决问题 ...

  3. bat判断当前目录是否是根目录

    记录下,一遍查用. @echo offif "%~p0"=="\" (echo 在根目录) else echo 不在根目录pause

  4. 邓_PHP面试【001】

    1.双引号和单引号的区别 双引号解释变量,单引号不解释变量 双引号里插入单引号,其中单引号里如果有变量的话,变量解释 双引号的变量名后面必须要有一个非数字.字母.下划线的特殊字符,或者用{}讲变量括起 ...

  5. 那些年~~~我们的C#笔试内测题目

    <深入.NET平台和C#编程>内部测试题-笔试试卷 一 选择题 1) 以下关于序列化和反序列化的描述错误的是( C). a) 序列化是将对象的状态存储到特定存储介质中的过程 b) 二进制格 ...

  6. asp.net -mvc框架复习(9)-实现用户登录控制器和视图的编写并调试

    1.编写控制器 三个步骤: [1]获取数据 [2]业务处理 [3]返回数据 using System;using System.Collections.Generic;using System.Lin ...

  7. mysql索引使用注意事项

    索引是快速搜索的关键.MySQL索引的建立对于MySQL的高效运行是很重要的.下面介绍几种常见的MySQL索引类型. 在数据库表中,对字段建立索引可以大大提高查询速度.假如我们创建了一个 mytabl ...

  8. Java常用的框架

    一.SpringMVC http://blog.csdn.net/evankaka/article/details/45501811 Spring Web MVC是一种基于Java的实现了Web MV ...

  9. 如何让你的.vue在sublime text 3 中变成彩色?

    1.打开sublime,按住shift+Ctrl+P,回车 2.输入Vue Syntax Highlight(因为我的已经装过了,所以这里没有显示) 3.选择Vue Syntax Highlight, ...

  10. Azure Powershell获取指定订阅下的虚拟机信息(ASM)

    为方便Azure用户导出已创建虚拟机的相关信息,特编写如下脚本: 详情脚本: # 登陆Azure Account Add-AzureAccount -Environment AzureChinaClo ...