《Convolutional Neural Networks for Sentence Classification》文本分类

文本分类任务中可以利用CNN来提取句子中类似 n-gram 的关键信息。

TextCNN的详细过程原理图见下：

keras 代码：

 def convs_block(data, convs=[3, 3, 4, 5, 5, 7, 7], f=256):

     pools = []

     for c in convs:

         conv = Activation(activation="relu")(BatchNormalization()(

             Conv1D(filters=f, kernel_size=c, padding="valid")(data)))

         pool = GlobalMaxPool1D()(conv)

         pools.append(pool)

     return concatenate(pools)

 def rnn_v1(seq_length, embed_weight, pretrain=False):

     main_input = Input(shape=(seq_length,), dtype='float64')

     in_dim, out_dim = embed_weight.shape

     embedding = Embedding(input_dim=in_dim, weights=[

         embed_weight], output_dim=out_dim, trainable=False)

     content = Activation(activation="relu")(

         BatchNormalization()((TimeDistributed(Dense(256))(embedding(main_input)))))

     content = Bidirectional(GRU(256))(content)

     content = Dropout(0.3)(content)

     fc = Activation(activation="relu")(

         BatchNormalization()(Dense(256)(content)))

     main_output = Dense(3,

                         activation='softmax')(fc)

     model = Model(inputs=main_input, outputs=main_output)

     model.compile(optimizer='adam',

                   loss='categorical_crossentropy',

                   metrics=['accuracy'])

     model.summary()

     return model

说明如下：

输入层

如图所示，，假设句子有 n 个词，vector的维数为 k ，那么这个矩阵就是 n×k 的。

这个矩阵的类型可以是静态的(static)，也可以是动态的(non static)。静态就是word vector是固定不变的，而动态则是在模型训练过程中，word vector也当做是可优化的参数，通常把反向误差传播导致word vector中值发生变化的这一过程称为Fine tune。

对于未登录词的vector，可以用0或者随机小的正数来填充。

第一层卷积层

输入层通过卷积操作得到若干个Feature Map，卷积窗口的大小为 m*k ，其中 m表示n_gram中的n，通过卷积将得到F个列数为1的Feature Map,F表示卷积核的个数。

池化层

接下来的池化层，文中用了一种称为Max-over-time Pooling的方法。这种方法就是简单地从之前一维的Feature Map中提出最大的值，文中解释最大值代表着最重要的信号。

最终池化层的输出为各个Feature Map的最大值，即一个一维的向量。polling之后得到的是1*F的一维向量。

全连接 + Softmax层

池化层的一维向量的输出通过全连接的方式，连接一个Softmax层。

最终实现时，我们可以在倒数第二层的全连接部分上使用Dropout技术，即对全连接层上的权值参数给予L2正则化的限制。这样做的好处是防止隐藏层单元自适应（或者对称），从而减轻过拟合的程度。

实验部分

1. 数据

实验用到的数据集如下（具体的名称和来源可以参考论文）：

2. 模型训练和调参

修正线性单元(Rectified linear units)
滤波器的h大小：3,4,5；对应的Feature Map的数量为100；
Dropout率为0.5，L2正则化限制权值大小不超过3；
mini-batch的大小为50；

这些参数的选择都是基于SST-2 dev数据集，通过网格搜索方法(Grid Search)得到的最优参数。另外，训练过程中采用随机梯度下降方法，基于shuffled mini-batches之上的，使用了Adadelta update rule(Zeiler, 2012)。

3. 预训练的Word Vector

这里的word vector使用的是公开的数据，即连续词袋模型(COW)在Google News上的训练结果。未登录次的vector值是随机初始化的。

4. 实验结果

实验结果如下图：

其中，前四个模型是上文中所提出的基本模型的各个变种：

CNN-rand: 所有的word vector都是随机初始化的，可以训练的参数。
CNN-static: Google的Word2Vector工具(CBOW模型)得到的结果，不可训练；
CNN-non-static: Google的Word2Vector工具(CBOW模型)得到的结果，但是会在训练过程中被Fine tuned；
CNN-multichannel: CNN-static和CNN-non-static的混合版本，即两种类型的输入；

5. 结论

CNN-static较与CNN-rand好，说明pre-training的word vector确实有较大的提升作用（因为pre-training的word vector显然利用了更大规模的文本数据信息）；
CNN-non-static较于CNN-static大部分要好，说明适当的Fine tune也是有利的，是因为使得vectors更加贴近于具体的任务；
CNN-multichannel较于CNN-single在小规模的数据集上有更好的表现，实际上CNN-multichannel体现了一种折中思想，即既不希望Fine tuned的vector距离原始值太远，但同时保留其一定的变化空间。

值得注意的是，static的vector和non-static的相比，有一些有意思的现象如下表格：

原始的word2vector训练结果中，bad对应的最相近词为good，原因是这两个词在句法上的使用是极其类似的（可以简单替换，不会出现语句毛病）；而在non-static的版本中，bad对应的最相近词为terrible，这是因为在Fune tune的过程中，vector的值发生改变从而更加贴切数据集（是一个情感分类的数据集），所以在情感表达的角度这两个词会更加接近；
句子中的!最接近一些表达形式较为激进的词汇，如lush等；而,则接近于一些连接词，这和我们的主观感受也是相符的。

Kim Y的这个模型很简单，但是却有着很好的性能。后续Denny用TensorFlow实现了这个模型的简单版本，可参考这篇博文；以及Ye Zhang等人对这个模型进行了大量的实验，并给出了调参的建议，可参考这篇论文。

下面总结一下Ye Zhang等人基于Kim Y的模型做了大量的调参实验之后的结论：

由于模型训练过程中的随机性因素，如随机初始化的权重参数，mini-batch，随机梯度下降优化算法等，造成模型在数据集上的结果有一定的浮动，如准确率(accuracy)能达到1.5%的浮动，而AUC则有3.4%的浮动；
词向量是使用word2vec还是GloVe，对实验结果有一定的影响，具体哪个更好依赖于任务本身；
Filter的大小对模型性能有较大的影响，并且Filter的参数应该是可以更新的；
Feature Map的数量也有一定影响，但是需要兼顾模型的训练效率；
1-max pooling的方式已经足够好了，相比于其他的pooling方式而言；
正则化的作用微乎其微。

Ye Zhang等人给予模型调参者的建议如下：

使用non-static版本的word2vec或者GloVe要比单纯的one-hot representation取得的效果好得多；
为了找到最优的过滤器(Filter)大小，可以使用线性搜索的方法。通常过滤器的大小范围在1-10之间，当然对于长句，使用更大的过滤器也是有必要的；
Feature Map的数量在100-600之间；
可以尽量多尝试激活函数，实验发现ReLU和tanh两种激活函数表现较佳；
使用简单的1-max pooling就已经足够了，可以没必要设置太复杂的pooling方式；
当发现增加Feature Map的数量使得模型的性能下降时，可以考虑增大正则的力度，如调高dropout的概率；
为了检验模型的性能水平，多次反复的交叉验证是必要的，这可以确保模型的高性能并不是偶然。

论文附录中还附上了各种调参结果，感兴趣的可以前往阅读之。

TextCNN详细过程：第一层是图中最左边的7乘5的句子矩阵，每行是词向量，维度=5，这个可以类比为图像中的原始像素点了。然后经过有 filter_size=(2,3,4) 的一维卷积层，每个filter_size 有两个输出 channel。第三层是一个1-max pooling层，这样不同长度句子经过pooling层之后都能变成定长的表示了，最后接一层全连接的 softmax 层，输出每个类别的概率。

特征：这里的特征就是词向量，有静态（static）和非静态（non-static）方式。static方式采用比如word2vec预训练的词向量，训练过程不更新词向量，实质上属于迁移学习了，特别是数据量比较小的情况下，采用静态的词向量往往效果不错。non-static则是在训练过程中更新词向量。推荐的方式是 non-static 中的 fine-tunning方式，它是以预训练（pre-train）的word2vec向量初始化词向量，训练过程中调整词向量，能加速收敛，当然如果有充足的训练数据和资源，直接随机初始化词向量效果也是可以的。

通道（Channels）：图像中可以利用 (R, G, B) 作为不同channel，而文本的输入的channel通常是不同方式的embedding方式（比如 word2vec或Glove），实践中也有利用静态词向量和fine-tunning词向量作为不同channel的做法。

一维卷积（conv-1d）：图像是二维数据，经过词向量表达的文本为一维数据，因此在TextCNN卷积用的是一维卷积。一维卷积带来的问题是需要设计通过不同 filter_size 的 filter 获取不同宽度的视野。

Pooling层：利用CNN解决文本分类问题的文章还是很多的，比如这篇 A Convolutional Neural Network for Modelling Sentences 最有意思的输入是在 pooling 改成 (dynamic) k-max pooling ，pooling阶段保留 k 个最大的信息，保留了全局的序列信息。比如在情感分析场景，举个例子：

            “ 我觉得这个地方景色还不错，但是人也实在太多了 ”

虽然前半部分体现情感是正向的，全局文本表达的是偏负面的情感，利用 k-max pooling能够很好捕捉这类信息。

《Convolutional Neural Networks for Sentence Classification》文本分类的更多相关文章

pytorch -- CNN 文本分类 -- 《 Convolutional Neural Networks for Sentence Classification》
论文 < Convolutional Neural Networks for Sentence Classification>通过CNN实现了文本分类. 论文地址: 666666 模型图 ...
卷积神经网络用语句子分类---Convolutional Neural Networks for Sentence Classification 学习笔记
读了一篇文章,用到卷积神经网络的方法来进行文本分类,故写下一点自己的学习笔记: 本文在事先进行单词向量的学习的基础上,利用卷积神经网络(CNN)进行句子分类,然后通过微调学习任务特定的向量,提高性能. ...
[NLP-CNN] Convolutional Neural Networks for Sentence Classification -2014-EMNLP
1. Overview 本文将CNN用于句子分类任务 (1) 使用静态vector + CNN即可取得很好的效果:=> 这表明预训练的vector是universal的特征提取器,可以被用于多种 ...
How to Use Convolutional Neural Networks for Time Series Classification
How to Use Convolutional Neural Networks for Time Series Classification 2019-10-08 12:09:35 This blo ...
[转] Understanding Convolutional Neural Networks for NLP
http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp/ 讲CNN以及其在NLP的应用,非常 ...
Understanding Convolutional Neural Networks for NLP
When we hear about Convolutional Neural Network (CNNs), we typically think of Computer Vision. CNNs ...
[转]XNOR-Net ImageNet Classification Using Binary Convolutional Neural Networks
感谢: XNOR-Net ImageNet Classification Using Binary Convolutional Neural Networks XNOR-Net ImageNet Cl ...
Deep learning_CNN_Review：A Survey of the Recent Architectures of Deep Convolutional Neural Networks——2019
CNN综述文章的翻译 [2019 CVPR] A Survey of the Recent Architectures of Deep Convolutional Neural Networks 翻 ...
读convolutional Neural Networks Applied to House Numbers Digit Classification 的收获。
本文以下内容来自读论文以后认为有价值的地方,论文来自:convolutional Neural Networks Applied to House Numbers Digit Classificati ...

随机推荐

通过Adb 查看当前正在运行的Activity.
extends:http://www.cnblogs.com/tt_mc/p/4269833.html adb shell dumpsys activity activities | sed -En ...
Mecanim高级主题：Mecanim Blend Tree应用、Blend Tree 选项、复合Blend Tree
一.Blend Tree介绍及应用一个游戏动画的基本任务就是将两个或多个相似的动作混合.也许最广为人知的例子就是依照任务行动的速度将行走和跑动动画混合起来了.另一个例子就是角色在跑动中向左或向右转身 ...
第一个maven项目
1.新建maven project 注意:勾上create a new simple project 2.填写相关信息, Grounp id为大项目名字,Artifact id为小项目的名字.注意:P ...
Windows Server 2008 R2之三管理活动目录数据库
活动目录数据库包括数据库文件NTDS.dit和日志文件.考虑到最佳性能,在生产环境推荐将日志文件和数据库文件在单独的硬盘驱动器中或RAID中,同时要根据网络的规模,保证磁盘上有充足的剩余空间.由于活动 ...
@staticmethod和@classmethod的作用与区别
一般来说,要使用某个类的方法,需要先实例化一个对象再调用方法. 而使用@staticmethod或@classmethod,就可以不需要实例化,直接类名.方法名()来调用. 这有利于组织代码,把某些应 ...
170811、Java获取jdk系统环境变量
package com.rick.utils; /******************************************************** *@Desc: 系统变量属性工具类 ...
HDU 2089 - 不要62 - [数位DP][入门题]
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=2089 Time Limit: 1000/1000 MS (Java/Others) Memory Li ...
C++中引用与取地址
所谓引用就是为对象起一个别名.例如变量b = &a,b就是a的一个引用.对b的任何操作等同于对a的操作,也就是说,如果你改变了b的值,同时a的值也会发生改变.b就是a的另外一个名字,他们实质是 ...
CodeForces - 586D Phillip and Trains 搜索。vis 剪枝。
http://codeforces.com/problemset/problem/586/D 题意:有一个3*n(n<100)的隧道.一个人在最左边,要走到最右边,每次他先向右移动一格,再上下移 ...
转：Java中字符串split() 的使用方法.
原文地址:https://blog.csdn.net/qq_27093465/article/details/54910323 挺有意思的一个问题先看下面的方法,事先预测一下,经过split方法,按 ...

《Convolutional Neural Networks for Sentence Classification》 文本分类

实验部分

《Convolutional Neural Networks for Sentence Classification》 文本分类的更多相关文章

随机推荐

热门专题

《Convolutional Neural Networks for Sentence Classification》文本分类

《Convolutional Neural Networks for Sentence Classification》文本分类的更多相关文章