【论文笔记】CNN for NLP

Chzeze 2024-08-29 15:34:10 原文

什么是Convolutional Neural Network（卷积神经网络）？

　　最早应该是LeCun(1998)年论文提出，其结果如下：运用于手写数字识别。详细就不介绍，可参考zouxy09的专栏，主要关注convolution、pooling，个人理解是这样的，convolution是做特征检测，得到多个feature maps，而pooling是对特征进行筛选，提取关键信息，过滤掉一些噪音，另一方面是减少训练参数。

Single Layer CNN

　　与图像处理不同，对于自然语言处理任务来说，输入一般是用矩阵表示的句子或文档。对于句子矩阵，每一行表示一个单词，每个词可以用向量表示（word2vec or GloVe, but they could also be one-hot vectors）。下面介绍一种简单的cnn结构，一层convolution+一层pooling。来自Yoon Kim(2014)的论文。

　　该CNN很简单，共分四层，

　　第一层是词向量层，doc中的每个词，都将其映射到词向量空间，假设词向量为k维，则n个词映射后，相当于生成一张n*k维的图像；

　　第二层是卷积层，多个滤波器作用于词向量层，不同滤波器生成不同的feature map；

　　第三层是pooling层，取每个feature map的最大值，这样操作可以处理变长文档，因为第三层输出只依赖于滤波器的个数；

　　第四层是一个全连接的softmax层，输出是每个类目的概率。除此之外，输入层可以有两个channel，其中一个channel采用预先利用word2vec训练好的词向量，另一个channel的词向量可以通过backpropagation在训练过程中调整。

　　这样做的结果是：在目前通用的7个分类评测任务中，有4个取得了state-of-the-art的结果，另外3个表现接近最好水平。

　　首先做一些符号说明：输入是词向量Xi（长度是k），句子向量Xi:n是词向量的级联（拼接成长向量），filter是w,可看成一个滑动窗口，这里的w是向量，长度是hk（滑动窗口包含h个词）。

　　Convolution：卷积操作，f是激活函数，ci表示卷积得到的特征。通过滑动filter w，与句子所有词进行卷积，可得到feature map

　　

　　Pooling：使用max-pooling获得feature map中最大的值，然后使用多个filter获得不同n-grams的特征。

　　Multi-Channel：这里很有意思，输入句子时，使用两个通道（channel，可以认为是输入copy一份），都用word2vec初始化，其中一个词的向量保持不变（static），另一个是non-static，在BP过程不断修改，最后再pooling前对两个通道得到的卷积特征进行累加。

　　Classification：通过pooling，得到句子最后的特征向量，然后直接用softmax进行分类。

【论文笔记】CNN for NLP的更多相关文章

Deep Learning论文笔记之（四）CNN卷积神经网络推导和实现（转）
Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文, ...
论文笔记：CNN经典结构2（WideResNet，FractalNet，DenseNet，ResNeXt，DPN，SENet）
前言在论文笔记:CNN经典结构1中主要讲了2012-2015年的一些经典CNN结构.本文主要讲解2016-2017年的一些经典CNN结构. CIFAR和SVHN上,DenseNet-BC优于ResN ...
论文笔记：CNN经典结构1（AlexNet，ZFNet，OverFeat，VGG，GoogleNet，ResNet）
前言本文主要介绍2012-2015年的一些经典CNN结构,从AlexNet,ZFNet,OverFeat到VGG,GoogleNetv1-v4,ResNetv1-v2. 在论文笔记:CNN经典结构2 ...
【转载】GAN for NLP 论文笔记
本篇随笔为转载,原贴地址,知乎:GAN for NLP(论文笔记及解读).
CNN for NLP (CS224D)
斯坦福课程CS224d: Deep Learning for Natural Language Processing lecture13:Convolutional neural networks - ...
Multimodal —— 看图说话（Image Caption）任务的论文笔记（一）评价指标和NIC模型
看图说话(Image Caption)任务是结合CV和NLP两个领域的一种比较综合的任务,Image Caption模型的输入是一幅图像,输出是对该幅图像进行描述的一段文字.这项任务要求模型可以识别图 ...
论文笔记之：Visual Tracking with Fully Convolutional Networks
论文笔记之:Visual Tracking with Fully Convolutional Networks ICCV 2015 CUHK 本文利用 FCN 来做跟踪问题,但开篇就提到并非将其看做 ...
论文笔记(1)：Deep Learning.
论文笔记1:Deep Learning 2015年,深度学习三位大牛(Yann LeCun,Yoshua Bengio & Geoffrey Hinton),合作在Nature ...
论文笔记：Towards Diverse and Natural Image Descriptions via a Conditional GAN
论文笔记:Towards Diverse and Natural Image Descriptions via a Conditional GAN ICCV 2017 Paper: http://op ...
【论文笔记】Malware Detection with Deep Neural Network Using Process Behavior
[论文笔记]Malware Detection with Deep Neural Network Using Process Behavior 论文基本信息会议: IEEE(2016 IEEE 40 ...

随机推荐

【C#】C#项目如何获得项目的根目录
编写程序的时候,经常需要用的项目根目录.自己总结如下 1.取得控制台应用程序的根目录方法方法1.Environment.CurrentDirectory 取得或设置当前工作目录的完整限定路径 ...
JQuery EasyUI Combobox的onChange事件
html中的select 的change事件 <select id="consult_province" name="consult_province" ...
用C写有面向对象特点的程序
比如在一个项目中,有大量的数据结构,他们都是双向链表,但又想共用一套对链表的操作算法,这怎么做到呢,C中又没有C++中的继承,不然我可以继承一父(类中只有两个指针,一个向前一个向后),而其算法可以写在 ...
hibernate的hql查询语句总结
这篇随笔将会记录hql的常用的查询语句,为日后查看提供便利. 在这里通过定义了三个类,Special.Classroom.Student来做测试,Special与Classroom是一对多,Class ...
glide 镜像
运行glide install 失败国内墙的原因, 某些网站上不去 [ERROR]Update failed for golang.org/x/crypto: Cannot detect VCS ...
mysql数据库，创建只读用户
数据库当前只有一个root用户,需要创建一个只读帐户给其他使用,因使用者是使用数据库管理工具在其他主机访问,所以还要开户远程访问权限,操作步骤如下. 1. 使用现有的root用户登录到Mysql. m ...
java中比较两个double类型值的大小
非整型数,运算由于精度问题,可能会有误差,建议使用BigDecimal类型,具体 BigDecimal的详细说明参考jdk开发帮助文档. import java.math.BigDecimal; pu ...
mac 下搭建 php + apache + mysql 服务器（cool）
之前做.net 网站.后转ios .所有很少接触windows 啦.但有时候自己还真需要个测试的服务器环境.干脆把自己电脑搞成服务器得了下面贴上链接: Apache+PHP+Mysql OS X 1 ...
如何运行你的Android程序？
原文链接:http://android.eoe.cn/topic/android_sdk 本文中你将了解到: 1. 在真机上运行App 2. 在模拟器上运行App 你还应该阅读: 1. Using H ...
tips: javascript 参数传递含有空格怎么办？
js 方法传参有时候会遇到空格,空格会报错,因为它会默认空格后是元素解决方法就是使用 escape 和 unescape html: var title = escape(rowObject.tit ...