【Deep Learning学习笔记】Dynamic Auto-Encoders for Semantic Indexing_Mirowski

发表于NIPS2010 workshop on deep learning的一篇文章，看得半懂。

主要内容：

是针对文本表示的一种方法。文本表示可以进一步应用在文本分类和信息检索上面。通常，一篇文章表示为V大小的一个向量，|V|是词表的大小。传统的方法，向量中每个值是tf/idf计算得到的权重。不过|V|比较大的时候，对于文本分类和信息检索来讲，时空复杂度都比较大。这时候需要对|V|进行降维。通常的方法是LDA系列的方法，将文章表示成若干个topic上面的分布。不过实验效果并不好。本文作者用deep stack auto-encoders来做。

具体做法：

构建deep stack auto-encoders。输入还是bag of words想法，即用|V|的词语向量来做。向量的每个维度是词表中的词语，取值采用了归一化的词语在文章中的出现次数，对于没有出现在文章中的词语，采用了类似ngram模型中的加法平滑，也给一个很小的数值。在这种输入的情况下，做auto-encoders，来训练神经网络。隐含层的维数要远小于|V|，从而达到降维的目的。在auto-encoders的基础上，在训练分类器g，以配合实际应用，如：文本分类。

注意，这时候，每个输入就是一篇文章（所形成的|V|维向量），输入的顺序是随机的，即在文章集合中随机游走。另外，auto-encoders的能量函数还可以再加上网络本身权重的L1或者L2范式。

用训练好的神经网络来计算test corpus中文章的迷惑度。

这个看的不是太懂。感觉大概是这样的过程：把test corpus中的文章，先表示成|V|的向量形式，然后用训练好的deep stack auto-encoders进行encode和decode，而decode的结果作为这篇文章在整个词语集合V上的词语概率分布（需要加入softmax层），在这个分布上，就可以计算文章的迷惑度了。

在实验中，这种计算出来的迷惑度比LDA（用相似过程）计算出来的迷惑度要小，所以性能要高。

在实验中，还用股市预测来验证auto-encoders，即分析股市相关新闻的倾向性，从而判断股票走向。写的不多，没看懂具体怎么做的。

【Deep Learning学习笔记】Dynamic Auto-Encoders for Semantic Indexing_Mirowski_NIPS2010的更多相关文章

【deep learning学习笔记】注释yusugomori的DA代码 --- dA.h
DA就是“Denoising Autoencoders”的缩写.继续给yusugomori做注释,边注释边学习.看了一些DA的材料,基本上都在前面“转载”了.学习中间总有个疑问:DA和RBM到底啥区别 ...
[置顶] Deep Learning 学习笔记
一.文章来由好久没写原创博客了,一直处于学习新知识的阶段.来新加坡也有一个星期,搞定签证.入学等杂事之后,今天上午与导师确定了接下来的研究任务,我平时基本也是把博客当作联机版的云笔记~~如果有写的不 ...
Deep Learning 学习笔记（8）：自编码器( Autoencoders )
之前的笔记,算不上是 Deep Learning, 只是为理解Deep Learning 而需要学习的基础知识, 从下面开始,我会把我学习UFDL的笔记写出来 #主要是给自己用的,所以其他人不一定看得 ...
【deep learning学习笔记】Recommending music on Spotify with deep learning
主要内容: Spotify是个类似酷我音乐的音乐站点.做个性化音乐推荐和音乐消费.作者利用deep learning结合协同过滤来做音乐推荐. 详细内容: 1. 协同过滤基本原理:某两个用户听的歌曲 ...
【deep learning学习笔记】注释yusugomori的RBM代码 --- 头文件
百度了半天yusugomori,也不知道他是谁.不过这位老兄写了deep learning的代码,包括RBM.逻辑回归.DBN.autoencoder等,实现语言包括c.c++.java.python ...
Neural Networks and Deep Learning学习笔记ch1 - 神经网络
近期開始看一些深度学习的资料.想学习一下深度学习的基础知识.找到了一个比較好的tutorial,Neural Networks and Deep Learning,认真看完了之后觉得收获还是非常多的. ...
paper 149:Deep Learning 学习笔记（一）
1. 直接上手篇台湾李宏毅教授写的,<1天搞懂深度学习> slideshare的链接: http://www.slideshare.net/tw_dsconf/ss-62245351? ...
Deep Learning 学习笔记——第9章
总览: 本章所讲的知识点包括>>>> 1.描述卷积操作 2.解释使用卷积的原因 3.描述pooling操作 4.卷积在实践应用中的变化形式 5.卷积如何适应输入数据 6.CNN ...
【deep learning学习笔记】最近读的几个ppt（四）
这几个ppt都是在微博上看到的,是百度的一个员工整理的. <Deep Belief Nets>,31页的一个ppt 1. 相关背景还是在说deep learning好啦,如特征表示云云. ...

随机推荐

jQuery慢慢啃之CSS（六）
1.css(name|pro|[,val|fn])//访问匹配元素的样式属性 $("p").css("color");//获取 $("p") ...
java逻辑运算符&&、&、||、|的详解
public class OperatorDemo{ public static void main(String args[]) { //当我们执行一下代码时会报错(&属于没短路的) if( ...
js中立即执行
( function(){…} )()和( function (){…} () )是两种javascript立即执行函数的常见写法,最初我以为是一个括号包裹匿名函数,再在后面加个括号调用函数,最后达到 ...
生成四位随机数的PHP代码
纯数字的四位随机数 rand(1000,9999) 数字和字符混搭的四位随机字符串: function GetRandStr($len) { $chars = array( "a" ...
连接MySQL数据常见问题
错误信息1 :ERROR 1045 (28000): Access denied for user 'usera'@'localhost' (using password:YES) 错误信息2 :ER ...
同步异步GET和POST请求
1.同步请求可以从因特网请求数据,一旦发送同步请求,程序将停止用户交互,直至服务器返回数据完成,才可以进行下一步操作, 2.异步请求不会阻塞主线程,而会建立一个新的线程来操作,用户发出异步请求后,依然 ...
BZOJ 1043 下落的圆盘
Description 有n个圆盘从天而降,后面落下的可以盖住前面的.求最后形成的封闭区域的周长.看下面这副图, 所有的红色线条的总长度即为所求. Input n ri xi y1 ... rn x ...
rsync使用说明
需求:把10.5.128.190数据同步到10.5.128.27 用客服端-服务器模式,需要从客户端发起也就是从10.5.128.27发起 10.5.128.27 作为客户端 10.5.128.19 ...
【HDOJ】1760 A New Tetris Game
博弈,主要是求SG值.终于做出点儿感觉. /* 1760 */ #include <cstdio> #include <cstring> #include <cstdli ...
The Same Game(模拟)
http://poj.org/problem?id=1027 题意:给一个10*15的地图,里面填充R,G,B三种颜色,每次找到当前地图的同色最大区域M,并将其删除,删除M后,上面的小球自然下落,当有 ...

【Deep Learning学习笔记】Dynamic Auto-Encoders for Semantic Indexing_Mirowski_NIPS2010

【Deep Learning学习笔记】Dynamic Auto-Encoders for Semantic Indexing_Mirowski_NIPS2010的更多相关文章

随机推荐

热门专题