欢迎转载。转载注明出处：

http://blog.csdn.net/neighborhoodguo/article/details/47193885

近期几课的内容不是非常难。还有我的理解能力有所提高（自恋一下）。所以这几课完毕的都挺快。不知不觉lec9也完毕了。这一讲讲了还有一个RNN，当中R是Recursive不是之前的Recurrent。

课上老师使用Recursive NN来做NLP和CV的任务，我个人觉得做CV还是不错的。这个NLP怎么感觉有点不靠谱。无论怎么说这个model还是攻克了非常多实际问题的。并且性能也不错，如今就来记录记录喽。

首先来梳理一下这一课讲得内容吧。首先讲了怎样把一个sentence进行vector表示，再是怎样进行parsing，然后是构建object function的方法max-margin以及BPTS(Backpropagation Through Structure)。最后是Recursive NN的几个改良版还有这个model也能够进行computer vision的工作。

1.Semantic Vector Space for sentence

类似上一阶段的word vector space这次我们是将一整个sentence投影到semantic vector spaces中。

我们的模型是基于这样两个如果：一个句子的意思是基于1.这个句子所包括单词的意思；2.这个句子的构建方式。当中第二点还在争论中，我们这一讲讨论的模型能够同一时候完毕两个任务，第一能够学出来这个句子的tree模型，第二能够学出来这个句子在semantic vector space里的表示。

Parsing tree是什么呢？上图：

当中上面那个图就是在这一讲里所述的parsing tree。而上一讲的recurrent neural networks事实上类似以下的parsing tree它被视作是上一种parsing tree的特殊表示方式。

这两种表示方法究竟哪个正确如今还没有定论（still cognitively debatable）

如何学出来这个parsing tree呢？聪明的人类发明了一个方法叫beam search就是bottom-up的方法。从最低下開始，计算哪两个成为好基友的score最大，然后取出来最大的score的俩个node然后他俩就merge了（好邪恶）。最后一直到最上面所有都merge起来了就形成了一个parsing tree。

2.objection function？Max-margin framework

slide里的objection function我之后參阅了recommand reading里的object function发现不一样正负号是反的。

我推測是不是老师写得时候给写反了？？

论文里给出的object function是这种。当中delta(yi, y_hat)是依据标记错误的node数量再乘以一个k得出的：

score有两个部分：

前半段的v是要通过我们的model学习出来的，后半段是log probability of the PCFG也就是这玩意发生的概率并转成log space下。

课上讲得max-margin不太具体。第二篇论文里面讲得挺好。这里摘抄出来：

最后得到max-margin的公式。我们的目的是使得c(w)最小

这样为什么就是最优的呢，我想了半天才想出来这里用通俗点的话记录一下：假设w不是最优的w那么max()里左边的score选出来的不是y_i，再加上L_i那么终于肯定是ri非常大，必定不是最小的。假设w是最优的呢？那肯定max()选出来的是yi。delta肯定为零。然后整体必定最小。这种w必定使得score(y_i)比其它全部的score(y)大，而且大出来一个L_i(y)的margin。

3.BPTS

BPTS论文里讲得比較少。slide里讲得还挺具体还有pset2的部分代码还是不错滴。

BPTS和之前的传统BP有三个差别：

第一点是说求w的gradient要sum全部node的；第二点我感觉是用来更新semantic vector space里的vector的。第三点还要加一个error message：Total error messages = error messages from parent + error message from own score

BPTS的parameters更新的改进方法能够调整learning rate或者使用subgradient（使用subgradient的方法论文里有讲，cs229里也有将一个smo方法比較类似）

4.Recursive NN的改良版

前半段讲得都是最简单的simple RNN。

最后讲了一个改良版的SU-RNN(syntactically-untied RNN)

也就是weight依据children的type的不同而进行不同的选择。

最后有一个CV的展示，就是说RNN对于NLP的操作和CV差点儿相同都是一步一步分解。

Website:

nlp.stanford.edu

http://repository.cmu.edu/robotics

www.socher.org

CS224d lecture 9札记的更多相关文章

【转载】深度学习与自然语言处理(1)_斯坦福cs224d Lecture 1
版权声明:本文为博主原创文章,未经博主允许不得转载. 原文地址http://blog.csdn.net/longxinchen_ml/article/details/51567960 目录(?)[- ...
【深度学习Deep Learning】资料大全
最近在学深度学习相关的东西,在网上搜集到了一些不错的资料,现在汇总一下: Free Online Books by Yoshua Bengio, Ian Goodfellow and Aaron C ...
DL4NLP——词表示模型（二）基于神经网络的模型：NPLM；word2vec（CBOW/Skip-gram）
本文简述了以下内容: 神经概率语言模型NPLM,训练语言模型并同时得到词表示 word2vec:CBOW / Skip-gram,直接以得到词表示为目标的模型 (一)原始CBOW(Continuous ...
TensorFlow 中文资源全集，官方网站，安装教程，入门教程，实战项目，学习路径。
Awesome-TensorFlow-Chinese TensorFlow 中文资源全集,学习路径推荐: 官方网站,初步了解. 安装教程,安装之后跑起来. 入门教程,简单的模型学习和运行. 实战项目, ...
神经网络训练tricks
神经网络构建好,训练不出好的效果怎么办?明明说好的拟合任意函数(一般连续)(为什么?可以参考http://neuralnetworksanddeeplearning.com/),说好的足够多的数据(h ...
机器学习算法实现解析——word2vec源代码解析
在阅读本文之前,建议首先阅读"简单易学的机器学习算法--word2vec的算法原理"(眼下还没公布).掌握例如以下的几个概念: 什么是统计语言模型神经概率语言模型的网络结构 CB ...
Awesome TensorFlow
Awesome TensorFlow A curated list of awesome TensorFlow experiments, libraries, and projects. Inspi ...
TensorFlow 中文资源精选，官方网站，安装教程，入门教程，实战项目，学习路径。
Awesome-TensorFlow-Chinese TensorFlow 中文资源全集,学习路径推荐: 官方网站,初步了解. 安装教程,安装之后跑起来. 入门教程,简单的模型学习和运行. 实战项目, ...
[C2P3] Andrew Ng - Machine Learning
##Advice for Applying Machine Learning Applying machine learning in practice is not always straightf ...

随机推荐

在PyCharm中以root权限运行和调试python代码
python中有的代码可能需要su权限,如 import os os.mkdir('/media/xxx/disk_a') 如果在交互式环境中使用,需要以sudo的方式启动python．而在PyCha ...
图文介绍MyEclipse (2015) 中创建简单的Maven项目的步骤（用于生成可运行jar文件）
利用MyEclipse的引导,能够非常方便的创建简单的.用于生成可运行jar文件的Maven项目: (原创文章,转载请注明转自Clement-Xu的博客:http://blog.csdn.net/cl ...
List methods
Python provides methods that operate on lists. For example, append adds a new element to the end of ...
Android 在Android手机上获取其他应用的包名及版本号
获取Android手机上其他应用的包名及版本号方法有很多,可以通过AAPT从APK包中直接获取,也可以通过代码在手机上获取.显然,对于产品或者用户来说要获取这些信息,在手机上获取更为简便. 下面我们来 ...
PostgreSQL服务器存储参数的内部查看方法和实际表述之间的关系
postgres=# show wal_buffers ; wal_buffers ------------- 4MB(1 row) postgres=# show port; port ------ ...
如何用Java实现反转排序
摘要:反转排序是将原先已经排序好了的重新排序,是原来的数组元素的顺序反转过来.假设原来的数组顺序是{6,5,4,3,2,1},反转之后的顺序就是{1,2,3,4,5,6}.这个排序的算法不是很难,代码 ...
affe(8) solver 优化方法
上文提到,到目前为止,caffe总共提供了六种优化方法: Stochastic Gradient Descent (type: "SGD"), AdaDelta (type: &q ...
NodeJS学习笔记 (16)子进程-child_process(ok)
原文: https://github.com/chyingp/nodejs-learning-guide/blob/master/README.md 自己的跟进学习: 父进程,子进程,线程之间的关系 ...
word/excel/ppt 2 PDF
PHP 实现 word/excel/ppt 转换为 PDF 一般最常见的就是利用OpenOffice来转换,来看看实现的核心代码: class PDFConverter { private $com; ...
紫书例题 10-6 UVa 1635 （二项式定理+唯一分解定理）
首先可以发现按照题目的算法最后得出来是一个杨辉三角如果ai的系数是m的倍数,那么i即为答案因为这个系数可能很大,而我们只需要判断倍数所以我们就把m分解质因数,然后判断每一个系数的质因数的幂是不 ...