A note on matrix implementations

将J对softmax的权重W和每一个word vector进行求导：

尽量使用矩阵运算（向量化）。不要使用for loop。

模型训练中有两个开销比較大的运算：矩阵乘法f=Wx和指数函数exp

Softmax(=logistic regression) is not very powerful

softmax仅仅是在原来的向量空间中给出了一些linear decision boundary（线性决策线），在小的数据集上有非常好的regularization，可是在处理大数据集的时候会受到非常大的限制。

可是neural network能够非常好地克服softmax的缺点：

From logistic regression to neural nets

不单独介绍神经网络，能够參考其它介绍神经网络的文章

假设没有非线性的激活函数，那么输入x后，第一层就是W1x。第二层就是W2W1x，等同于这个神经网络仅仅有一层，权重为W2W1。

有很多其它的层，deep learning就能够有近似（分类）更复杂数据集的功能：

神经网络的单层single layer就是一个线性表达式和一个非线性函数的组合：

激励activation能够用来计算某个函数。比如在softmax中：

演示样例：计算三层神经网络中一个window’ score（s=score(museumsinParisareamazing)）：

score事实上就是softmax的概率值

下一讲

训练一个window-based的神经网络

反向传播backpropagation

Deep Learning for Nature Language Processing --- 第四讲（下）的更多相关文章

Deep Learning for Natural Language Processing1
Focus, Follow, and Forward Stanford CS224d 课程笔记 Lecture1 Stanford CS224d 课程笔记 Lecture1 Stanford大学在20 ...
Deep Learning Libraries by Language
Deep Learning Libraries by Language Tweet Python Theano is a python library for defining and ...
Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part-of-Speech Tagging
http://delivery.acm.org/10.1145/220000/218367/p543-brill.pdf?ip=116.30.5.154&id=218367&acc=O ...
(转) Awesome Deep Learning
Awesome Deep Learning Table of Contents Free Online Books Courses Videos and Lectures Papers Tutori ...
机器学习(Machine Learning)&深度学习(Deep Learning)资料【转】
转自:机器学习(Machine Learning)&深度学习(Deep Learning)资料 <Brief History of Machine Learning> 介绍:这是一 ...
机器学习(Machine Learning)&深度学习(Deep Learning)资料汇总（上）
转载:http://dataunion.org/8463.html?utm_source=tuicool&utm_medium=referral <Brief History of Ma ...
机器学习(Machine Learning)&深度学习(Deep Learning)资料
机器学习(Machine Learning)&深度学习(Deep Learning)资料機器學習.深度學習方面不錯的資料,轉載. 原作:https://github.com/ty4z2008 ...
机器学习(Machine Learning)与深度学习(Deep Learning)资料汇总
<Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost到随机森林.D ...
(转) Deep Learning Resources
转自:http://www.jeremydjacksonphd.com/category/deep-learning/ Deep Learning Resources Posted on May 13 ...

随机推荐

python stomp activemq客户端
#coding=utf-8import timeimport sysimport stomp class MyListener(object): def on_error(self, headers, ...
mysql 数据库存储数据类型
int 类型的数据可以在数据库里存成 char字符串类型的数据: 纯数字的字符串可以在数据库里存储为 int的数据类型.
python3 requests 模块 json参数和data参数区别
json 表示使用application/json方式提交请求 data 使用application/form-urlencode方式提交请求
double 失真例子
public static void main(String[] args) { // TODO Auto-generated method stub double ab=821.20; dou ...
洛谷 P1506 拯救oibh总部
P1506 拯救oibh总部题目背景 oibh总部突然被水淹没了!现在需要你的救援…… 题目描述 oibh被突来的洪水淹没了>.<还好oibh总部有在某些重要的地方起一些围墙,用*号表示 ...
Hibernate5配置与使用具体解释
转载请注明出处:http://blog.csdn.net/tyhj_sf/article/details/51851163 引言 Hibernate是一个轻量级的持久层开源框架,它是连接java应用程 ...
深度学习 Deep LearningUFLDL 最新Tutorial 学习笔记 2：Logistic Regression
1 Logistic Regression 简述 Linear Regression 研究连续量的变化情况,而Logistic Regression则研究离散量的情况.简单地说就是对于推断一个训练样本 ...
Linux下基于LDAP统一用户认证的研究
Linux下基于LDAP统一用户认证的研究本文出自 "李晨光原创技术博客" 博客,谢绝转载!
Fedora 10下应用网络模拟器NS心得
650) this.width=650;" onclick='window.open("http://blog.51cto.com/viewpic.php?refimg=" ...
Codefroces 812 B. Sagheer, the Hausmeister
http://codeforces.com/problemset/problem/812/B B. Sagheer, the Hausmeister time limit per test 1 sec ...

Deep Learning for Nature Language Processing --- 第四讲（下）

A note on matrix implementations

将J对softmax的权重W和每一个word vector进行求导：

尽量使用矩阵运算（向量化）。不要使用for loop。

模型训练中有两个开销比較大的运算：矩阵乘法f=Wx和指数函数exp

Softmax(=logistic regression) is not very powerful

softmax仅仅是在原来的向量空间中给出了一些linear decision boundary（线性决策线），在小的数据集上有非常好的regularization，可是在处理大数据集的时候会受到非常大的限制。

可是neural network能够非常好地克服softmax的缺点：

From logistic regression to neural nets

不单独介绍神经网络，能够參考其它介绍神经网络的文章

假设没有非线性的激活函数，那么输入x后，第一层就是W1*x。第二层就是W2*W1*x，等同于这个神经网络仅仅有一层，权重为W2*W1。

有很多其它的层，deep learning就能够有近似（分类）更复杂数据集的功能：

神经网络的单层single layer就是一个线性表达式和一个非线性函数的组合：

激励activation能够用来计算某个函数。比如在softmax中：

演示样例：计算三层神经网络中一个window’ score（s=score(museumsinParisareamazing)）：

下一讲

训练一个window-based的神经网络

反向传播backpropagation

Deep Learning for Nature Language Processing --- 第四讲（下）的更多相关文章

随机推荐

热门专题

假设没有非线性的激活函数，那么输入x后，第一层就是W1x。第二层就是W2W1x，等同于这个神经网络仅仅有一层，权重为W2W1。