BPTT算法推导

随时间反向传播 (BackPropagation Through Time,BPTT)
符号注解:
- \(K\):词汇表的大小
- \(T\):句子的长度
- \(H\):隐藏层单元数
- \(E_t\):第t个时刻(第t个word)的损失函数,定义为交叉熵误差\(E_t=-y_t^Tlog(\hat{y}_t)\)
- \(E\):一个句子的损失函数,由各个时刻(即每个word)的损失函数组成,\(E=\sum\limits_t^T E_t\)。
注: 由于我们要推倒的是SGD算法, 更新梯度是相对于一个训练样例而言的, 因此我们一次只考虑一个句子的误差,而不是整个训练集的误差(对应BGD算法) - \(x_t\in\mathbb{R}^{K\times 1}\):第t个时刻RNN的输入,为one-hot vector,1表示一个单词的出现,0表示不出现
- \(s_t\in\mathbb{R}^{H\times 1}\):第t个时刻RNN隐藏层的输入
- \(h_t\in\mathbb{R}^{H\times 1}\):第t个时刻RNN隐藏层的输出
- \(z_t\in\mathbb{R}^{K\times 1}\):输出层的汇集输入
- \(\hat{y}_t\in\mathbb{R}^{K\times 1}\):输出层的输出,激活函数为softmax
- \(y_t\in\mathbb{R}^{K\times 1}\):第t个时刻的监督信息,为一个one-hot vector
- \(r_t=\hat{y}_t-y_t\):残差向量
- \(W\in\mathbb{R}^{H\times K}\):从输入层到隐藏层的权值
- \(U\in\mathbb{R}^{H\times H}\):隐藏层上一个时刻到当前时刻的权值
- \(V\in\mathbb{R}^{K\times H}\):隐藏层到输出层的权值
他们之间的关系:
\]
其中,\(\sigma(\cdot)\)是sigmoid函数。由于\(x_t\)是one-hot向量,假设第\(j\)个词出现,则\(Wx_t\)相当于把\(W\)的第\(j\)列选出来,因此这一步是不用进行任何矩阵运算的,直接做下标操作即可,在matlab里就是\(W(:,x_t)\)。
BPTT与BP类似,是在时间上反传的梯度下降算法。RNN中,我们的目的是求得\(\frac{\partial E}{\partial U},\frac{\partial E}{\partial W},\frac{\partial E}{\partial V}\),根据这三个变化率来优化三个参数\(U,V,W\)
注意到\(\frac{\partial E}{\partial U}=\sum\limits_t \frac{\partial E_t}{\partial U}\),因此我们只要对每个时刻的损失函数求偏导数再加起来即可。
1.计算\(\frac{\partial E_t}{\partial V}\)
\]
注:推导中用到了之前推导用到的结论。其中\(r_t^{(i)}=(\hat{y}_t-y_t)^{(i)}\)表示残差向量第i个分量,\(h_t^{(j)}\)表示\(h_t\)的第j个分量。
上述结果可以改写为:
\]
\]
其中\(\otimes\)表示向量外积。
2.计算\(\frac{\partial E_t}{\partial U}\)
由于U是各个时刻共享的,所以t之前每个时刻U的变化都对\(E_t\)有贡献,反过来求偏导时,也要考虑之前每个时刻U对E的影响。我们以\(s_k\)为中间变量,应用链式法则:
\]
但由于\(\frac{\partial s_k}{\partial U}\)(分子向量,分母矩阵)以目前的数学发展水平是没办法求的,因此我们要求这个偏导,可以拆解为\(E_t\)对\(U_{ij}\)的偏导数:
\]
其中,\(\delta_k=\frac{\partial E_t}{\partial s_k}\),遵循
\]
的传递关系,应用链式法则有:
\]
其中,\(\odot\)表示向量点乘。于是,我们得到了关于\(\delta\) 的递推关系式。由\(\delta_t\)出发,我们可以往前推出每一个\(\delta\),现在计算\(\delta_t\):
\begin{equation}\delta_t=\frac{\partial E_t}{\partial s_t}=\frac{\partial h_t}{\partial s_t}\frac{\partial z_t}{\partial h_t}\frac{\partial E_t}{\partial z_t}=diag(1-h_t\odot h_t)\cdot VT\cdot(\hat{y}_t-y_t)=(VT(\hat{y}t-y_t))\odot (1-h_t\odot h_t)\end{equation}
将\(\delta_0,...,\delta_t\)代入$ \frac{\partial E_t}{\partial U{ij}} $有:
\]
将上式写成矩阵形式:
\]
不失严谨性,定义\(h_{-1}\)为全0的向量。
3.计算\(\frac{\partial E_t}{\partial W}\)
按照上述思路,我们可以得到
\]
由于\(x_k\)是个one-hot vector,假设其第\(m\)个位置为1,那么我们在更新\(W\)时只需要更新\(W\)的第\(m\)列即可,计算\(\frac{\partial{E_t}}{\partial{W}}\)的伪代码如下:
delta_t = V.T.dot(residual[T]) * (1-h[T]**2)
for t from T to 0
dEdW[ :,x[t] ] += delta_t
#delta_t = W.T.dot(delta_t) * (1 - h[t-1]**2)
delta_t = U.T.dot(delta_t) * (1 - h[t-1]**2)
BPTT算法推导的更多相关文章
- Recurrent Neural Network系列3--理解RNN的BPTT算法和梯度消失
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 这是RNN教程的第三部分. 在前面的教程中,我们从头实现了一个循环 ...
- 机器学习 —— 基础整理(八)循环神经网络的BPTT算法步骤整理;梯度消失与梯度爆炸
网上有很多Simple RNN的BPTT(Backpropagation through time,随时间反向传播)算法推导.下面用自己的记号整理一下. 我之前有个习惯是用下标表示样本序号,这里不能再 ...
- BP神经网络模型及算法推导
一,什么是BP "BP(Back Propagation)网络是1986年由Rumelhart和McCelland为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,是目前应用最 ...
- 带你找到五一最省的旅游路线【dijkstra算法推导详解】
前言 五一快到了,小张准备去旅游了! 查了查到各地的机票 因为今年被扣工资扣得很惨,小张手头不是很宽裕,必须精打细算.他想弄清去各个城市的最低开销. [嗯,不用考虑回来的开销.小张准备找警察叔叔说自己 ...
- 1.XGBOOST算法推导
最近因为实习的缘故,所以开始复习各种算法推导~~~就先拿这个xgboost练练手吧. (参考原作者ppt 链接:https://pan.baidu.com/s/1MN2eR-4BMY-jA5SIm6W ...
- BP神经网络算法推导及代码实现笔记zz
一. 前言: 作为AI入门小白,参考了一些文章,想记点笔记加深印象,发出来是给有需求的童鞋学习共勉,大神轻拍! [毒鸡汤]:算法这东西,读完之后的状态多半是 --> “我是谁,我在哪?” 没事的 ...
- SVD在推荐系统中的应用详解以及算法推导
SVD在推荐系统中的应用详解以及算法推导 出处http://blog.csdn.net/zhongkejingwang/article/details/43083603 前面文章SVD原理及推 ...
- 从乘法求导法则到BPTT算法
本文为手稿,旨在搞清楚为什么BPTT算法会多路反向求导,而不是一个感性的认识. 假设我们要对E3求导(上图中的L3),那么则有: 所以S2是W的函数,也就是说,我们不能说: 因为WS2 = WS2(w ...
- Deep Learning基础--随时间反向传播 (BackPropagation Through Time,BPTT)推导
1. 随时间反向传播BPTT(BackPropagation Through Time, BPTT) RNN(循环神经网络)是一种具有长时记忆能力的神经网络模型,被广泛用于序列标注问题.一个典型的RN ...
随机推荐
- VA的自动补全Snippet
开始旅程 如果您想要自定义补全,比如在使用UE4框架时,想输入一个方法的注释模板,可以这么做. 方法1:点击VAssistX -> insert VA Snippet -> Edit VA ...
- VS2008下,aspx页面设计模式消失,只有黑白字体
版权声明:本文为博主原创文章,未经博主允许不得转载. RT,在工具选项里面重新设定的时候,报错,说一部分文件无法安装. 寻找一晚上,终于有了解决方案,供以后参考. luanwey(大陆响尾蛇)(不做温 ...
- python基础知识3——基本的数据类型2——列表,元组,字典,集合
磨人的小妖精们啊!终于可以归置下自己的大脑啦,在这里我要把--整型,长整型,浮点型,字符串,列表,元组,字典,集合,这几个知识点特别多的东西,统一的捯饬捯饬,不然一直脑袋里面乱乱的. 一.列表 1.列 ...
- 宏碁台式机,如何设置u盘启动
1.按delete进入BIOS2.Authentication->Secure Boot状态改为Disabled;Boot Options->Launch CSM状态改为Always;Bo ...
- Beat版本分工
柯晓鸿031302613:负责服务器的搭建,struts2框架的配置,后台与页面的连整合,部分后台接口,数据库连接查询接口,以及页面js的书写 比例:40% 洪腾飞031302608:负责主要界面的书 ...
- oracle数据库导入、导出
导出:exp BFXXLZ/BFXXLZ123@192.168.63.63:1521/ORCL file=d:\BFXXLZ.dmp 导入:imp BFXXLZ/BFXXLZ123@ORCL file ...
- unity3d 知识点随记
1.transform.translate是增加transform面板相应的数值x,y,z是以本地坐标系为方向:transform.transformdirection是以世界坐标系为方向,可以去测试 ...
- 实现浏览器打开图片的url默认是下载
在返回的response里面设置HTTP头的Content-Disposition=attachement;filename=xxxx,即可实现文件另存为"xxxx":Conten ...
- 阿里巴巴Java招聘
大家好: 我是阿里巴巴B2B的应用架构师,现在大量招聘Java工程师,对自己技术有信心的兄弟姐妹,请联系我吧. 版权声明:本文为博主原创文章,未经博主允许不得转载.
- [转载] 纯手打 第一篇:安装配置gradle
本文转载自: http://www.cnblogs.com/uncle2000/p/4276833.html 一个bug 一个脚印的叫你们用gradle. 1介于网络上的很多资料都是老的 不适用与现在 ...