Backpropagation Through Time (BPTT) 梯度消失与梯度爆炸

下面的图显示的是RNN的结果以及数据前向流动方向

假设有
\[
\begin{split}
h_t &= \tanh W\begin{pmatrix}x_t \\ h_{t-1}\end{pmatrix}\\
y_t &= F(h_t)\\
C_t &= L(y_t, \hat{y}_t)
\end{split}
\]

那么在反向传播时，假设我们要求的是
\[
\begin{split}
\dfrac{\partial C_t}{\partial h_1} &= \dfrac{\partial C_t}{\partial y_t}\dfrac{\partial y_t}{\partial h_1 }\\
&= \dfrac{\partial C_t}{\partial y_t}\dfrac{\partial y_t}{\partial h_t }\dfrac{\partial h_t}{\partial h_{t-1} }\cdots\dfrac{\partial h_2}{\partial h_{1} }
\end{split}
\]

根据链式法则，其中包含了多个因子的连乘，这就是梯度爆炸和梯度消失的万恶之源。解决这种问题的通用手段就是使用skip connection，让梯度能够穿越一些时间步，直接前传。我们不难发现在LSTM 和GRU中都存在着这样的链接，具体的，在LSTM中，有
\[
c_t = f_t\odot c_{t-1} + i_t\odot\hat{c}_{t}
\]
在GRU中有
\[
h_t = u\odot h_{t-1} + (1 - u)\odot c_t
\]

Backpropagation Through Time (BPTT) 梯度消失与梯度爆炸的更多相关文章

RNN神经网络产生梯度消失和梯度爆炸的原因及解决方案
1.RNN模型结构循环神经网络RNN(Recurrent Neural Network)会记忆之前的信息,并利用之前的信息影响后面结点的输出.也就是说,循环神经网络的隐藏层之间的结点是有连接的,隐藏 ...
梯度消失与梯度爆炸 ==> 如何选择随机初始权重
梯度消失与梯度爆炸当训练神经网络时,导数或坡度有时会变得非常大或非常小,甚至以指数方式变小,这加大了训练的难度这里忽略了常数项b.为了让z不会过大或者过小,思路是让w与n有关,且n越大,w应该越小 ...
梯度消失、梯度爆炸以及Kaggle房价预测
梯度消失.梯度爆炸以及Kaggle房价预测梯度消失和梯度爆炸考虑到环境因素的其他问题 Kaggle房价预测梯度消失和梯度爆炸深度模型有关数值稳定性的典型问题是消失(vanishing)和爆炸( ...
L14梯度消失、梯度爆炸
梯度消失.梯度爆炸以及Kaggle房价预测梯度消失和梯度爆炸考虑到环境因素的其他问题 Kaggle房价预测梯度消失和梯度爆炸深度模型有关数值稳定性的典型问题是消失(vanishing)和爆炸( ...
L8梯度消失、梯度爆炸
houseprices数据下载: 链接:https://pan.baidu.com/s/1-szkkAALzzJJmCLlJ1aXGQ 提取码:9n9k 梯度消失.梯度爆炸以及Kaggle房价预测代 ...
机器学习 —— 基础整理（八）循环神经网络的BPTT算法步骤整理；梯度消失与梯度爆炸
网上有很多Simple RNN的BPTT(Backpropagation through time,随时间反向传播)算法推导.下面用自己的记号整理一下. 我之前有个习惯是用下标表示样本序号,这里不能再 ...
[DeeplearningAI笔记]改善深层神经网络_深度学习的实用层面1.10_1.12/梯度消失/梯度爆炸/权重初始化
觉得有用的话,欢迎一起讨论相互学习~Follow Me 1.10 梯度消失和梯度爆炸当训练神经网络,尤其是深度神经网络时,经常会出现的问题是梯度消失或者梯度爆炸,也就是说当你训练深度网络时,导数或坡 ...
梯度消失（vanishing gradient）和梯度爆炸（exploding gradient）
转自https://blog.csdn.net/guoyunfei20/article/details/78283043 神经网络中梯度不稳定的根本原因:在于前层上的梯度的计算来自于后层上梯度的乘积( ...

随机推荐

python3基础04（requests常见请求）
#!/usr/bin/env python# -*- coding:utf-8 -*- import requestsimport jsonimport reimport urllib3from ur ...
crontab配置shell实现后台进程不间断运行
检测get_report_no.php进程是否一直在运行 #!/bin/bash PROC=`ps -ef |grep get_report_no.php|grep -v grep|wc -l` if ...
LeetCode Valid Parentheses 有效括号
class Solution { public: void push(char c){ //插入结点 struct node *n=new struct node; n->nex=; n-> ...
byte[] 中需要除去的特定 byte
/// <summary> /// 去掉byte[]中特定的byte /// </summary> /// <param name="SourceByteArr ...
CXF学习记录
1 apache CXF入门 1.1 下载官网:cxf.apache.org 下载CXF的开发包: Apache CXF = Celtix + Xfire 支持多种协议: SOAP1.1,1.2 X ...
python换行
python中如果一行代码太长,看着不方便时,怎么办? 只需要在需要换行的地方添加上符号 \ 就行了.
关于小程序 scroll-view中设置scroll-top无效和小说图书阅读进度条小案例
在最近的项目有做到关于小说阅读的进度条功能,其中用到scroll-view和slider组件,发现scroll-view中的scroll-top在设置值后无效,出现这种情况大概是以下几种问题: 1.s ...
Datatable 省略显示列中内容，当鼠标放在内容上，悬浮显示全部内容
第一种方法是网上看到的,没成功,贴出来参考一下 <!DOCTYPE html> <html lang="en"> <head> <meta ...
DevOps - CI/CD - Jenkins
Jenkins 是一款流行的开源持续集成(Continuous Integration)工具,广泛用于项目开发,具有自动化构建.测试和部署等功能.本文以 CentOS7 环境为例,总结了 Jenkin ...
Python知识点入门笔记——特色数据类型(集合)
集合是一种不重复的无序集集合用花括号来定义{} 集合和字典一样,里面的顺序是无序的,{1,2,3}和{3,2,1}是相等的集合的元素不可重复,也就是说{1,2,2,3}是不存在的,应该写为{1,2 ...

Backpropagation Through Time (BPTT) 梯度消失与梯度爆炸

Backpropagation Through Time (BPTT) 梯度消失与梯度爆炸

Backpropagation Through Time (BPTT) 梯度消失与梯度爆炸的更多相关文章

随机推荐

热门专题