循环神经网络RNN公式推导走读

０语言模型－N-Gram

语言模型就是给定句子前面部分，预测后面缺失部分

ｅｇ．我昨天上学迟到了，老师批评了____。

N-Gram模型：　，对一句话切词我昨天上学迟到了，老师批评了 ____。

２－N-Gram 会在语料库中找　了　后面最可能的词；

３－N-Gram 会在预料库中找　批评了　后面最可能的词；

４－N-Gram 的内存耗费就非常巨大了（语料库中保存所有的四个词的预料组合）。

1.1单向循环神经网络

一个单隐层结构示意图：

参数：输入到隐层的权重Ｕ、隐层到输出的权重Ｖ，自身递归的权重Ｗ

循环层输出：

输出层（全连接）

1.２双向循环神经网络

单向循环网络是根据前文猜测空白词语；双向是根据前后文一起预测空白词语。

eg 我的手机坏了，我打算____一部新手机。

双向卷积神经网络的隐藏层要保存两个值，一个A参与正向计算，另一个值A'参与反向计算。

最终输出

加和。

注：同向权重共享，异向权重不共享！

规范格式：

1.3深度循环网络

堆叠多个隐层，示意图如下：

第i个隐藏层计算：

2训练BPTT

同bp的训练步骤

2.1 前向计算：

向量形式：

2.2 反向计算：分两个方向考虑，沿时间反向传播(与W有关)和传递到上一层网络（与U有关）

2.2.1第一个方向，沿时间传递一个时刻：同bp原理借用netj传导

又t时刻和t-1时刻netj的关系：

因此梯度链

上式第一项：

带入求得

所以最终梯度计算得：

2.2.2第二个方向：同bp

由l层和l-1层的netj关系：

因此梯度链

所以最终梯度计算得：

2.3计算权重矩阵W

由nett计算公式：

求t时刻w的梯度：

所以 t时刻W的梯度为：

最终各个时刻W梯度之和：

2.4计算权重U:

同理W，求t时刻u的梯度:

最终各个时刻U梯度之和:

3梯度爆炸和消失问题

由于RNN在训练过程中容易发生梯度爆炸和消失问题，所以不适合处理较长序列。

梯度爆炸问题：设置阈值，直接截取；

梯度消失问题：1合理初始化权重，躲避梯度消失区域；

2用relu代替tanh和sigmoid作为激活函数；

3使用GRU或者LSTM结构。

4工程应用：

1 one-hot编码：建立一个包含所有词汇的字典，每个词都是N维的二进制向量，排列在第几个就第几位为1，其余0；

缺点：得到高纬并且稀疏的向量

2softmax：可以得到输出概率

3优化函数：soft max层对应交叉熵代替均方误差MSE，研究证明更make sense

参考：网络博客

循环神经网络RNN公式推导走读的更多相关文章

循环神经网络(RNN, Recurrent Neural Networks)介绍（转载）
循环神经网络(RNN, Recurrent Neural Networks)介绍这篇文章很多内容是参考:http://www.wildml.com/2015/09/recurrent-neur ...
通过keras例子理解LSTM 循环神经网络(RNN)
博文的翻译和实践: Understanding Stateful LSTM Recurrent Neural Networks in Python with Keras 正文一个强大而流行的循环神经 ...
循环神经网络RNN及LSTM
一.循环神经网络RNN RNN综述 https://juejin.im/entry/5b97e36cf265da0aa81be239 RNN中为什么要采用tanh而不是ReLu作为激活函数? htt ...
深度学习之循环神经网络RNN概述，双向LSTM实现字符识别
深度学习之循环神经网络RNN概述,双向LSTM实现字符识别 2. RNN概述 Recurrent Neural Network - 循环神经网络,最早出现在20世纪80年代,主要是用于时序数据的预测和 ...
循环神经网络RNN模型和长短时记忆系统LSTM
传统DNN或者CNN无法对时间序列上的变化进行建模,即当前的预测只跟当前的输入样本相关,无法建立在时间或者先后顺序上出现在当前样本之前或者之后的样本之间的联系.实际的很多场景中,样本出现的时间顺序非常 ...
从网络架构方面简析循环神经网络RNN
一.前言 1.1 诞生原因在普通的前馈神经网络(如多层感知机MLP,卷积神经网络CNN)中,每次的输入都是独立的,即网络的输出依赖且仅依赖于当前输入,与过去一段时间内网络的输出无关.但是在现实生活中 ...
循环神经网络(RNN, Recurrent Neural Networks)介绍
原文地址: http://blog.csdn.net/heyongluoyao8/article/details/48636251# 循环神经网络(RNN, Recurrent Neural Netw ...
用纯Python实现循环神经网络RNN向前传播过程(吴恩达DeepLearning.ai作业)
Google TensorFlow程序员点赞的文章! 前言目录: - 向量表示以及它的维度 - rnn cell - rnn 向前传播重点关注: - 如何把数据向量化的,它们的维度是怎么来的 ...
循环神经网络(RNN)模型与前向反向传播算法
在前面我们讲到了DNN,以及DNN的特例CNN的模型和前向反向传播算法,这些算法都是前向反馈的,模型的输出和模型本身没有关联关系.今天我们就讨论另一类输出和模型间有反馈的神经网络:循环神经网络(Rec ...

随机推荐

第十九篇 js高级知识---词法分析和AO 链
上面一篇文章说了js的作用域链,这一节算是对上面的延申,有一个典型的例子,首先看原来的一段代码: var name = "test"; function t() { var b = ...
RabbitMQ(从安装到使用)
RabbitMQ 一,RabbitMQ简单介绍: RabbitMQ是一个在AMQP基础上完整的,可复用的企业消息系统.他遵循Mozilla Public License开源协议. MQ全称为Messa ...
Azure Messaging-ServiceBus Messaging消息队列技术系列3-消息顺序保证
上一篇:Window Azure ServiceBus Messaging消息队列技术系列2-编程SDK入门 http://www.cnblogs.com/tianqing/p/5944573.ht ...
Java数据结构之Map学习总结
前言: 前面学习总结了List的使用及效率对比,今天总结学习一下键值映射关系Map,顺便学习一下Android中使用Map需要注意哪些,以及谷歌官方针对Android对Map做了哪些优化. 先了解下M ...
String to Integer (atoi) leetcode
Implement atoi to convert a string to an integer. Hint: Carefully consider all possible input cases. ...
Vuex给我们的.vue文件结构带来了这些变化
使用vuex前后的对比使用vuex前 //BookRecommend.vue <script> import * as API from '../api/index' export de ...
linux 私房菜 CH7 Linux 档案与目录管理
路径 ``` . 此层目录 .. 上一级目录前一个工作目录 ~ 当前用户的家的目录 ``` 变换目录 cd 显示目录 pwd [-P] -P 显示出确实的路径,而非使用链接 (link) 路径. 创 ...
php学习测试题目
<?php header("content-type:text/html;charset=utf-8"); /* 1.银行给客户每天万分之四的利率,本金10 ...
Java基础之路（四）--流程控制语句
本次我们来聊一聊Java当中的循环语句. 循环语句分三种:1.for2.while3.do--while. 三种循环语句的任务是不同的,方法也是不同的.当然他们各自的流程图也是不一样的. 3.1 wh ...
MyEclipse下打开ftl文件
转:http://blog.csdn.net/w410589502/article/details/51669028 1.Freemarker模板的文件后缀名 2.Freemarker其实是一种比 ...

循环神经网络RNN公式推导走读

循环神经网络RNN公式推导走读的更多相关文章

随机推荐

热门专题