0语言模型-N-Gram
语言模型就是给定句子前面部分,预测后面缺失部分
eg.我昨天上学迟到了,老师批评了____。
N-Gram模型: ,对一句话切词 我 昨天 上学 迟到 了 ,老师 批评 了 ____。
2-N-Gram 会在语料库中找 了 后面最可能的词;
3-N-Gram 会在预料库中找 批评了 后面最可能的词;
4-N-Gram 的内存耗费就非常巨大了(语料库中保存所有的四个词的预料组合)。
 
 
1.1单向循环神经网络
一个单隐层结构示意图:
参数:输入到隐层的权重U、隐层到输出的权重V,自身递归的权重W
循环层输出:
输出层(全连接)
 
 
1.2双向循环神经网络
单向循环网络是根据前文猜测空白词语;双向是根据前后文一起预测空白词语。
eg 我的手机坏了,我打算____一部新手机。
双向卷积神经网络的隐藏层要保存两个值,一个A参与正向计算,另一个值A'参与反向计算。
最终输出加和。
注:同向权重共享,异向权重不共享!
规范格式:
 
 
1.3深度循环网络
堆叠多个隐层,示意图如下:
  第i个隐藏层计算:
 
2训练BPTT
同bp的训练步骤
  
2.1 前向计算:
向量形式:
 
 
2.2 反向计算:分两个方向考虑,沿时间反向传播(与W有关)传递到上一层网络(与U有关)
2.2.1第一个方向,沿时间传递一个时刻:同bp原理借用netj传导
又t时刻和t-1时刻netj的关系:
因此梯度链
上式第一项:
带入求得
所以最终梯度计算得:
 
2.2.2第二个方向:同bp
由l层和l-1层的netj关系:
因此梯度链
 
所以最终梯度计算得: 
 
2.3计算权重矩阵W
由nett计算公式:
求t时刻w的梯度:
所以 t时刻W的梯度为: 
最终 各个时刻W梯度之和:
 
2.4计算权重U:
同理W,求t时刻u的梯度: 
最终 各个时刻U梯度之和: 
 
 
 
3梯度爆炸和消失问题
由于RNN在训练过程中容易发生梯度爆炸和消失问题,所以不适合处理较长序列。
梯度爆炸问题:设置阈值,直接截取;
梯度消失问题:1合理初始化权重,躲避梯度消失区域;
                       2用relu代替tanh和sigmoid作为激活函数;
                       3使用GRU或者LSTM结构。
 
 
4工程应用:
1 one-hot编码:建立一个包含所有词汇的字典,每个词都是N维的二进制向量,排列在第几个就第几位为1,其余0;
缺点:得到高纬并且稀疏的向量
 
2softmax:可以得到输出概率
 
 
3优化函数:soft max层对应交叉熵代替均方误差MSE,研究证明更make sense
 
 
 
 
 
 
参考:网络博客

循环神经网络RNN公式推导走读的更多相关文章

  1. 循环神经网络(RNN, Recurrent Neural Networks)介绍(转载)

    循环神经网络(RNN, Recurrent Neural Networks)介绍    这篇文章很多内容是参考:http://www.wildml.com/2015/09/recurrent-neur ...

  2. 通过keras例子理解LSTM 循环神经网络(RNN)

    博文的翻译和实践: Understanding Stateful LSTM Recurrent Neural Networks in Python with Keras 正文 一个强大而流行的循环神经 ...

  3. 循环神经网络RNN及LSTM

    一.循环神经网络RNN RNN综述 https://juejin.im/entry/5b97e36cf265da0aa81be239 RNN中为什么要采用tanh而不是ReLu作为激活函数?  htt ...

  4. 深度学习之循环神经网络RNN概述,双向LSTM实现字符识别

    深度学习之循环神经网络RNN概述,双向LSTM实现字符识别 2. RNN概述 Recurrent Neural Network - 循环神经网络,最早出现在20世纪80年代,主要是用于时序数据的预测和 ...

  5. 循环神经网络RNN模型和长短时记忆系统LSTM

    传统DNN或者CNN无法对时间序列上的变化进行建模,即当前的预测只跟当前的输入样本相关,无法建立在时间或者先后顺序上出现在当前样本之前或者之后的样本之间的联系.实际的很多场景中,样本出现的时间顺序非常 ...

  6. 从网络架构方面简析循环神经网络RNN

    一.前言 1.1 诞生原因 在普通的前馈神经网络(如多层感知机MLP,卷积神经网络CNN)中,每次的输入都是独立的,即网络的输出依赖且仅依赖于当前输入,与过去一段时间内网络的输出无关.但是在现实生活中 ...

  7. 循环神经网络(RNN, Recurrent Neural Networks)介绍

    原文地址: http://blog.csdn.net/heyongluoyao8/article/details/48636251# 循环神经网络(RNN, Recurrent Neural Netw ...

  8. 用纯Python实现循环神经网络RNN向前传播过程(吴恩达DeepLearning.ai作业)

    Google TensorFlow程序员点赞的文章!   前言 目录: - 向量表示以及它的维度 - rnn cell - rnn 向前传播 重点关注: - 如何把数据向量化的,它们的维度是怎么来的 ...

  9. 循环神经网络(RNN)模型与前向反向传播算法

    在前面我们讲到了DNN,以及DNN的特例CNN的模型和前向反向传播算法,这些算法都是前向反馈的,模型的输出和模型本身没有关联关系.今天我们就讨论另一类输出和模型间有反馈的神经网络:循环神经网络(Rec ...

随机推荐

  1. 读书笔记 effective c++ Item 25 实现一个不抛出异常的swap

    1. swap如此重要 Swap是一个非常有趣的函数,最初作为STL的一部分来介绍,它已然变成了异常安全编程的中流砥柱(Item 29),也是在拷贝中应对自我赋值的一种普通机制(Item 11).Sw ...

  2. css修炼宝典

    前端岗位目前确实十分火热,但是就业压力也很大:前一段时间与大学同学交谈,他向我哭诉说去一个机构学习了前端工程师,我心底里为他高兴,因为他马上就可以月薪突破10K了,可是不幸的是他说去北京面试一个月,还 ...

  3. Python学习--23 第三方库

    本文将介绍python里常用的模块.如未特殊说明,所有示例均以python3.4为例: $ python -V Python 3.4.3 网络请求 urllib urllib提供了一系列用于操作URL ...

  4. JS日期加减指定天数

    JS中没有直接操作日期加减的方法,只能通过Date对象获取当前天数加减之后setDate,以此来达到操作日期的目的 JS中对指定日期加减指定天数,具体方法如下: function addDate(da ...

  5. .NET中的repeater简介及分页效果

    Repeater控件是一个数据绑定容器控件,它能够生成各个项的列表,并可以使用模板定义网页上各个项的布局.当该页运行时,该控件为数据源中的每个项重复此布局.  配合模板使用repeater控件 若要使 ...

  6. wemall app商城源码Android数据的SharedPreferences储存方式

    wemall-mobile是基于WeMall的Android app商城,只需要在原商城目录下上传接口文件即可完成服务端的配置,客户端可定制修改.本文分享wemall app商城源码Android数据 ...

  7. 通讯录--(iOS9独有的方法)

    导入库文件   #import <ContactsUI/ContactsUI.h> #pragma mark iOS9 新出的点击通讯录的获取信息的办法 #pragma mark - 先弹 ...

  8. javascript 随机显示指定内容

    今天碰到一个需求,一个页面显示赞助厂商的信息,但是厂商要求排序要随机排,因为是个静态页面不是读取数据库的,所以打算用js来控制 var arr = new Array('张三', '李四', '王五' ...

  9. QQ好友在线/离线,怎么测试?

    即时通讯是目前internet上最为流行的通讯方式,各种各样的即时通讯软件也层出不穷,那么今天主要针对QQ好友在线状态/QQ群友在线状态功能出发,一起思考其中的实现原理以及我们如何去测试此功能? 当大 ...

  10. noip2008(最优贸易)

    C 国有 n 个大城市和 m 条道路,每条道路连接这 n 个城市中的某两个城市.任意两个城市之间最多只有一条道路直接相连.这 m 条道路中有一部分为单向通行的道路,一部分为双向通行的道路,双向通行的道 ...