第三周序列模型和注意力机制（Sequence models & Attention mechanism）

3.1 序列结构的各种序列（Various sequence to sequence architectures）

首先，我们先建立一个网络，这个网络叫做编码网络（encoder network）（上图编号 1 所示），它是一个 RNN 的结构， RNN 的单元可以是 GRU 也可以是 LSTM。每次只向该网络中输入一个法语单词，将输入序列接收完毕后，这个 RNN 网络会输出一个向量来代表这个输入序列。之后你可以建立一个解码网络，我把它画出来（上图编号 2 所示），它以编码网络的输出作为输入，编码网络是左边的黑色部分（上图编号 1 所示），之后它可以被训练为每次输出一个翻译后的单词，一直到它输出序列的结尾或者句子结尾标记，这个解码网络的工作就结束了。和往常一样我们把每次生成的标记都传递到下一个单元中来进行预测，就像之前用语言模型合成文本时一样。

在之前的卷积网络课程中，你已经知道了如何将图片输入到卷积神经网络中，比如一个预训练的 AlexNet 结构（上图编号 2 方框所示），然后让其学习图片的编码，或者学习图片的一系列特征。现在幻灯片所展示的就是 AlexNet 结构，我们去掉最后的 softmax 单元（上图编号 3 所示），这个预训练的 AlexNet 结构会给你一个 4096 维的特征向量，向量表示的就是这只猫的图片，所以这个预训练网络可以是图像的编码网络。现在你得到了一个 4096 维的向量来表示这张图片，接着你可以把这个向量输入到 RNN 中（上图编号 4 方框所示），RNN 要做的就是生成图像的描述，每次生成一个单词，这和我们在之前将法语译为英语的机器翻译中看到的结构很像，现在你输入一个描述输入的特征向量，然后让网络生成一个输出序列，或者说一个一个地输出单词序列。事实证明在图像描述领域，这种方法相当有效，特别是当你想生成的描述不是特别长时。

3.2 选择最可能的句子（Picking the most likely sentence）

在语言模型中上方是一个我们在第一周所建立的模型，这个模型可以让你能够估计句子的可能性，这就是语言模型所做的事情。你也可以将它用于生成一个新的句子，如果你在图上的该处（下图编号 1 所示），有\(

吴恩达《深度学习》-第五门课序列模型(Sequence Models)-第三周序列模型和注意力机制（Sequence models & Attention mechanism）-课程笔记的更多相关文章

吴恩达深度学习第1课第4周-任意层人工神经网络(Artificial Neural Network，即ANN)（向量化）手写推导过程（我觉得已经很详细了）
学习了吴恩达老师深度学习工程师第一门课,受益匪浅,尤其是吴老师所用的符号系统,准确且易区分．遵循吴老师的符号系统,我对任意层神经网络模型进行了详细的推导,形成笔记．有人说推导任意层MLP很容易,我 ...
吴恩达深度学习第4课第3周编程作业 + PIL + Python3 + Anaconda环境 + Ubuntu + 导入PIL报错的解决
问题描述: 做吴恩达深度学习第4课第3周编程作业时导入PIL包报错．我的环境: 已经安装了Tensorflow GPU 版本 Python3 Anaconda 解决办法: 安装pillow模块,而不 ...
吴恩达深度学习第2课第2周编程作业的坑(Optimization Methods)
我python2.7, 做吴恩达深度学习第2课第2周编程作业 Optimization Methods 时有2个坑: 第一坑需将辅助文件 opt_utils.py 的 nitialize_param ...
【Deeplearning.ai 】吴恩达深度学习笔记及课后作业目录
吴恩达深度学习课程的课堂笔记以及课后作业代码下载:https://github.com/douzujun/Deep-Learning-Coursera 吴恩达推荐笔记:https://mp.weix ...
吴恩达深度学习反向传播（Back Propagation）公式推导技巧
由于之前看的深度学习的知识都比较零散,补一下吴老师的课程希望能对这块有一个比较完整的认识.课程分为5个部分(粗体部分为已经看过的): 神经网络和深度学习改善深层神经网络:超参数调试.正则化以及优化 ...
深度学习吴恩达深度学习课程2第三周 tensorflow实践参数初始化的影响
博主撸的该节代码地址 :https://github.com/LemonTree1994/machine-learning/blob/master/%E5%90%B4%E6%81%A9%E8 ...
Coursera 吴恩达深度学习学习笔记
神经网络和深度学习 Week 1-2 神经网络基础 Week 3 浅层神经网络 Week 4 深层神经网络改善深层神经网络 Week 1 深度学习的实用层面 Week 2 优化算法 Week 3 超 ...
吴恩达深度学习笔记（五） —— 优化算法：Mini-Batch GD、Momentum、RMSprop、Adam、学习率衰减
主要内容: 一.Mini-Batch Gradient descent 二.Momentum 四.RMSprop 五.Adam 六.优化算法性能比较七.学习率衰减一.Mini-Batch Grad ...
吴恩达《深度学习》-第一门课 (Neural Networks and Deep Learning)-第二周：(Basics of Neural Network programming)-课程笔记
第二周:神经网络的编程基础 (Basics of Neural Network programming) 2.1.二分类(Binary Classification) 二分类问题的目标就是习得一个分类 ...
吴恩达深度学习笔记（deeplearning.ai）之循环神经网络（RNN）（三）
1. 导读本节内容介绍普通RNN的弊端,从而引入各种变体RNN,主要讲述GRU与LSTM的工作原理. 事先声明,本人采用ng在课堂上所使用的符号系统,与某些学术文献上的命名有所不同,不过核心思想都是 ...

随机推荐

webpack打包原理
什么是 webpack ? 本质上,webpack 是一个现代 JavaScript 应用程序的静态模块打包器(module bundler).当 webpack 处理应用程序时,它会递归地构建一个依 ...
使用 .NET Core 3.x 构建RESTful Api（第三部分）
关于HTTP HEAD 和 HTTP GET: 从执行性能来说,这两种其实并没有什么区别.最大的不同就是对于HTTP HEAD 来说,Api消费者请求接口数据时,如果是通过HTTP HEAD的方式去请 ...
（转）软件产品化，国内IT人之痛
原文链接:http://blog.csdn.net/harrymeng/article/details/5254415 记得在网上看过一则印度软件的有趣故事,意思是先从印度6个不同城市的软件公司中选出 ...
java应用中的日志介绍
日志在应用程序中是非常非常重要的,好的日志信息能有助于我们在程序出现 BUG 时能快速进行定位,并能找出其中的原因. 但是,很多介绍 AOP 的地方都采用日志来作为介绍,实际上日志要采用切面的话是极其 ...
java基础-01：dos命令
进入cmd方式 win + r 输入 cmd 随便进入一个文件夹在导航栏输入cmd,回车即进入命令行命令盘符切换:直接输入 E: ,回车即可查看文件夹下所有目录:dir 切换目录: cd 跨盘 ...
JavaScript学习系列博客_24_JavaScript 原型对象
原型(prototype) - 创建一个函数(所有函数)以后,解析器都会默认在函数中添加一个属性prototype prototype属性指向的是一个对象,这个对象我们称为原型对象. 创建一个函数My ...
python基础-文件读写'r' 和 'rb'区别
一.Python文件读写的几种模式: r,rb,w,wb 那么在读写文件时,有无b标识的的主要区别在哪里呢? 1.文件使用方式标识 'r':默认值,表示从文件读取数据.'w':表示要向文件写入数据,并 ...
Hop: Heterogeneity-aware Decentralized Training
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! 以下是对本文关键部分的摘抄翻译,详情请参见原文. ASPLOS 2019 Abstract 最近的研究表明,在机器学习的背景下,去中心化算 ...
【小白学AI】XGBoost推导详解与牛顿法
文章来自微信公众号:[机器学习炼丹术] 目录 1 作者前言 2 树模型概述 3 XGB vs GBDT 3.1 区别1:自带正则项 3.2 区别2:有二阶导数信息 3.3 区别3:列抽样 4 XGB为 ...
openCV - 1. 加载、修改、保存图像
加载 cv::imread 修改 cv::cvtColor 保存 cv::imwrite 加载图像cv::imread imread功能是加载图像文件成为一个Mat对象,其中第一个参数表示图像文件名称 ...

吴恩达《深度学习》-第五门课 序列模型(Sequence Models)-第三周 序列模型和注意力机制（Sequence models & Attention mechanism）-课程笔记

第三周 序列模型和注意力机制（Sequence models & Attention mechanism）

3.1 序列结构的各种序列（Various sequence to sequence architectures）

3.2 选择最可能的句子（Picking the most likely sentence）

吴恩达《深度学习》-第五门课 序列模型(Sequence Models)-第三周 序列模型和注意力机制（Sequence models & Attention mechanism）-课程笔记的更多相关文章

随机推荐

热门专题

吴恩达《深度学习》-第五门课序列模型(Sequence Models)-第三周序列模型和注意力机制（Sequence models & Attention mechanism）-课程笔记

第三周序列模型和注意力机制（Sequence models & Attention mechanism）

吴恩达《深度学习》-第五门课序列模型(Sequence Models)-第三周序列模型和注意力机制（Sequence models & Attention mechanism）-课程笔记的更多相关文章