『PyTorch』第十弹_循环神经网络
RNN基础:
『cs231n』作业3问题1选讲_通过代码理解RNN&图像标注训练
TensorFlow RNN:
对于torch中的RNN相关类,有原始和原始Cell之分,其中RNN和RNNCell层的区别在于前者一次能够处理整个序列,而后者一次只处理序列中一个时间点的数据,前者封装更完备更易于使用,后者更具灵活性。实际上RNN层的一种后端实现方式就是调用RNNCell来实现的。
一、nn.RNN
import torch as t
from torch import nn
from torch.autograd import Variable as V layer = 1 t.manual_seed(1000)
# 3句话,每句话2个字,每个字4维矢量
# batch为3,step为2,每个元素4维
input = V(t.randn(2,3,4))
# 1层,输出(隐藏)神经元3维,输入神经元4维
# 1层,3隐藏神经元,每个元素4维
lstm = nn.LSTM(4,3,layer)
# 初始状态:1层,batch为3,隐藏神经元3
h0 = V(t.randn(layer,3,3))
c0 = V(t.randn(layer,3,3)) out, hn = lstm(input,(h0,c0))
print(out, hn)
Variable containing:
(0 ,.,.) =
0.0545 -0.0061 0.5615
-0.1251 0.4490 0.2640
0.1405 -0.1624 0.0303 (1 ,.,.) =
0.0168 0.1562 0.5002
0.0824 0.1454 0.4007
0.0180 -0.0267 0.0094
[torch.FloatTensor of size 2x3x3]
(Variable containing:
(0 ,.,.) =
0.0168 0.1562 0.5002
0.0824 0.1454 0.4007
0.0180 -0.0267 0.0094
[torch.FloatTensor of size 1x3x3]
, Variable containing:
(0 ,.,.) =
0.1085 0.1957 0.9778
0.5397 0.2874 0.6415
0.0480 -0.0345 0.0141
[torch.FloatTensor of size 1x3x3]
)
二、nn.RNNCell
import torch as t
from torch import nn
from torch.autograd import Variable as V t.manual_seed(1000)
# batch为3,step为2,每个元素4维
input = V(t.randn(2,3,4))
# Cell只能是1层,3隐藏神经元,每个元素4维
lstm = nn.LSTMCell(4,3)
# 初始状态:1层,batch为3,隐藏神经元3
hx = V(t.randn(3,3))
cx = V(t.randn(3,3)) out = [] # 每个step提取各个batch的四个维度
for i_ in input:
print(i_.shape)
hx, cx = lstm(i_,(hx,cx))
out.append(hx)
t.stack(out)
torch.Size([3, 4])
torch.Size([3, 4])Variable containing:
(0 ,.,.) =
0.0545 -0.0061 0.5615
-0.1251 0.4490 0.2640
0.1405 -0.1624 0.0303 (1 ,.,.) =
0.0168 0.1562 0.5002
0.0824 0.1454 0.4007
0.0180 -0.0267 0.0094
[torch.FloatTensor of size 2x3x3]
三、nn.Embedding
embedding将标量表示的字符(所以是LongTensor)转换成矢量,这里给出一个模拟:将标量词embedding后送入rnn转换一下维度。
import torch as t
from torch import nn
from torch.autograd import Variable as V # 5个词,每个词使用4维向量表示
embedding = nn.Embedding(5, 4)
# 使用预训练好的词向量初始化
embedding.weight.data = t.arange(0, 20).view(5, 4) # 大小对应nn.Embedding(5, 4) # embedding将标量表示的字符(所以是LongTensor)转换成矢量
# 实际输入词原始向量需要是LongTensor格式
input = V(t.arange(3, 0, -1)).long()
# 1个batch,3个step,4维矢量
input = embedding(input).unsqueeze(1)
print("embedding后:",input.size()) # 1层,3隐藏神经元(输出元素4维度),每个元素4维
layer = 1
lstm = nn.LSTM(4, 3, layer)
# 初始状态:1层,batch为3,隐藏神经元3
h0 = V(t.randn(layer, 3, 3))
c0 = V(t.randn(layer, 3, 3))
out, hn = lstm(input, (h0, c0))
print("LSTM输出:",out.size())
embedding后: torch.Size([3, 1, 4])
LSTM输出: torch.Size([3, 3, 3])
『PyTorch』第十弹_循环神经网络的更多相关文章
- 『PyTorch』第四弹_通过LeNet初识pytorch神经网络_下
『PyTorch』第四弹_通过LeNet初识pytorch神经网络_上 # Author : Hellcat # Time : 2018/2/11 import torch as t import t ...
- 『MXNet』第十弹_物体检测SSD
全流程地址 一.辅助API介绍 mxnet.image.ImageDetIter 图像检测迭代器, from mxnet import image from mxnet import nd data_ ...
- 『PyTorch』第五弹_深入理解Tensor对象_下:从内存看Tensor
Tensor存储结构如下, 如图所示,实际上很可能多个信息区对应于同一个存储区,也就是上一节我们说到的,初始化或者普通索引时经常会有这种情况. 一.几种共享内存的情况 view a = t.arang ...
- 『PyTorch』第五弹_深入理解autograd_上:Variable属性方法
在PyTorch中计算图的特点可总结如下: autograd根据用户对variable的操作构建其计算图.对变量的操作抽象为Function. 对于那些不是任何函数(Function)的输出,由用户创 ...
- 『TensorFlow』第十弹_队列&多线程_道路多坎坷
一.基本队列: 队列有两个基本操作,对应在tf中就是enqueue&dequeue tf.FIFOQueue(2,'int32') import tensorflow as tf '''FIF ...
- 『PyTorch』第四弹_通过LeNet初识pytorch神经网络_上
总结一下相关概念: torch.Tensor - 一个近似多维数组的数据结构 autograd.Variable - 改变Tensor并且记录下来操作的历史记录.和Tensor拥有相同的API,以及b ...
- 『PyTorch』第五弹_深入理解autograd_下:函数扩展&高阶导数
一.封装新的PyTorch函数 继承Function类 forward:输入Variable->中间计算Tensor->输出Variable backward:均使用Variable 线性 ...
- 『PyTorch』第五弹_深入理解autograd_中:Variable梯度探究
查看非叶节点梯度的两种方法 在反向传播过程中非叶子节点的导数计算完之后即被清空.若想查看这些变量的梯度,有两种方法: 使用autograd.grad函数 使用hook autograd.grad和ho ...
- 『PyTorch』第五弹_深入理解Tensor对象_中下:数学计算以及numpy比较_&_广播原理简介
一.简单数学操作 1.逐元素操作 t.clamp(a,min=2,max=4)近似于tf.clip_by_value(A, min, max),修剪值域. a = t.arange(0,6).view ...
随机推荐
- Qt 学习之路 2(55):数据库操作
Qt 提供了 QtSql 模块来提供平台独立的基于 SQL 的数据库操作.这里我们所说的“平台独立”,既包括操作系统平台,又包括各个数据库平台.另外,我们强调了“基于 SQL”,因为 NoSQL 数据 ...
- 通过Java 线程堆栈进行性能瓶颈分析
改善性能意味着用更少的资源做更多的事情.为了利用并发来提高系统性能,我们需要更有效的利用现有的处理器资源,这意味着我们期望使 CPU 尽可能出于忙碌状态(当然,并不是让 CPU 周期出于应付无用计算, ...
- c++第十七天
p101~p104: 1.数组中的元素个数也属于数组类型的一部分. 2.编译的时候数组的维度应该是已知的,也就是说维度必须是 const expression 3.const expression 是 ...
- 静态编译C/C++程序
静态编译C/C++程序,让程序运行不受平台限制 由于Linux操作系统的特有elf加载顺序. (可以参考此文). 虽然可以很大程度上解决Windows早期版本的dll hell问题, 但是给部署带来了 ...
- RabbitMQ-C 客户端接口使用说明
rabbitmq-c是一个用于C语言的,与AMQP server进行交互的client库.AMQP协议为版本0-9-1.rabbitmq-c与server进行交互前需要首先进行login操作,在操作后 ...
- 20135234mqy-——信息安全系统设计基础第十周学习总结
ls1:显示当前目录下的文件. ls2:查看文件的详细信息(用户名,群组名,大小,创建时间,读写权限等). who:读取需要的信息到存储器,并用标准输出函数打印到屏幕上 filesize:计算文件的字 ...
- 启动jenkins服务错误
背景 重新安装了jenkins,需要启动,使用的yum install安装的,启动jenkins的话只需要执行service jenkins start,但出了两个问题 1. 是提示找不到java 2 ...
- github issues的操作
https://help.github.com/en/articles/searching-issues-and-pull-requests 根据 reporter筛选issues https://h ...
- VS不显示最近打开的项目
VS2012不显示最近打开的项目 解决方法, 在"运行"中输入 " gpedit.msc"打开后在"用户配置"-"管理模板&quo ...
- 【基础知识】ActiveMQ基本原理
“来,根据你的了解说下 ActiveMQ 是什么.” “这个简单,ActiveMQ 是一个 MOM,具体来说是一个实现了 JMS 规范的系统间远程通信的消息代理.它……” “等等,先解释下什么是 MO ...