pytorch中的pack_padded_sequence和pad_packed

pack_padded_sequence是将句子按照batch优先的原则记录每个句子的词，变化为不定长tensor，方便计算损失函数。

pad_packed_sequence是将pack_padded_sequence生成的结构转化为原先的结构，定长的tensor。

其中test.txt的内容

As they sat in a nice coffee shop,

he was too nervous to say anything and she felt uncomfortable.

Suddenly, he asked the waiter,

"Could you please give me some salt? I'd like to put it in my coffee."

具体参见如下代码

import torch

import torch.nn as nn

from torch.autograd import Variable

import numpy as np

import wordfreq

vocab = {}

token_id = 1

lengths = []

#读取文件，生成词典

with open('test.txt', 'r') as f:

    lines=f.readlines()

    for line in lines:

        tokens = wordfreq.tokenize(line.strip(), 'en')

        lengths.append(len(tokens))

        #将每个词加入到vocab中，并同时保存对应的index

        for word in tokens:

            if word not in vocab:

                vocab[word] = token_id

                token_id += 1

x = np.zeros((len(lengths), max(lengths)))

l_no = 0

#将词转化为数字

with open('test.txt', 'r') as f:

    lines = f.readlines()

    for line in lines:

        tokens = wordfreq.tokenize(line.strip(), 'en')

        for i in range(len(tokens)):

            x[l_no, i] = vocab[tokens[i]]

        l_no += 1

x=torch.Tensor(x)

x = Variable(x)

print(x)

'''

tensor([[ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  0.,  0.,  0.,  0.,  0.,  0.],

        [ 9., 10., 11., 12., 13., 14., 15., 16., 17., 18., 19.,  0.,  0.,  0.],

        [20.,  9., 21., 22., 23.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],

        [24., 25., 26., 27., 28., 29., 30., 31., 32., 13., 33., 34.,  4.,  7.]])

'''

lengths = torch.Tensor(lengths)

print(lengths)#tensor([ 8., 11.,  5., 14.])

_, idx_sort = torch.sort(torch.Tensor(lengths), dim=0, descending=True)

print(_) #tensor([14., 11.,  8.,  5.])

print(idx_sort)#tensor([3, 1, 0, 2])

lengths = list(lengths[idx_sort])#按下标取元素 [tensor(14.), tensor(11.), tensor(8.), tensor(5.)]

t = x.index_select(0, idx_sort)#按下标取元素

print(t)

'''

tensor([[24., 25., 26., 27., 28., 29., 30., 31., 32., 13., 33., 34.,  4.,  7.],

        [ 9., 10., 11., 12., 13., 14., 15., 16., 17., 18., 19.,  0.,  0.,  0.],

        [ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  0.,  0.,  0.,  0.,  0.,  0.],

        [20.,  9., 21., 22., 23.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.]])

'''

x_packed = nn.utils.rnn.pack_padded_sequence(input=t, lengths=lengths, batch_first=True)

print(x_packed)

'''

PackedSequence(data=tensor([24.,  9.,  1., 20., 25., 10.,  2.,  9., 26., 11.,  3., 21., 27., 12.,

         4., 22., 28., 13.,  5., 23., 29., 14.,  6., 30., 15.,  7., 31., 16.,

         8., 32., 17., 13., 18., 33., 19., 34.,  4.,  7.]), batch_sizes=tensor([4, 4, 4, 4, 4, 3, 3, 3, 2, 2, 2, 1, 1, 1]))

'''

x_padded = nn.utils.rnn.pad_packed_sequence(x_packed, batch_first=True)#x_padded是tuple

print(x_padded)

'''

(tensor([[24., 25., 26., 27., 28., 29., 30., 31., 32., 13., 33., 34.,  4.,  7.],

        [ 9., 10., 11., 12., 13., 14., 15., 16., 17., 18., 19.,  0.,  0.,  0.],

        [ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  0.,  0.,  0.,  0.,  0.,  0.],

        [20.,  9., 21., 22., 23.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.]]), tensor([14, 11,  8,  5]))

'''

#还原tensor

_, idx_unsort = torch.sort(idx_sort)

output = x_padded[0].index_select(0, idx_unsort)

print(output)

'''

tensor([[ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  0.,  0.,  0.,  0.,  0.,  0.],

        [ 9., 10., 11., 12., 13., 14., 15., 16., 17., 18., 19.,  0.,  0.,  0.],

        [20.,  9., 21., 22., 23.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],

        [24., 25., 26., 27., 28., 29., 30., 31., 32., 13., 33., 34.,  4.,  7.]])

'''

pytorch中的pack_padded_sequence和pad_packed_sequence用法的更多相关文章

[转载]PyTorch中permute的用法
[转载]PyTorch中permute的用法来源:https://blog.csdn.net/york1996/article/details/81876886 permute(dims) 将ten ...
Pytorch中randn和rand函数的用法
Pytorch中randn和rand函数的用法 randn torch.randn(*sizes, out=None) → Tensor 返回一个包含了从标准正态分布中抽取的一组随机数的张量 size ...
Pytorch中nn.Conv2d的用法
Pytorch中nn.Conv2d的用法 nn.Conv2d是二维卷积方法,相对应的还有一维卷积方法nn.Conv1d,常用于文本数据的处理,而nn.Conv2d一般用于二维图像. 先看一下接口定义: ...
PyTorch中view的用法
相当于numpy中resize()的功能,但是用法可能不太一样. 我的理解是: 把原先tensor中的数据按照行优先的顺序排成一个一维的数据(这里应该是因为要求地址是连续存储的),然后按照参数组合成其 ...
pytorch中tensorboardX的用法
在代码中改好存储Log的路径命令行中输入 tensorboard --logdir /home/huihua/NewDisk1/PycharmProjects/pytorch-deeplab-xce ...
[PyTorch]PyTorch中反卷积的用法
文章来源:https://www.jianshu.com/p/01577e86e506 pytorch中的 2D 卷积层和 2D 反卷积层函数分别如下: class torch.nn.Conv2d ...
pytorch中如何处理RNN输入变长序列padding
一.为什么RNN需要处理变长输入假设我们有情感分析的例子,对每句话进行一个感情级别的分类,主体流程大概是下图所示: 思路比较简单,但是当我们进行batch个训练数据一起计算的时候,我们会遇到多个训练 ...
pytorch中如何使用DataLoader对数据集进行批处理
最近搞了搞minist手写数据集的神经网络搭建,一个数据集里面很多个数据,不能一次喂入,所以需要分成一小块一小块喂入搭建好的网络. pytorch中有很方便的dataloader函数来方便我们进行批处 ...
PyTorch中使用深度学习（CNN和LSTM）的自动图像标题
介绍深度学习现在是一个非常猖獗的领域 - 有如此多的应用程序日复一日地出现.深入了解深度学习的最佳方法是亲自动手.尽可能多地参与项目,并尝试自己完成.这将帮助您更深入地掌握主题,并帮助您成为更好的深 ...

随机推荐

【JS】297-[译]正确使用 sort() 方法
点击上方"前端自习课"关注,学习起来~ 英文原文:[<Usar correctamente el método sort()>]文章地址:查看阅读原文.注意:内容有做精 ...
函数中this的指向
每个函数在被调用时都会自动取得两个特殊变量:this和arguments:内部函数在搜索这两个变量时,只会搜索到其活动对象为止,因此永远不可能直接访问外部函数中的这两个变量. f 1 var name ...
C语言每日一练——第2题
一.题目要求已知数据文件in.dat中存有300个四位数,并调用读函数readDat()把这些数存入数组a中,请编制一函数jsValue(),其功能是:求出所有这些四位数是素数的个数cnt,再求出所 ...
matplotlib可视化最全指南
1. 折线图:plt.plot 设置数据:plt.plot(x,y),单列数据传入默认y轴,此时x轴数据默认从0逐渐对应递增设置颜色:plt.plot(x,y,color/c=" &quo ...
tomcat启动内存溢出三种解决方案：java.lang.OutOfMemoryError:PermGen space解决办法
问题: 严重: Error waiting for multi-thread deployment of WAR files to completejava.util.concurrent.Execu ...
使用Power BI API 向流数据集推送实时数据并在仪表板可视化
使用Power BI 实现实时数据的可视化是大家比较关心的一个话题,在仪表盘上实现推送数据的展示,可以在诸如指挥大屏等场景下使用. 本视频实战内容如下: https://v.qq.com/x/page ...
C#线程学习笔记七：Task详细用法
一.Task类简介: Task类是在.NET Framework 4.0中提供的新功能,主要用于异步操作的控制.它比Thread和ThreadPool提供了更为强大的功能,并且更方便使用. Task和 ...
Dynamics 365 Portal 修改注册页面及Profile页面
一,Profile页面客户要求在Portal Profile页面上添加性别字段,通过查看源代码发现,中间的联系人信息部分是引用的CRM中Contact实体的Portal Web Form表单,直接把 ...
Android 警告对话框 AlertDialog
@Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); s ...
ImportError: No module named flask 导包失败，Python3重新安装Flask模块
在部署环境过程中,通过pip install -r requirements.txt安装包,结果启动项目时总是报错,显示没有flask模块,通过pip install flask还是不行,于是下载fl ...

pytorch中的pack_padded_sequence和pad_packed_sequence用法

pytorch中的pack_padded_sequence和pad_packed_sequence用法的更多相关文章

随机推荐

热门专题