Pytorch加载txt格式的数据集文件(以PTB数据集为例)
前言
这篇博客以PTB数据集为例,详细讲解了如何将txt格式的数据集文件,转换为pytorch框架可以直接处理的tensor变量,并附上相应代码
@
1. PTB 数据集
PTB数据集含有三个txt文件,分别作为训练集(train),验证集(valid)和测试集(test);这三个txt文件分别包含42000,3000和3000句英文;
我们要将其转化为pytorch可处理的tensor类型数据集,需要以下几步:
- 依次读取每一行的训练集文件(train.txt),为每一个读到的单词分配序号,构建词汇表
- 出现频率低于min_ooc(通常默认为3)次的词汇,单词一率变为未知单词 < unk > ,分配序号1
- < sos >为每句话的起始信号,分配序号2
- < eos >为每句话的结束信号,分配序号3
- 由于每句话长度不一样,而pytorch批处理数据,需要统一句子长度,因此长度较短的句子用 < pad > 填充,分配序号0
- 统一句子长度为max_sentence_length(默认50)
- 高于50个单词的句子,只保留前50个单词;
- 低于50个单词的句子,用 < pad > 信号填充到50
- 根据训练集构建的词汇表,将训练集,验证集和测试集都变成数字序号表示的句子,如 a cat not is dog变成 2 25 54 12 0 0
- 构建三个数据集加载转换后的用数字序号表示的句子,并将其错位句子作为该句子的标签(target),例如, a cat not is dog变成 2 25 54 12 0 0, 那它对应的target就是 25 54 12 3 0 0 了 (2 3 分别为起始,末尾信号)
- 将其转换为批处理的tensor变量
这样我们就能得到pytorch可以直接加载处理的tensor类型数据集了
2. 构建词汇表
我们先定义一个字典类型的变量,该字典类型变量,会将输入的句子里的新单词添加到字典中,并记录该单词的出现次数
引入库文件:
import json
import torch
import numpy as np
from nltk.tokenize import TweetTokenizer
from collections import Counter, OrderedDict,defaultdict
import io
import os
from torch.utils.data import DataLoader
class OrderedCounter(Counter, OrderedDict): #这样定义的字典类型变量,会将输入的句子里的新单词添加到字典中,并记录该单词的出现次数
"""Counter that remembers the order elements are first encountered"""
def __repr__(self):
return '%s(%r)' % (self.__class__.__name__, OrderedDict(self))
def __reduce__(self):
return self.__class__, (OrderedDict(self),)
依次读入ptb.train.txt的每一句话,并对其进行分词,不区分大小写;
- 分词:由于默认可以通过空格来分开每个单词,但专业的分词函数更好些
def create_vocab(split):
tokenizer = TweetTokenizer(preserve_case=False) #分词,不区分大小写
w2c = OrderedCounter()
w2i = dict()
i2w = dict()
special_tokens = ['<pad>', '<unk>', '<sos>', '<eos>']
for st in special_tokens:
i2w[len(w2i)] = st
w2i[st] = len(w2i)
with open(split, 'r') as file:
for i, line in enumerate(file):
words = tokenizer.tokenize(line)
w2c.update(words) #这段程序将文件中出现过的所有单词加载到字典类型变量w2c中,并存储了他们出现的次数
for w, c in w2c.items():
if c > 3 and w not in special_tokens: #依次为出现次数大于3,且不是那4种特殊信号的单词分配序号
i2w[len(w2i)] = w
w2i[w] = len(w2i) #w2i格式为'cat':50这种,i2w为50:'cat'这种
return w2i,i2w
实例化一下试试:

3. 将训练集,验证集和测试集根据词汇表转换为数字序号,并转换为tensor
def create_data(split,w2i): #split为待转换的txt文件地址
tokenizer = TweetTokenizer(preserve_case=False) #分词,不区分大小写
data = defaultdict(dict)
with open(split, 'r') as file: #读取该文件的每一行
for i, line in enumerate(file):
words = tokenizer.tokenize(line) #分词
input = ['<sos>'] + words #输入的开头增加<sos>信号
input = input[:50] #只保留前50个(起始信号<sos> + 文本的前49个单词)
target = words[:50-1] #输入对应的target,也只保留50个(取文本的前49个单词+ 结束信号<eos>)
target = target + ['<eos>']
length = len(input)
input.extend(['<pad>'] * (50-length)) #输入和target,不足50个的,用<pad>补足50个
target.extend(['<pad>'] * (50-length))
input = [w2i.get(w, w2i['<unk>']) for w in input]
target = [w2i.get(w, w2i['<unk>']) for w in target]
id = len(data) #id表示该数据集的第id句话
inpu_t = torch.from_numpy(np.asarray(input)) #转换为tensor形式
targe_t = torch.from_numpy(np.asarray(target))
data[id]['input'] = inpu_t
data[id]['target'] = targe_t
data[id]['length'] = length
return data
实例化一下试试:

3. 转换为批处理的tensor变量
data_loader = DataLoader(
dataset= data,
batch_size= 64,#批处理大小
shuffle=True #是否打乱排序
)
实例化试试:

总结
这篇博客以PTB数据集为例,介绍了如何将txt形式的数据集转换为pytorch框架中可以使用的,批处理的tensor形式
参考项目:github上以PTB数据集训练的一个语言模型的项目
Pytorch加载txt格式的数据集文件(以PTB数据集为例)的更多相关文章
- Away3D 学习笔记(一): 加载3DS格式的模型文件
加载外部的3DS文件分为两种: 1: 模型与贴图独立于程序的,也就是从外部的文件夹中读取 private function load3DSFile():Loader3D { loader = new ...
- pytorch 加载mnist数据集报错not gzip file
利用pytorch加载mnist数据集的代码如下 import torchvision import torchvision.transforms as transforms from torch.u ...
- 神坑 Resources.Load 不能实时加载TXT文件
Resources.Load(fileName) as TextAsset; 这句话并不能实时加载文本文件,对文本文件进行修改之后,若是没有刷新的话,加载的还是之前的文件: 要实时读取文本文件还是要以 ...
- hive 压缩全解读(hive表存储格式以及外部表直接加载压缩格式数据);HADOOP存储数据压缩方案对比(LZO,gz,ORC)
数据做压缩和解压缩会增加CPU的开销,但可以最大程度的减少文件所需的磁盘空间和网络I/O的开销,所以最好对那些I/O密集型的作业使用数据压缩,cpu密集型,使用压缩反而会降低性能. 而hive中间结果 ...
- 为不同分辨率单独做样式文件,在页面头部用js判断分辨率后动态加载定义好的样式文件
为不同分辨率单独做样式文件,在页面头部用js判断分辨率后动态加载定义好的样式文件.样式文件命名格式如:forms[_屏幕宽度].css,样式文件中只需重新定义文本框和下拉框的宽度即可. 在包含的头文件 ...
- 使用getJSON()方法异步加载JSON格式数据
使用getJSON()方法异步加载JSON格式数据 使用getJSON()方法可以通过Ajax异步请求的方式,获取服务器中的数组,并对获取的数据进行解析,显示在页面中,它的调用格式为: jQuery. ...
- cesium模型加载-加载fbx格式模型
整体思路: fbx格式→dae格式→gltf格式→cesium加载gltf格式模型 具体方法: 1. fbx格式→dae格式 工具:3dsMax, 3dsMax插件:OpenCOLLADA, 下载地址 ...
- Lab_1:练习4——分析bootloader加载ELF格式的OS的过程
一.实验内容 通过阅读bootmain.c,了解bootloader如何加载ELF文件.通过分析源代码和通过qemu来运行并调试bootloader&OS, bootloader如何读取硬盘扇 ...
- Lab1:练习四——分析bootloader加载ELF格式的OS的过程
练习四:分析bootloader加载ELF格式的OS的过程. 1.题目要求 通过阅读bootmain.c,了解bootloader如何加载ELF文件.通过分析源代码和通过qemu来运行并调试bootl ...
- 如何实现通过Leaflet加载dwg格式的CAD图
前言 在前面介绍了通过openlayers加载dwg格式的CAD图并与互联网地图叠加,openlayers功能很全面,但同时也很庞大,入门比较难,适合于大中型项目中.而在中小型项目中,一般用开源的 ...
随机推荐
- 时间轮TimeWheel工作原理解析
时间轮工作原理解析 一.时间轮介绍 1.时间轮的简单介绍 时间轮(TimeWheel)作为一种高效率的计时器实现方案,在1987年发表的论文Hashed and Hierarchical Timing ...
- Mat数据结构
1.MAT类: OpenCV从2001年开始发展,在最初使用的是c语言,使用的是IplImage数据结构来存储图像,但是最大的问题需要手动申请释放内从( manual memory managemen ...
- rosdep update 一直失败问题
1.排除网络问题 2.增加TIMEOUT的时间: 更改 /usr/lib/python2.7/dist-packages/rosdep2/下的三个文件sources_list.py.gbpdistro ...
- 冰河指南AI技术社区基于ChatGPT正式启动运营
大家好,我是冰河~~ 最近ChatGPT真的太火了,科技圈几乎都在争相报导这个黑科技,它能够通过学习和理解人们的语言来和人类进行对话,能够与人们进行交流,甚至可以对你提出的问题进行分析,尽可能给出你想 ...
- 如何使用 ArrayPool
如果不停的 new 数组,可能会造成 GC 的压力,因此在 aspnetcore 中推荐使用 ArrayPool 来重用数组,本文将介绍如何使用 ArrayPool. 使用 ArrayPool Arr ...
- 阅读openfoam框图
看完of的帮助文档,会非常怀念fluent的帮助文档或是matlab的帮助文档 比如我要解决一个matlab问题,基本上看帮助文档一分钟就知道我要如何取用我想要的东西,of帮助文档不光做不到,还给你炫 ...
- 【Vue】Vue开源样式库 Vuex的使用 vuex的执行流程 Vue-router的使用 路由跳转 路由守卫
目录 昨日回顾 纯净的Vue项目 今日内容 0 开源样式库 1 Vuex 的使用 1.1 vuex的执行流程图 Vuex的使用 购物车案例 2 Vue-router的使用 2.1 基本使用 2.2 路 ...
- Java ”框架 = 注解 + 反射 + 设计模式“ 之 注解详解
Java "框架 = 注解 + 反射 + 设计模式" 之 注解详解 每博一文案 刹那间我真想令时光停住,好让我回顾自己,回顾失去的年华,缅怀哪个穿一身短小的连衣裙 和瘦窄的短衫的小 ...
- 权限维持之:DSRM 域控权限维持
目录 1 修改 DSRM 密码 2 DSRM 域后门操作过程 3 DSRM 域后门防御 目录服务恢复模式(DSRM,Directory Services Restore Mode),是Windows服 ...
- vue浏览器全屏 非全屏切换 按esc退出全屏
methods: { // 全屏 点击按钮 allping(){ this.status = true; this.enterFullscreen(); ...