前言

这篇博客以PTB数据集为例，详细讲解了如何将txt格式的数据集文件，转换为pytorch框架可以直接处理的tensor变量，并附上相应代码

@

前言
1. PTB 数据集
2. 构建词汇表
3. 将训练集，验证集和测试集根据词汇表转换为数字序号，并转换为tensor
3. 转换为批处理的tensor变量
总结

1. PTB 数据集

PTB数据集含有三个txt文件，分别作为训练集（train），验证集（valid）和测试集（test）；这三个txt文件分别包含42000，3000和3000句英文；

我们要将其转化为pytorch可处理的tensor类型数据集，需要以下几步：

依次读取每一行的训练集文件(train.txt)，为每一个读到的单词分配序号，构建词汇表
- 出现频率低于min_ooc(通常默认为3)次的词汇，单词一率变为未知单词 < unk > ，分配序号1
- < sos >为每句话的起始信号，分配序号2
- < eos >为每句话的结束信号，分配序号3
- 由于每句话长度不一样，而pytorch批处理数据，需要统一句子长度，因此长度较短的句子用 < pad > 填充，分配序号0
统一句子长度为max_sentence_length(默认50)
- 高于50个单词的句子，只保留前50个单词；
- 低于50个单词的句子，用 < pad > 信号填充到50
根据训练集构建的词汇表，将训练集，验证集和测试集都变成数字序号表示的句子，如 a cat not is dog变成 2 25 54 12 0 0
构建三个数据集加载转换后的用数字序号表示的句子，并将其错位句子作为该句子的标签（target），例如, a cat not is dog变成 2 25 54 12 0 0, 那它对应的target就是 25 54 12 3 0 0 了（2 3 分别为起始，末尾信号）
将其转换为批处理的tensor变量

这样我们就能得到pytorch可以直接加载处理的tensor类型数据集了

2. 构建词汇表

我们先定义一个字典类型的变量，该字典类型变量，会将输入的句子里的新单词添加到字典中，并记录该单词的出现次数

引入库文件：

import json

import torch

import numpy as np

from nltk.tokenize import TweetTokenizer

from collections import Counter, OrderedDict,defaultdict

import io

import os

from torch.utils.data import DataLoader

class OrderedCounter(Counter, OrderedDict): #这样定义的字典类型变量，会将输入的句子里的新单词添加到字典中，并记录该单词的出现次数

    """Counter that remembers the order elements are first encountered"""

    def __repr__(self):

        return '%s(%r)' % (self.__class__.__name__, OrderedDict(self))

    def __reduce__(self):

        return self.__class__, (OrderedDict(self),)

依次读入ptb.train.txt的每一句话，并对其进行分词，不区分大小写；

分词：由于默认可以通过空格来分开每个单词，但专业的分词函数更好些

def create_vocab(split):

    tokenizer = TweetTokenizer(preserve_case=False) #分词，不区分大小写

    w2c = OrderedCounter()

    w2i = dict()

    i2w = dict()

    special_tokens = ['<pad>', '<unk>', '<sos>', '<eos>']

    for st in special_tokens:

        i2w[len(w2i)] = st

        w2i[st] = len(w2i)

    with open(split, 'r') as file:

        for i, line in enumerate(file):

            words = tokenizer.tokenize(line)

            w2c.update(words)                     #这段程序将文件中出现过的所有单词加载到字典类型变量w2c中，并存储了他们出现的次数

        for w, c in w2c.items():

            if c > 3 and w not in special_tokens: #依次为出现次数大于3，且不是那4种特殊信号的单词分配序号

                i2w[len(w2i)] = w

                w2i[w] = len(w2i)                #w2i格式为'cat':50这种,i2w为50:'cat'这种

    return w2i,i2w

实例化一下试试：

3. 将训练集，验证集和测试集根据词汇表转换为数字序号，并转换为tensor

def create_data(split,w2i): #split为待转换的txt文件地址

    tokenizer = TweetTokenizer(preserve_case=False) #分词，不区分大小写

    data = defaultdict(dict)

    with open(split, 'r') as file:    #读取该文件的每一行

        for i, line in enumerate(file):

            words = tokenizer.tokenize(line) #分词

            input = ['<sos>'] + words    #输入的开头增加<sos>信号

            input = input[:50]           #只保留前50个（起始信号<sos> + 文本的前49个单词)

            target = words[:50-1]        #输入对应的target,也只保留50个(取文本的前49个单词+ 结束信号<eos>)

            target = target + ['<eos>']

            length = len(input)

            input.extend(['<pad>'] * (50-length))     #输入和target，不足50个的，用<pad>补足50个

            target.extend(['<pad>'] * (50-length))

            input = [w2i.get(w, w2i['<unk>']) for w in input]

            target = [w2i.get(w, w2i['<unk>']) for w in target]

            id = len(data)                            #id表示该数据集的第id句话

            inpu_t = torch.from_numpy(np.asarray(input))              #转换为tensor形式

            targe_t = torch.from_numpy(np.asarray(target))

            data[id]['input'] = inpu_t

            data[id]['target'] = targe_t

            data[id]['length'] = length

    return data

实例化一下试试：

3. 转换为批处理的tensor变量

data_loader = DataLoader(

                dataset= data,

                batch_size= 64,#批处理大小

                shuffle=True #是否打乱排序

            )

实例化试试：

总结

这篇博客以PTB数据集为例，介绍了如何将txt形式的数据集转换为pytorch框架中可以使用的，批处理的tensor形式

参考项目：github上以PTB数据集训练的一个语言模型的项目

Pytorch加载txt格式的数据集文件（以PTB数据集为例）的更多相关文章

Away3D 学习笔记(一): 加载3DS格式的模型文件
加载外部的3DS文件分为两种: 1: 模型与贴图独立于程序的,也就是从外部的文件夹中读取 private function load3DSFile():Loader3D { loader = new ...
pytorch 加载mnist数据集报错not gzip file
利用pytorch加载mnist数据集的代码如下 import torchvision import torchvision.transforms as transforms from torch.u ...
神坑 Resources.Load 不能实时加载TXT文件
Resources.Load(fileName) as TextAsset; 这句话并不能实时加载文本文件,对文本文件进行修改之后,若是没有刷新的话,加载的还是之前的文件: 要实时读取文本文件还是要以 ...
hive 压缩全解读(hive表存储格式以及外部表直接加载压缩格式数据)；HADOOP存储数据压缩方案对比（LZO,gz，ORC）
数据做压缩和解压缩会增加CPU的开销,但可以最大程度的减少文件所需的磁盘空间和网络I/O的开销,所以最好对那些I/O密集型的作业使用数据压缩,cpu密集型,使用压缩反而会降低性能. 而hive中间结果 ...
为不同分辨率单独做样式文件，在页面头部用js判断分辨率后动态加载定义好的样式文件
为不同分辨率单独做样式文件,在页面头部用js判断分辨率后动态加载定义好的样式文件.样式文件命名格式如:forms[_屏幕宽度].css,样式文件中只需重新定义文本框和下拉框的宽度即可. 在包含的头文件 ...
使用getJSON()方法异步加载JSON格式数据
使用getJSON()方法异步加载JSON格式数据使用getJSON()方法可以通过Ajax异步请求的方式,获取服务器中的数组,并对获取的数据进行解析,显示在页面中,它的调用格式为: jQuery. ...
cesium模型加载-加载fbx格式模型
整体思路: fbx格式→dae格式→gltf格式→cesium加载gltf格式模型具体方法: 1. fbx格式→dae格式工具:3dsMax, 3dsMax插件:OpenCOLLADA, 下载地址 ...
Lab_1：练习4——分析bootloader加载ELF格式的OS的过程
一.实验内容通过阅读bootmain.c,了解bootloader如何加载ELF文件.通过分析源代码和通过qemu来运行并调试bootloader&OS, bootloader如何读取硬盘扇 ...
Lab1：练习四——分析bootloader加载ELF格式的OS的过程
练习四:分析bootloader加载ELF格式的OS的过程. 1.题目要求通过阅读bootmain.c,了解bootloader如何加载ELF文件.通过分析源代码和通过qemu来运行并调试bootl ...
如何实现通过Leaflet加载dwg格式的CAD图
前言在前面介绍了通过openlayers加载dwg格式的CAD图并与互联网地图叠加,openlayers功能很全面,但同时也很庞大,入门比较难,适合于大中型项目中.而在中小型项目中,一般用开源的 ...

随机推荐

【学习日志】@NotNull注解不生效问题
后端API需要接受fe传过来的参数,就必然涉及到参数校验. Spring提供了使用注解进行非法判断的引用(需要主动引入),继承自 spring-boot-starter-parent <depe ...
Idea 2022 springboot 3.0 druid: testWhileIdle is true, validationQuery not set
druid启动错误解决方法: Druid连接池 :严重: testWhileIdle is true, validationQuery not set 增中配置在 application.yml 增 ...
【Oculus Interaction SDK】（七）使用射线进行交互（物体 & UI）
前言这篇文章是[Oculus Interaction SDK]系列的一部分,如果发现有对不上的对方,可以回去翻看我之前发布的文章,或在评论区留言.如果文章的内容已经不适用于新版本了,也可以直接联系我 ...
Redis-05持久化
1 Redis持久化 RDB(Redis DataBase) AOF(Append Only File) 2 RBD 2.1 基本说明在指定的时间间隔内将内存中的数据集快照写入磁盘文件,它恢复时将快 ...
sqlserver数据库批量新增修改类
MSSql Server 数据库批量操作需要引用的命名空间 using System; using System.Collections.Generic; using System.Data; us ...
echarts入门到应用学习笔记
背景: 做疫情数据管理可视化,需要用到热点图在web端进行数据可视化,而地图就是必不可少的一个,看完文档,可以解决大部分小白的问题,保姆级攻略,即使你的js,这些学得不咋样(我就是小菜鸟) 步骤环境 ...
上午小博（java小知识）
使用super来引用父类的成分,使用this来引用当前对象一个类从另一个类继承,new这个子类的实例的时候,使用super来引用父类对象,this是指当前对象的引用. 当new一个对象出来的时候,这 ...
vscode + vim 快捷键
多行编辑按V选中行,按大写I即可进入编辑模式撤销恢复 CTRL + z 撤销 CTRL + shift + z 恢复代码自动对齐 Alt + shift + f
如何使用 ArrayPool
如果不停的 new 数组,可能会造成 GC 的压力,因此在 aspnetcore 中推荐使用 ArrayPool 来重用数组,本文将介绍如何使用 ArrayPool. 使用 ArrayPool Arr ...
jquery（三：jquery的动画）
动画一:1.显示 show() 参数:1.代表动画执行的时长,毫秒数,也可以是代表时长的字符串 fast normal slow 2.代表方法执行完毕的回调函数默认的是:normal $(func ...

Pytorch加载txt格式的数据集文件（以PTB数据集为例）

前言