自然语言处理（二）——PTB数据集的预处理

参考书

《TensorFlow：实战Google深度学习框架》（第2版）

首先按照词频顺序为每个词汇分配一个编号，然后将词汇表保存到一个独立的vocab文件中。

#!/usr/bin/env python

# -*- coding: UTF-8 -*-

# coding=utf-8 

"""

@author: Li Tian

@contact: 694317828@qq.com

@software: pycharm

@file: word_deal1.py

@time: 2019/2/20 10:42

@desc: 首先按照词频顺序为每个词汇分配一个编号，然后将词汇表保存到一个独立的vocab文件中。

"""

import codecs

import collections

from operator import itemgetter

# 训练集数据文件

RAW_DATA = "./simple-examples/data/ptb.train.txt"

# 输出的词汇表文件

VOCAB_OUTPUT = "ptb.vocab"

# 统计单词出现的频率

counter = collections.Counter()

with codecs.open(RAW_DATA, "r", "utf-8") as f:

    for line in f:

        for word in line.strip().split():

            counter[word] += 1

# 按照词频顺序对单词进行排序

sorted_word_to_cnt = sorted(counter.items(), key=itemgetter(1), reverse=True)

sorted_words = [x[0] for x in sorted_word_to_cnt]

# 稍后我们需要在文本换行处加入句子结束符“<eos>”，这里预先将其加入词汇表。

sorted_words = ["<eos>"] + sorted_words

# 在后面处理机器翻译数据时，出了"<eos>"，还需要将"<unk>"和句子起始符"<sos>"加入

# 词汇表，并从词汇表中删除低频词汇。在PTB数据中，因为输入数据已经将低频词汇替换成了

# "<unk>"，因此不需要这一步骤。

# sorted_words = ["<unk>", "<sos>", "<eos>"] + sorted_words

# if len(sorted_words) > 10000:

#     sorted_words = sorted_words[:10000]

with codecs.open(VOCAB_OUTPUT, 'w', 'utf-8') as file_output:

    for word in sorted_words:

        file_output.write(word + "\n")

运行结果：

在确定了词汇表之后，再将训练文件、测试文件等都根据词汇文件转化为单词编号。每个单词的编号就是它在词汇文件中的行号。

#!/usr/bin/env python

# -*- coding: UTF-8 -*-

# coding=utf-8 

"""

@author: Li Tian

@contact: 694317828@qq.com

@software: pycharm

@file: word_deal2.py

@time: 2019/2/20 11:10

@desc: 在确定了词汇表之后，再将训练文件、测试文件等都根据词汇文件转化为单词编号。每个单词的编号就是它在词汇文件中的行号。

"""

import codecs

import sys

# 原始的训练集数据文件

RAW_DATA = "./simple-examples/data/ptb.train.txt"

# 上面生成的词汇表文件

VOCAB = "ptb.vocab"

# 将单词替换成为单词编号后的输出文件

OUTPUT_DATA = "ptb.train"

# 读取词汇表，并建立词汇到单词编号的映射。

with codecs.open(VOCAB, "r", "utf-8") as f_vocab:

    vocab = [w.strip() for w in f_vocab.readlines()]

word_to_id = {k: v for (k, v) in zip(vocab, range(len(vocab)))}

# 如果出现了被删除的低频词，则替换为"<unk>"。

def get_id(word):

    return word_to_id[word] if word in word_to_id else word_to_id["<unk"]

fin = codecs.open(RAW_DATA, "r", "utf-8")

fout = codecs.open(OUTPUT_DATA, 'w', 'utf-8')

for line in fin:

    # 读取单词并添加<eos>结束符

    words = line.strip().split() + ["<eos>"]

    # 将每个单词替换为词汇表中的编号

    out_line = ' '.join([str(get_id(w)) for w in words]) + '\n'

    fout.write(out_line)

fin.close()

fout.close()

运行结果：

自然语言处理（二）——PTB数据集的预处理的更多相关文章

c语言学习之基础知识点介绍（二十）：预处理指令
一.预处理指令的介绍预处理命令:在编译之前触发的一系列操作(命令)就叫预处理命令. 特点:以#开头,不要加分号. #include: 文件包含指令把指定文件的内容复制到相应的位置 #define: ...
TensorFlow数据集（二）——数据集的高层操作
参考书 <TensorFlow:实战Google深度学习框架>(第2版) 一个使用数据集进行训练和测试的完整例子. #!/usr/bin/env python # -*- coding: ...
吴裕雄--天生自然 pythonTensorFlow自然语言处理：PTB 语言模型
import numpy as np import tensorflow as tf # 1.设置参数. TRAIN_DATA = "F:\TensorFlowGoogle\\201806- ...
R语言实战读书笔记(二)创建数据集
2.2.2 矩阵 matrix(vector,nrow,ncol,byrow,dimnames,char_vector_rownames,char_vector_colnames) 其中: byrow ...
AI-sklearn 学习笔记（二）数据集
from sklearn import datasets from sklearn.linear_model import LinearRegression loaded_data = dataset ...
C#中的深度学习（二）：预处理识别硬币的数据集
在文章中,我们将对输入到机器学习模型中的数据集进行预处理. 这里我们将对一个硬币数据集进行预处理,以便以后在监督学习模型中进行训练.在机器学习中预处理数据集通常涉及以下任务: 清理数据--通过对周围数 ...
LUNA16数据集（三）预处理
在(一)和(二)中简单介绍了LUNA16数据集的组成,以及肺结节的可视化,有了对数据集的基本了解后,还要对数据集进行预处理,计算机视觉中原始数据一般不会直接送入神经网络,这里也是如此. 这篇博客想写已 ...
自然语言处理（五）——实现机器翻译Seq2Seq完整经过
参考书 <TensorFlow:实战Google深度学习框架>(第2版) 我只能说这本书太烂了,看完这本书中关于自然语言处理的内容,代码全部敲了一遍,感觉学的很绝望,代码也运行不了. 具体 ...
用tensorflow实现自然语言处理——基于循环神经网络的神经语言模型
自然语言处理和图像处理不同,作为人类抽象出来的高级表达形式,它和图像.声音不同,图像和声音十分直觉,比如图像的像素的颜色表达可以直接量化成数字输入到神经网络中,当然如果是经过压缩的格式jpeg等必须还 ...

随机推荐

Delphi快捷键大全
Delphi快捷键大全在过程.函数.事件内部, SHIFT+CTRL+向上的方向键可跳跃到相应的过程.函数.事件的定义．相反,在过程.函数.事件的定义处,SHIFT+CTRL+向下的方向键可跳跃 ...
Delphi 7以来的Delphi 2009测试版新语法特性
我晕,Delphi 7 以后增加了这么多有用的语法,我都不知道.真是越学越觉得自己浅薄,自己所作的Delphi项目所用的知识还不够Delphi知识储备体系的十分之一,更别说Delphi还在继续发展. ...
ORACLE 表空间扩展
最近公司在对即将上线的系统做数据迁移和压力测试,于是乎需要和 Oracle 经常的打交道.今天正好碰到了表空间的问题,记录下来以后备用.也是最近才学习到的,原来 Oracle 表空间也是有大小限制的, ...
ThinkPHP验证码不现实的处理方法
ThinkPHP测试的时候遇到验证码不显示的问题,主要解决思路如下: 1.php.ini是否开启gd库: 2.页面编码是否一致: 3.检查页面头部信息BOM,这是最主要的,把下面代码复制到根目录下,然 ...
ML assignment #1
ML assignment #1 Problem: implement classification model to train the Iris dataset and make predicti ...
书写优雅的shell脚本（七）- ${COLUMN:-}
${COLUMN:-} 如果COLUMN是空变量,或者变量不存在,返回-后面的内容,如果变量有值返回这个值.
003 - 修改Pycharm的项目文件树样式
相信习惯了Eclipse或者Windows的小伙伴对于Pycharm的目录树一定觉得特别别扭因为它总是在文件前加一个三角形标注, 这样的标注在视觉上十分误导层级关系修改的方式为 File -& ...
TX2上yolov3精度和速度优化方向
速度优化的方向: 1.减少输入图片的尺寸, 但是相应的准确率可能会有所下降2.优化darknet工程源代码(去掉一些不必要的运算量或者优化运算过程)3.剪枝和量化yolov3网络(压缩模型---> ...
C结构体、C++结构体、C++类的区别
先来说说C和C++中结构体的不同 a) C语言中的结构体不能为空,否则会报错 1>d:\myproject\visual studio 2013\projects\myc++\main.c(71 ...
VC解析XML--使用CMarkup类解析XML
经过今天尝试MFC解析XML串,也算有了不少收获,总结一下. 我是使用的CMarkup类对XML进行操作. CMarkup好象都是先从一个xml文件里 ...

自然语言处理（二）——PTB数据集的预处理

参考书

运行结果：

运行结果：

自然语言处理（二）——PTB数据集的预处理的更多相关文章

随机推荐

热门专题