吴裕雄--天生自然 pythonTensorFlow自然语言处理：文本数据预处理--生成训练文件

import sys

import codecs

# 1. 参数设置

MODE = "PTB_TRAIN"    # 将MODE设置为"PTB_TRAIN", "PTB_VALID", "PTB_TEST", "TRANSLATE_EN", "TRANSLATE_ZH"之一。

if MODE == "PTB_TRAIN":        # PTB训练数据

    RAW_DATA = "F:\\TensorFlowGoogle\\201806-github\\datasets\\PTB_data\\ptb.train.txt"  # 训练集数据文件

    VOCAB = "F:\\temp\\ptb.vocab"                                 # 词汇表文件

    OUTPUT_DATA = "F:\\temp\\ptb.train"                           # 将单词替换为单词编号后的输出文件

elif MODE == "PTB_VALID":      # PTB验证数据

    RAW_DATA = "F:\\TensorFlowGoogle\\201806-github\\datasets\\PTB_data\\ptb.valid.txt"

    VOCAB = "F:\\temp\\ptb.vocab"

    OUTPUT_DATA = "F:\\temp\\ptb.valid"

elif MODE == "PTB_TEST":       # PTB测试数据

    RAW_DATA = "F:\\TensorFlowGoogle\\201806-github\\datasets\\PTB_data\\ptb.test.txt"

    VOCAB = "F:\\temp\\ptb.vocab"

    OUTPUT_DATA = "F:\\temp\\ptb.test"

elif MODE == "TRANSLATE_ZH":   # 中文翻译数据

    RAW_DATA = "F:\\TensorFlowGoogle\\201806-github\\datasets\\TED_data\\train.txt.zh"

    VOCAB = "F:\\temp\\zh.vocab"

    OUTPUT_DATA = "F:\\temp\\train.zh"

elif MODE == "TRANSLATE_EN":   # 英文翻译数据

    RAW_DATA = "F:\\TensorFlowGoogle\\201806-github\\datasets\TED_data\\train.txt.en"

    VOCAB = "F:\\temp\\en.vocab"

    OUTPUT_DATA = "F:\\temp\\train.en"

# 2.按词汇表对将单词映射到编号。

# 读取词汇表，并建立词汇到单词编号的映射。

with codecs.open(VOCAB, "r", "utf-8") as f_vocab:

    vocab = [w.strip() for w in f_vocab.readlines()]

word_to_id = {k: v for (k, v) in zip(vocab, range(len(vocab)))}

# 如果出现了不在词汇表内的低频词，则替换为"unk"。

def get_id(word):

    return word_to_id[word] if word in word_to_id else word_to_id["<unk>"]

# 3.对数据进行替换并保存结果。

fin = codecs.open(RAW_DATA, "r", "utf-8")

fout = codecs.open(OUTPUT_DATA, 'w', 'utf-8')

for line in fin:

    words = line.strip().split() + ["<eos>"]  # 读取单词并添加<eos>结束符

    # 将每个单词替换为词汇表中的编号

    out_line = ' '.join([str(get_id(w)) for w in words]) + '\n'

    fout.write(out_line)

fin.close()

fout.close()

吴裕雄--天生自然 pythonTensorFlow自然语言处理：文本数据预处理--生成训练文件的更多相关文章

吴裕雄--天生自然 pythonTensorFlow自然语言处理：Attention模型--测试
import sys import codecs import tensorflow as tf # 1.参数设置. # 读取checkpoint的路径.9000表示是训练程序在第9000步保存的ch ...
吴裕雄--天生自然 pythonTensorFlow自然语言处理：Attention模型--训练
import tensorflow as tf # 1.参数设置. # 假设输入数据已经转换成了单词编号的格式. SRC_TRAIN_DATA = "F:\\TensorFlowGoogle ...
吴裕雄--天生自然 pythonTensorFlow自然语言处理：Seq2Seq模型--测试
import sys import codecs import tensorflow as tf # 1.参数设置. # 读取checkpoint的路径.9000表示是训练程序在第9000步保存的ch ...
吴裕雄--天生自然 pythonTensorFlow自然语言处理：Seq2Seq模型--训练
import tensorflow as tf # 1.参数设置. # 假设输入数据已经用9.2.1小节中的方法转换成了单词编号的格式. SRC_TRAIN_DATA = "F:\\Tens ...
吴裕雄--天生自然 pythonTensorFlow自然语言处理：PTB 语言模型
import numpy as np import tensorflow as tf # 1.设置参数. TRAIN_DATA = "F:\TensorFlowGoogle\\201806- ...
吴裕雄--天生自然 pythonTensorFlow自然语言处理：交叉熵损失函数
import tensorflow as tf # 1. sparse_softmax_cross_entropy_with_logits样例. # 假设词汇表的大小为3, 语料包含两个单词" ...
吴裕雄--天生自然 pythonTensorFlow图形数据处理：图像预处理完整样例
import numpy as np import tensorflow as tf import matplotlib.pyplot as plt #随机调整图片的色彩,定义两种顺序. def di ...
吴裕雄--天生自然 pythonTensorFlow图形数据处理：数据集基本使用方法
import tempfile import tensorflow as tf # 1. 从数组创建数据集. input_data = [1, 2, 3, 5, 8] dataset = tf.dat ...
吴裕雄--天生自然 pythonTensorFlow图形数据处理：循环神经网络预测正弦函数
import numpy as np import tensorflow as tf import matplotlib.pyplot as plt # 定义RNN的参数. HIDDEN_SIZE = ...

随机推荐

BZOJ：2242: [SDOI2011]计算器
题解:BSGS 问题:map空间 BSGS判无解 a%p!=0 0与最小非负整数有区别函数传参类型转换int->long long long long ->int; 费马小定理充分必要 ...
java课程课后作业190616之个人学期总结
在团队开始的那一周,我们做了作品的功能畅想,在讲台上谈论了自己的产品可能会有的功能,比如说课程查找功能,空教室查找功能,霸屏功能,课程留言功能等,当然,随着开发的推进,我也发现了有些功能上实现的困难, ...
mysql第四篇：数据操作
第四篇:数据操作一.数据操作介绍在MySQL管理软件中,可以通过SQL语句中的DML语言来实现数据的操作 1.INSERT实现数据的插入 2.UPDATE实现数据的更新 3.DELETE实现数据的 ...
Sequence Models Week 1 Building a recurrent neural network - step by step
Building your Recurrent Neural Network - Step by Step Welcome to Course 5's first assignment! In thi ...
新iPhone的高售价下，苹果供应商们是该笑还是该哭？
自新 iPhone发布之日起,世界就从未停止讨论其售价,越来越多的人开始困惑:新 iPhone毫无创新亮点,有什么底气卖到12799RMB呢?整个地球都在期待苹果推出廉价版 iPhone,望眼欲穿地等 ...
python安装wordcloud、jieba,pyecharts
1.安装wordcloud: 适用于无法使用pip install wordcloud安装的情况: 据python和windows 版本到https://www.lfd.uci.edu/~gohlk ...
Python-查找并保存特定字符串后面的字符串
-- -- 本算法用于查找并存储“特定字符串”后面的字符串. -- 举例: strli = "kaka is li is da is wei !" #用于查找的字符串 sep_li ...
[极客大挑战 2019]Http
0x00知识点了解HTTP协议,使用bp伪造. 0x01 解题首先查看源代码,找到Secret.php 访问使用bp查看提示我们需要来自该网址,直接改header头信息即可,我们可以通过使用r ...
POJ 1860：Currency Exchange
Currency Exchange Time Limit: 1000MS Memory Limit: 30000K Total Submissions: 22648 Accepted: 818 ...
使用py-faster-rcnn训练自己的数据集
https://www.jianshu.com/p/a672f702e596 本文记录了在ubuntu16.04下使用py-faster-rcnn来训练自己的数据集的大致过程. 在此之前,已经成功配置 ...

吴裕雄--天生自然 pythonTensorFlow自然语言处理：文本数据预处理--生成训练文件

吴裕雄--天生自然 pythonTensorFlow自然语言处理：文本数据预处理--生成训练文件的更多相关文章

随机推荐

热门专题