TensorFlow——循环神经网络基本结构

　　1、导入依赖包，初始化一些常量

import collections

import numpy as np

import tensorflow as tf

TRAIN_DATA = "./data/ptb.train.txt"  # 训练数据路径

TEST_DATA = "./data/ptb.test.txt"  # 测试数据路径

EVAL_DATA = "./data/ptb.valid.txt"  # 验证数据路径

HIDDEN_SIZE = 300  # 隐藏层中cell的个数

NUM_LAYERS = 2  # 深度循环神经网络中LSTM结构的层数

VOCAB_SIZE = 10000  # 词典规模

TRAIN_BATCH_SIZE = 20  # 训练数据batch的大小

TRAIN_NUM_STEP = 35  # 训练数据的截断长度，也可以看作是序列的长度

EVAL_BATCH_SIZE = 1

EVAL_NUM_STEP = 35

NUM_EPOCH = 30  # 使用训练数据的轮数

LSTM_KEEP_PROB = 0.9  # LSTM节点不被dropout的概率

EMBEDDING_KEEP_PROB = 0.9  # 词向量不被dropout的概率

MAX_GRAD_NORM = 5  # 用于控制梯度膨胀的梯度大小上限

SHARE_EMB_AND_SOFTMAX = True  # 在softmax层和词向量层之间共享参数

　　2、处理数据集

def read_data(file_path):

    """

    读取文件数据，将文本中的词转换成词空间中对应的索引

    :param file_path: 文件路径

    :return: 由数值取代后的文本词列表

    """

    # 采用TensorFlow中的读取文件的方法去读取文件

    with tf.gfile.GFile(file_path, "r") as f:

        # 将文本读取出来，并且进行分词，将换行符替换成<eos>,eos的意思就是end of sentence

        word_list = f.read().replace("\n", "<eos>").split()

        # 对分词后的列表进行统计，统计每个单词出现的数量, 返回的数据类型Counter({'jiang': 2, 'zhang': 1})

        counter = collections.Counter(word_list)

        # 对每个词按照词频排序，对于词频相同的按词本身进行排序，返回的数据类型[('jiang', 2), ('zhang', 1)]

        count_pairs = sorted(counter.items(), key=lambda x: (-x[1], x[0]))

        # 取出单词元组，返回的数据类型words=('jiang', 'zhang')

        words, _ = list(zip(*count_pairs))

        # 将上面排序后的词（无重复的词空间）标记索引数值，返回的数据类型{'jiang': 0, 'zhang': 1}

        word_to_id = dict(zip(words, range(len(words))))

        # 将文本中所有的单词用索引数值取代，组成新的列表

        id_list = [word_to_id[word] for word in word_list if word in word_to_id]

    return id_list

def make_batches(id_list, batch_size, num_steps):

    """

    将原始的数据集转换成mini-batch进行训练

    :param id_list: 原始的数值文本列表

    :param batch_size:

    :param num_steps: 一个样本的序列长度

    :return: 整个样本转换后的batchs数据

    """

    # 计算总的batch数量。每个batch包含的单词数量是batch_size * num_steps，batch_size为一个batch中样本的数量，

    # num_steps为一个样本的序列长度，因此num_batchs表示整个训练文本能分成的batch的数量

    num_batches = (len(id_list) - 1) // (batch_size * num_steps)

    # 根据上面分配好的num_batchs, batch_size, num_steps参数来构建数据集，先取出能整除的序列长度

    data = np.array(id_list[: num_batches * batch_size * num_steps])

    # reshape取出来的序列（一维数组）成二维数组，因为是序列数据，所以行为batch_size，列为num_batchs * num_steps，之后训练在横向上分割

    data = np.reshape(data, [batch_size, num_batches * num_steps])

    # 将数据在axis=1的轴上分割，分割的数量就是num_batchs

    data_batches = np.split(data, num_batches, axis=1)

    # 因为是根据前面的词预测后面的词，因此输出的值要往后移一位，其余操作和上面的一致

    label = np.array(id_list[1: num_batches * batch_size * num_steps + 1])

    label = np.reshape(label, [batch_size, num_batches * num_steps])

    label_batches = np.split(label, num_batches, axis=1)

    return list(zip(data_batches, label_batches))

　　3、构建模型

　　主要是定义各种变量或者对象，有些变量是经过计算得到的

class PTBModel(object):

    def __init__(self, is_training, batch_size, num_steps):

        # 记录使用的batch大小和截断长度（也就是一个样本的序列长度）

        self.batch_size = batch_size

        self.num_steps = num_steps

        # 定义每一步的输入和预期输出。两者的维度都是[batch_size, num_steps]，batch_size时间上就是指一个batch中样本的数量

        self.input_data = tf.placeholder(tf.int32, [batch_size, num_steps])

        self.targets = tf.placeholder(tf.int32, [batch_size, num_steps])

        # 定义dropout的值，训练时取0.9，否则取1.0，表示不做dropout

        dropout_keep_prob = LSTM_KEEP_PROB if is_training else 1.0

        # 定义lstm cell的结构，dropout相当于装饰器直接包裹在lstm_cell上,此时的cell是垂直方向的，所以for循环中的值是NUM_LAYERS

        lstm_cells = [tf.nn.rnn_cell.DropoutWrapper(tf.nn.rnn_cell.BasicLSTMCell(HIDDEN_SIZE),

                                                    output_keep_prob=dropout_keep_prob)

                      for i in range(NUM_LAYERS)]

        # 组合成多层循环

        cell = tf.nn.rnn_cell.MultiRNNCell(lstm_cells)

        # 初始化最初的状态值，即全为0的向量。这个量只在每个epoch初始化第一个batch时使用

        # #返回[batch_size, 2*len(cells)],或者[batch_size, s]，至于为什么是2 * ，这是因为初始值有两个h0和C0

        self.initial_state = cell.zero_state(batch_size, tf.float32)

        # 定义单词的词向量矩阵，这里用get_variable，之后在测试时就可以实现参数共享了

        # VOCAB_SIZE是指词向量空间中词的个数（在这里起始是len(words)的长度，也等于10000），HIDDEN_SIZE是值词嵌入之后的词向量长度

        embedding = tf.get_variable("embedding", [VOCAB_SIZE, HIDDEN_SIZE])

        # 将输入的单词转化为词向量，相当于将每个序列中的单词按照索引（之前转化为了数值在这里就很方便的），直接将序列中的每个词在已经训练好的

        # 词空间中寻找对应的向量，此空间应该是二维的，输出的结果应该是三维的，也就是batch_size * num_steps * HIDDEN_SIZE

        inputs = tf.nn.embedding_lookup(embedding, self.input_data)

        # 只在训练时使用dropout来训练词向量

        if is_training:

            inputs = tf.nn.dropout(inputs, EMBEDDING_KEEP_PROB)

        # 定义输出列表。在这里先将不同时刻LSTM结构的输出收集起来，再一起提供给softmax层，在这里是实现时间序上的cell输出

        outputs = []

        state = self.initial_state

        with tf.variable_scope("RNN"):

            for time_step in range(num_steps):

                if time_step > 0:

                    # 实现在同一个variable_scope下共享参数

                    tf.get_variable_scope().reuse_variables()

                # 从这里就可以看出之前embedding输出的是三维，我们根据时间序取出词来进行训练,

                # cell_output shape=(batch_size, HIDDEN_SIZE)

                cell_output, state = cell(inputs[:, time_step, :], state)

                outputs.append(cell_output)

        # 把输出队列展开成[batch_size, num_steps * hidden_size]，然后再reshape成[batch_size * num_steps, hidden_size]

        output = tf.reshape(tf.concat(outputs, 1), [-1, HIDDEN_SIZE])

        # softmax层：将RNN在每个位置的输出转化为各个单词的logits

        # weight的shape是[HIDDEN_SIZE, VOCAB_SIZE]

        if SHARE_EMB_AND_SOFTMAX:

            weight = tf.transpose(embedding)

        else:

            weight = tf.get_variable("weight", [HIDDEN_SIZE, VOCAB_SIZE])

        bias = tf.get_variable("bias", [VOCAB_SIZE])

        # 算出最终输出的logits，用于之后的交叉熵和softmax计算

        logits = tf.matmul(output, weight) + bias

        # 定义交叉熵损失函数和平均损失函数，返回的loss是和labels、logits相同的shape

        loss = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=tf.reshape(self.targets, [-1]),

                                                              logits=logits)

        # 求平均损失

        self.cost = tf.reduce_sum(loss) / batch_size

        # 该状态用来存储训练完一个batch之后的状态，在训练下一个batch时，会将该状态作为初始状态，这个在run_epoch函数中控制的

        self.final_state = state

        # 只在训练模型时定义反向传播操作

        if not is_training:

            return

        # 拿到所有的训练参数，用于之后的梯度下降更新参数

        trainable_variables = tf.trainable_variables()

        # 梯度截断控制梯度大小，是为了避免梯度弥散和梯度爆炸，将梯度控制在某一范围内

        grads, _ = tf.clip_by_global_norm(

            tf.gradients(self.cost, trainable_variables), MAX_GRAD_NORM

        )

        optimizer = tf.train.GradientDescentOptimizer(learning_rate=1.0)

        self.train_op = optimizer.apply_gradients(zip(grads, trainable_variables))

　　4、创建run_epoch函数，用来控制模型的训练

def run_epoch(session, model, batches, train_op, output_log, step):

    """

    训练模型和模型预测。使用给定的模型model在数据data上运行train_op并返回在全部数据上的perplexity值。

    :param session:

    :param model:

    :param batches:

    :param train_op:

    :param output_log: 判断是训练过程还是其他过程

    :param step:

    :return:

    """

    # 计算平均perplexity的辅助变量，perplexity表示在模型生成一句话时下一个词有perplexity个合理的选择，认为perplexity小于100都是比较好的

    # 结果，该值越小，说明模型越好，也可以认为模型预测的精确度越高

    total_costs = 0.0  # 存储损失值

    iters = 0

    state = session.run(model.initial_state)

    # 训练一个epoch

    for x, y in batches:

        # 可以在run函数中通过字典的形式给模型输入数据，也可以直接读取出模型的值，session.run（）方法通过驱动三个operation来驱动整个图

        # 其中train_op是只是用来驱动训练过程的

        cost, state, _ = session.run([model.cost, model.final_state, model.train_op],

                                     feed_dict={model.input_data: x, model.targets: y, model.initial_state: state}

                                     )

        total_costs += cost

        iters += model.num_steps

        if output_log and step % 100 == 0:

            print("After {} steps, perplexity id {}".format(step, np.exp(total_costs / iters)))

        step += 1

    # pplx是语言模型perplexity指标

    pplx = np.exp(total_costs / iters)

    return step, pplx

　　5、定义main函数

def main():

    with tf.Graph().as_default():

        # 定义初始化函数, 用于决定之后的variable_scope中的变量的初始值取值范围

        initializer = tf.random_uniform_initializer(-0.05, 0.05)

        # 定义训练用的循环神经网络模型

        with tf.name_scope("train"):

            train_batches = make_batches(read_data(TRAIN_DATA), TRAIN_BATCH_SIZE, TRAIN_NUM_STEP)
　　　　　　　# 利用variable_scope()和get_variable()来实现变量共享

            with tf.variable_scope("language_model", reuse=None, initializer=initializer):

                train_model = PTBModel(True, TRAIN_BATCH_SIZE, TRAIN_NUM_STEP)

        # 定义测试用的循环神经网络模型，它与train_model共享参数，但没有dropout，可以通过is_training来控制

        with tf.name_scope('test'):

            eval_batches = make_batches(read_data(EVAL_DATA), EVAL_BATCH_SIZE, EVAL_NUM_STEP)

            test_batches = make_batches(read_data(TEST_DATA), EVAL_BATCH_SIZE, EVAL_NUM_STEP)

            # 设置同样的名称language_model来实现共享变量，变量共享和name_scope无关

            with tf.variable_scope("language_model", reuse=True, initializer=initializer):

                eval_model = PTBModel(False, EVAL_BATCH_SIZE, EVAL_NUM_STEP)

        # 训练模型

        with tf.Session() as session:

            tf.global_variables_initializer().run()

            step = 0

            for i in range(NUM_EPOCH):

                print("In iteration: {}".format(i + 1))

                step, train_pplx = run_epoch(session, train_model, train_batches, train_model.train_op, True, step)

                print("Epoch: {} Train Perplexity: {}".format(i+1, train_pplx))

                _, eval_pplx = run_epoch(session, eval_model, eval_batches, tf.no_op(), False, 0)

                print("Epoch: {} Eval Perplexity: {}".format(i+1, eval_pplx))

                _, test_pplx = run_epoch(session, eval_model, test_batches, tf.no_op(), False, 0)

                print("Epoch: {} Test Perplexity: {}".format(i+1, test_pplx))

TensorFlow——循环神经网络基本结构的更多相关文章

吴裕雄 python 神经网络——TensorFlow 循环神经网络处理MNIST手写数字数据集
#加载TF并导入数据集 import tensorflow as tf from tensorflow.contrib import rnn from tensorflow.examples.tuto ...
Tensorflow 循环神经网络基本 RNN 和 LSTM 网络拟合、预测sin曲线
时序预测一直是比较重要的研究问题,在统计学中我们有各种的模型来解决时间序列问题,但是最近几年比较火的深度学习中也有能解决时序预测问题的方法,另外在深度学习领域中时序预测算法可以解决自然语言问题等. 在 ...
TensorFlow系列专题（七）：一文综述RNN循环神经网络
欢迎大家关注我们的网站和系列教程:http://panchuang.net/ ,学习更多的机器学习.深度学习的知识! 目录: 前言 RNN知识结构简单循环神经网络 RNN的基本结构 RNN的运算过程 ...
机器学习与Tensorflow（5）——循环神经网络、长短时记忆网络
1.循环神经网络的标准模型前馈神经网络能够用来建立数据之间的映射关系,但是不能用来分析过去信号的时间依赖关系,而且要求输入样本的长度固定循环神经网络是一种在前馈神经网络中增加了分亏链接的神经网络, ...
循环神经网络（Recurrent Neural Network，RNN）
为什么使用序列模型(sequence model)?标准的全连接神经网络(fully connected neural network)处理序列会有两个问题:1)全连接神经网络输入层和输出层长度固定, ...
Recurrent Neural Networks(RNN) 循环神经网络初探
1. 针对机器学习/深度神经网络“记忆能力”的讨论 0x1:数据规律的本质是能代表此类数据的通用模式 - 数据挖掘的本质是在进行模式提取数据的本质是存储信息的介质,而模式(pattern)是信息的一 ...
十 | 门控循环神经网络LSTM与GRU（附python演练）
欢迎大家关注我们的网站和系列教程:http://panchuang.net/ ,学习更多的机器学习.深度学习的知识! 目录: 门控循环神经网络简介长短期记忆网络(LSTM) 门控制循环单元(GRU) ...
4.5 RNN循环神经网络（recurrent neural network）
自己开发了一个股票智能分析软件,功能很强大,需要的点击下面的链接获取: https://www.cnblogs.com/bclshuai/p/11380657.html 1.1 RNN循环神经网络 ...
Recurrent Neural Network系列1--RNN（循环神经网络）概述
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 本文翻译自 RECURRENT NEURAL NETWORKS T ...

随机推荐

laravel compact的用法
向视图中传递变量我们在开发web应用当中,通常都不是为了写静态页面而生的,我们需要跟数据打交道,那么这个时候,问题就来了,在一个MVC的框架中,怎么将数据传给视图呢?比如我们要在 ArticleCo ...
2018-12-16 VS Code英汉词典进化效果演示: 翻译文件所有命名
续VS Code英汉词典插件v0.0.7-尝试词性搭配, 下一个功能打算实现文件的批量命名翻译: 批量代码汉化工具 · Issue #86 · program-in-chinese/overview ...
css小知识
7. span { display:inline-block; width:70px; /* 超出长度以...显示 */ text-overflow: ellipsis; white-space: n ...
TS学习随笔（一）->安装和基本数据类型
去年学过一段时间的TS,但由于在工作中不常用.就生疏了,最近项目要求用TS,那我就再回去搞搞TS,写一篇记录一下自己学习TS的进度以及TS知识点首先,关于TS的定义我就不在这描述了,想看百度一下你就 ...
华为P20无线投屏到电脑绝地求生投射电脑
如今出门在外,必不可少的就是手机,如果没有了手机,每个人都会感觉没有安全感,感觉和世界失去了联系,我们每天每个人都在使用手机,但是作为华为手机用户的你,了解华为P20无线投屏到电脑是怎么操作的吗? 使 ...
CentOS 7上VNCServer的安装使用
1.安装 yum install tigervnc tigervnc-server 2.配置 vncserver的配置,创建一个新的配置文件 cp /lib/systemd/system/vncser ...
Git 结合Git使用Bitbucket进行代码版本管理流程规范与实践
结合Git使用Bitbucket进行代码版本管理流程规范与实践 By:授客 QQ:1033553122 目录目录 1 一. 测试环境 2 二. 新建项目 2 三. 新建公有版本库 3 四. ...
初见jQuery EasyUI
本文通过一个简单的小例子,简述jQuery EasyUI的使用方法,仅供学习分享使用,如有不足之处,还请指正. 什么是jQuery EasyUI ? 引用官网的一句话:jQuery EasyUI fr ...
mysql之连接查询、联合查询、子查询
本文内容: 连接查询联合查询子查询 from子查询 where子查询 exists子查询首发日期:2018-04-11 连接查询: 连接查询就是将多个表联合起来查询,连接查询方式有内连接.外连接 ...
Bean named '...' is expected to be of type [...] but was actually of type [com.sun.proxy.$Proxy7解决方法
报错三月 07, 2017 8:09:52 下午 org.springframework.context.support.ClassPathXmlApplicationContext prepare ...

TensorFlow——循环神经网络基本结构

TensorFlow——循环神经网络基本结构的更多相关文章

随机推荐

热门专题