使用L2正则化和平均滑动模型的LeNet-5MNIST手写数字识别模型

觉得有用的话,欢迎一起讨论相互学习~

参考文献Tensorflow实战Google深度学习框架

实验平台:

Tensorflow1.4.0

python3.5.0

MNIST数据集将四个文件下载后放到当前目录下的MNIST_data文件夹下

L2正则化

 Dropout

滑动平均方法

定义模型框架与前向传播

import tensorflow as tf

# 配置神经网络的参数

INPUT_NODE = 784

OUTPUT_NODE = 10

IMAGE_SIZE = 28

NUM_CHANNELS = 1

NUM_LABELS = 10

# 第一层卷积层的尺寸和深度

CONV1_DEEP = 32

CONV1_SIZE = 5

# 第二层卷积层的尺寸和深度

CONV2_DEEP = 64

CONV2_SIZE = 5

# 全连接层的节点个数

FC_SIZE = 512

# 定义卷积神经网络的前向传播过程，这里添加了一个参数train,用于区分训练过程和测试过程。

# 这里使用dropout方法，dropout方法可以进一步提升模型可靠性并防止过拟合，dropout只在训练过程中使用。

def inference(input_tensor, train, regularizer):

    # 通过使用不同的命名空间来隔离变量，可以使每一层的变量命名只需要考虑在当前层的作用，而不需要考虑重名的问题

    with tf.variable_scope('layer1-conv1'):

        conv1_weights = tf.get_variable(

            "weight", [CONV1_SIZE, CONV1_SIZE, NUM_CHANNELS, CONV1_DEEP],

            initializer=tf.truncated_normal_initializer(stddev=0.1))

        conv1_biases = tf.get_variable("bias", [CONV1_DEEP], initializer=tf.constant_initializer(0.0))

        conv1 = tf.nn.conv2d(input_tensor, conv1_weights, strides=[1, 1, 1, 1], padding='SAME')

        relu1 = tf.nn.relu(tf.nn.bias_add(conv1, conv1_biases))

    with tf.name_scope("layer2-pool1"):

        pool1 = tf.nn.max_pool(relu1, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding="SAME")

    with tf.variable_scope("layer3-conv2"):

        conv2_weights = tf.get_variable(

            "weight", [CONV2_SIZE, CONV2_SIZE, CONV1_DEEP, CONV2_DEEP],

            initializer=tf.truncated_normal_initializer(stddev=0.1))

        conv2_biases = tf.get_variable("bias", [CONV2_DEEP], initializer=tf.constant_initializer(0.0))

        conv2 = tf.nn.conv2d(pool1, conv2_weights, strides=[1, 1, 1, 1], padding='SAME')

        relu2 = tf.nn.relu(tf.nn.bias_add(conv2, conv2_biases))

    with tf.name_scope("layer4-pool2"):

        pool2 = tf.nn.max_pool(relu2, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')

        # pool2.getshape函数可以得到第四层输出矩阵的维度而不需要手工计算。

        # 注意因为每一层神经网络的输入输出都为一个batch矩阵，所以这里得到的维度也包含了一个batch中数据的个数。

        pool_shape = pool2.get_shape().as_list()

        # 计算将矩阵拉直成向量后的长度，这个长度就是矩阵的长宽及深度的乘积，注意这里的pool_shape[0]为一个batch中数据的个数

        nodes = pool_shape[1]*pool_shape[2]*pool_shape[3]

        # 通过tf.shape函数将第四层的输出变成一个batch的向量

        reshaped = tf.reshape(pool2, [pool_shape[0], nodes])

    # dropout一般只在全连接层而不是卷积层或者池化层使用

    with tf.variable_scope('layer5-fc1'):

        fc1_weights = tf.get_variable("weight", [nodes, FC_SIZE],

                                      initializer=tf.truncated_normal_initializer(stddev=0.1))

        # 只有全连接层的权重需要加入正则化

        if regularizer != None: tf.add_to_collection('losses', regularizer(fc1_weights))

        fc1_biases = tf.get_variable("bias", [FC_SIZE], initializer=tf.constant_initializer(0.1))

        fc1 = tf.nn.relu(tf.matmul(reshaped, fc1_weights) + fc1_biases)

        # 如果train标签为真，则引入dropout函数使输出层一半的神经元失活

        if train: fc1 = tf.nn.dropout(fc1, 0.5)

    with tf.variable_scope('layer6-fc2'):

        fc2_weights = tf.get_variable("weight", [FC_SIZE, NUM_LABELS],

                                      initializer=tf.truncated_normal_initializer(stddev=0.1))

        if regularizer != None: tf.add_to_collection('losses', regularizer(fc2_weights))

        fc2_biases = tf.get_variable("bias", [NUM_LABELS], initializer=tf.constant_initializer(0.1))

        logit = tf.matmul(fc1, fc2_weights) + fc2_biases

    return logit

训练基于LeNet的MNIST模型

import tensorflow as tf

from tensorflow.examples.tutorials.mnist import input_data

import LeNet5_infernece

import os

import numpy as np

# #### 1. 定义神经网络相关的参数

BATCH_SIZE = 100  # 批处理数量大小

LEARNING_RATE_BASE = 0.01  # 基础学习率

LEARNING_RATE_DECAY = 0.99  # 学习率衰减速率

REGULARIZATION_RATE = 0.0001  # 正则化参数

TRAINING_STEPS = 6000  # 训练周期数

MOVING_AVERAGE_DECAY = 0.99  # 平均滑动步长

# #### 2. 定义训练过程

def train(mnist):

    # 定义输出为4维矩阵的placeholder

    x = tf.placeholder(tf.float32, [

        BATCH_SIZE,

        LeNet5_infernece.IMAGE_SIZE,

        LeNet5_infernece.IMAGE_SIZE,

        LeNet5_infernece.NUM_CHANNELS],

                       name='x-input')

    # y_表示正确的标签

    y_ = tf.placeholder(tf.float32, [None, LeNet5_infernece.OUTPUT_NODE], name='y-input')

    # 定义L2正则化

    regularizer = tf.contrib.layers.l2_regularizer(REGULARIZATION_RATE)

    y = LeNet5_infernece.inference(x, False, regularizer)  # 表示不使用dropout,但是使用正则化

    global_step = tf.Variable(0, trainable=False)

    # 定义损失函数、学习率、滑动平均操作以及训练过程。

    variable_averages = tf.train.ExponentialMovingAverage(MOVING_AVERAGE_DECAY, global_step)

    # 使用平均滑动模型

    variables_averages_op = variable_averages.apply(tf.trainable_variables())

    # 定以交叉熵函数

    cross_entropy = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=y, labels=tf.argmax(y_, 1))

    cross_entropy_mean = tf.reduce_mean(cross_entropy)

    # 将权重的L2正则化部分加到损失函数中

    loss = cross_entropy_mean + tf.add_n(tf.get_collection('losses'))

    # 定义递减的学习率

    learning_rate = tf.train.exponential_decay(

        LEARNING_RATE_BASE,

        global_step,

        mnist.train.num_examples/BATCH_SIZE, LEARNING_RATE_DECAY,

        staircase=True)

    train_step = tf.train.GradientDescentOptimizer(learning_rate).minimize(loss, global_step=global_step)

    # with tf.control_dependencies([train_step, variables_averages_op]):

    #     train_op = tf.no_op(name='train')

    # 在反向传播梯度下降的过程中更新变量的滑动平均值

    train_op = tf.group(train_step, variables_averages_op)

    # 初始化TensorFlow持久化类。

    saver = tf.train.Saver()

    with tf.Session() as sess:

        tf.global_variables_initializer().run()

        for i in range(TRAINING_STEPS):

            xs, ys = mnist.train.next_batch(BATCH_SIZE)

            reshaped_xs = np.reshape(xs, (

                BATCH_SIZE,

                LeNet5_infernece.IMAGE_SIZE,

                LeNet5_infernece.IMAGE_SIZE,

                LeNet5_infernece.NUM_CHANNELS))

            _, loss_value, step = sess.run([train_op, loss, global_step], feed_dict={x: reshaped_xs, y_: ys})

            if i%1000 == 0:

                print("After %d training step(s), loss on training batch is %g."%(step, loss_value))

# #### 3. 主程序入口

def main(argv=None):

    mnist = input_data.read_data_sets("./MNIST_data", one_hot=True)

    train(mnist)

if __name__ == '__main__':

    main()

使用L2正则化和平均滑动模型的LeNet-5MNIST手写数字识别模型的更多相关文章

持久化的基于L2正则化和平均滑动模型的MNIST手写数字识别模型
持久化的基于L2正则化和平均滑动模型的MNIST手写数字识别模型觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考文献Tensorflow实战Google深度学习框架实验平台: Tens ...
Pytorch1.0入门实战一：LeNet神经网络实现 MNIST手写数字识别
记得第一次接触手写数字识别数据集还在学习TensorFlow,各种sess.run(),头都绕晕了.自从接触pytorch以来,一直想写点什么.曾经在2017年5月,Andrej Karpathy发表 ...
深度学习面试题12：LeNet(手写数字识别)
目录神经网络的卷积.池化.拉伸 LeNet网络结构 LeNet在MNIST数据集上应用参考资料 LeNet是卷积神经网络的祖师爷LeCun在1998年提出,用于解决手写数字识别的视觉任务.自那时起 ...
caffe_手写数字识别Lenet模型理解
这两天看了Lenet的模型理解,很简单的手写数字CNN网络,90年代美国用它来识别钞票,准确率还是很高的,所以它也是一个很经典的模型.而且学习这个模型也有助于我们理解更大的网络比如Imagenet等等 ...
吴裕雄 python 神经网络TensorFlow实现LeNet模型处理手写数字识别MNIST数据集
import tensorflow as tf tf.reset_default_graph() # 配置神经网络的参数 INPUT_NODE = 784 OUTPUT_NODE = 10 IMAGE ...
Caffe系列4——基于Caffe的MNIST数据集训练与测试（手把手教你使用Lenet识别手写字体）
基于Caffe的MNIST数据集训练与测试原创:转载请注明https://www.cnblogs.com/xiaoboge/p/10688926.html 摘要在前面的博文中,我详细介绍了Caf ...
【深度学习】L1正则化和L2正则化
在机器学习中,我们非常关心模型的预测能力,即模型在新数据上的表现,而不希望过拟合现象的的发生,我们通常使用正则化(regularization)技术来防止过拟合情况.正则化是机器学习中通过显式的控制模 ...
4.机器学习——统计学习三要素与最大似然估计、最大后验概率估计及L1、L2正则化
1.前言之前我一直对于“最大似然估计”犯迷糊,今天在看了陶轻松.忆臻.nebulaf91等人的博客以及李航老师的<统计学习方法>后,豁然开朗,于是在此记下一些心得体会. “最大似然估计” ...
机器学习（二十三）— L0、L1、L2正则化区别
1.概念 L0正则化的值是模型参数中非零参数的个数. L1正则化表示各个参数绝对值之和. L2正则化标识各个参数的平方的和的开方值. 2.问题 1)实现参数的稀疏有什么好处吗? 一个好处是可以简化 ...

随机推荐

浅谈TSM概念、系统架构及技术发展
NFC作为一种近距离的无线通信技术,提供了一种更直接.更安全的现场交互解决方案.它能够允许电子设备之间进行非接触式点对点数据传输,实现数据交换.访问内容与服务.有了它,手机不再只是打电话.发短信以及上 ...
Shell脚本初学习
第一个shell程序运行,教程来自:http://jingyan.baidu.com/article/8cdccae947f83e315413cd05.html 代码如下: #!/bin/sh tou ...
Thunder--Beta发布--美工+文案
作业:https://edu.cnblogs.com/campus/nenu/SWE2017FALL/homework/1366 内容: 美工:原有功能展示.新增功能展示程序图标欢迎页面我的书架 ...
软工实践-Alpha 冲刺（8/10）
队名:起床一起肝活队组长博客:博客链接作业博客:班级博客本次作业的链接组员情况组员1(队长):白晨曦过去两天完成了哪些任务描述: 已经解决登录注册等基本功能的界面. 完成非功能的主界面制作 ...
从入门到不放弃——OO第一次作业总结
写在最前面: 我是一个这学期之前从未接触过java的小白,对面向对象的理解可能也只是停留在大一python讲过几节课的面向对象.幸运的是,可能由于前三次作业难度还是较低,并未给我造成太大的困难,接下来 ...
ansible介绍和安装
ansible是由 Python 编写的强大的配置管理解决方案,ansible 的特点就在于它的简洁与高效率 ansible与其他的配置管理工具不同点在于:不需要你在想要配置的每个节点上安装自己的组件 ...
inux下mysql的root密码忘记解决方法
1．首先确认服务器出于安全的状态,也就是没有人能够任意地连接MySQL数据库. 因为在重新设置MySQL的root密码的期间,MySQL数据库完全出于没有密码保护的状态下,其他的用户也可以任意地登录 ...
python3.6 SSL module is not available
pip is configured with locations that require TLS/SSL, however the ssl module in Python is not avail ...
MYSQL-update与select结合使用
使用 inner join ) c ,," , iteration; 如上例子: 完成更新 picture.labels 字段 & picture.iteration自增的两个 ...
jmeter 配置元件之计数器Counter
用jmeter生成数据我用过几种以下几种方法 1.CSV Data Set Config 参数化 2.${_Random} ${_Random}是jmeter函数助手里面自带的一个函数,作用是返回 ...

使用L2正则化和平均滑动模型的LeNet-5MNIST手写数字识别模型

使用L2正则化和平均滑动模型的LeNet-5MNIST手写数字识别模型

觉得有用的话,欢迎一起讨论相互学习~

定义模型框架与前向传播

训练基于LeNet的MNIST模型

使用L2正则化和平均滑动模型的LeNet-5MNIST手写数字识别模型的更多相关文章

随机推荐

热门专题