这个文章是对google官方教程的解释

预备知识

\[\begin{equation*}
\left[
\begin{array}{cccc}
a_1 & a_2 & a_3
\end{array}
\right]
\end{equation*}
\]

\[\begin{equation*}
softmax(a)=
\left[
\begin{array}{cccc}
\frac{e^{a_1}}{e^{a_1}+e^{a_2}+e^{a_3}} & \frac{e^{a_2}}{e^{a_1}+e^{a_2}+e^{a_3}} & \frac{e^{a_3}}{e^{a_1}+e^{a_2}+e^{a_3}}
\end{array}
\right]
\end{equation*}
\]

tensorflow里面有softmax的函数.可以直接调用.

import tensorflow as tf
a = tf.constant([.0, .0, .0, .0], tf.float32)
b = tf.constant([1., 2., 3., 4.], tf.float32)
result1 = tf.nn.softmax(a)
result2 = tf.nn.softmax(b)
sess = tf.Session()
print(sess.run(result1))
print(sess.run(result2))

模型训练

mnist = input_data.read_data_sets(r"D:mnist\zip", one_hot=True)

把mnist数据集读取内存.读入方法的细节放在以后讨论.这里只有注意one_hot=True这个参数.one_hot表示用非零即1的数组保存图片表示的数值.比如一个图片上写的是0,内存中不是直接存一个0,而是存一个数组[1,0,0,0,0,0,0,0,0,0].一个图片上面写的是1,那个保存的就是[0,1,0,0,0,0,0,0,0,0]

x = tf.placeholder(tf.float32, [None, 784])
W = tf.Variable(tf.zeros([784, 10]))
b = tf.Variable(tf.zeros([10]))
y = tf.matmul(x, W) + b

构造一个模型.为了说明问题方便,假定数据集中只有16张照片(这个假设在后面的内容中一直存在).那么y的最终结果是一个16*10的矩阵,每一行代表一张图片.

y_ = tf.placeholder(tf.float32, [None, 10])

定义一个占位符,用于图片上的数.上面已经介绍过,一个图片上面写的是1,那么保存的就是[0,1,0,0,0,0,0,0,0,0]. 如果现在有16张图片,y_就是一个16*10的矩阵.

cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ /* tf.log(tf.nn.softmax(y)), reduction_indices=[1]))

reduction_indices是已经过时的参数,现在已经改成了axis,所以这个代码改为

cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ /* tf.log(tf.nn.softmax(y)), axis=1))

上面已经说过y是一个16*10的矩阵,tf.nn.softmax(y)也是一个16*10的矩阵.只不过y的每一行被归一化到[0,1]之间.tf.log(tf.nn.softmax(y))是取自然对数,不影响结构.y_是16*10的矩阵,tf.log(tf.nn.softmax(y))也是16*10的矩阵,y_*tf.log(tf.nn.softmax(y))是把2个矩阵的对应项相乘.这一步起到的作用是把不是照片上数字的概率清0,这时候结果还是16*10的矩阵.tf.reduce_sum(y_ * tf.log(tf.nn.softmax(y)), axis=1)是把各列的值相加形成一个新的矩阵.这时候结果变成1维数组,长度是16.里面的值是分类正确的概率.因为这是正确的概率,希望正确的概率越大越好,但是梯度下降算法一般时求某个变量的极小值.所以前面要加一个负号.这是一种直观但不严谨的解释,更精度的解释见有关熵的概念.tf.reduce_mean作用是把数组各个元素加起来.我们希望cross_entropy越小越好,求cross_entropy的极小值要用到反向传播算法.算法原理要懂,细节tensorflow已经帮我们实现了.

train_step = tf.train.GradientDescentOptimizer(0.5).minimize(cross_entropy)

这句的含义是训练的过程是求cross_entropy的极小值,学习率是0.5.下面开始看训练的代码.

batch_xs, batch_ys = mnist.train.next_batch(16)

这行代码的含义是从数据集中随机取出16张照片.每次训练所有照片效果理论上应该是比较好的,但是这样很花费时间和空间.所以每次随机取出若干张.这就是所谓的随机梯度下降算法.有关随机梯度下降算法收敛的原理这里不再讨论.batch_xs是一个16*784的矩阵,是训练的数据,batch_ys是一个16*10的矩阵,是训练数据的标签.

sess.run(train_step, feed_dict={x: batch_xs, y_: batch_ys})

这行代码才是把实际数据放到x,y_中,以上面指定的模型和方法更新W和b的值,使损失函数不断减小.

评价训练结果

correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1))

y,y_都是在后面才赋具体值的.为了描述方便.假设y是16*10的矩阵.y_是16*10的矩阵.tf.argmax(y, 1)返回的是一个长度为16的一维数组,里面是最大概率的索引.y_是16*10的矩阵.tf.argmax(y_, 1)返回的是一个长度为16的一维数组,里面是图片是是几的索引.tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1))返回的是一个长度为16的bool型的数组.相等的话为True,不相等的话为False. True越多说明训练的结果越好.

accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))

tf.cast(correct_prediction, tf.float32)是把bool型数组转化为float型,True转化为1.0, False转化为0.0.reduce_mean时求float型数组的平均值,即正确的个数与所有个数之比.这个数越大越好,等于1说明100%分类正确.

sess.run(accuracy, feed_dict={x: mnist.test.images, y_: mnist.test.labels})

feed_dict={x: mnist.test.images, y_: mnist.test.labels}是把实际的数据放到x,y_中.

tensorflow处理mnist(一)的更多相关文章

  1. Android+TensorFlow+CNN+MNIST 手写数字识别实现

    Android+TensorFlow+CNN+MNIST 手写数字识别实现 SkySeraph 2018 Email:skyseraph00#163.com 更多精彩请直接访问SkySeraph个人站 ...

  2. Ubuntu16.04安装TensorFlow及Mnist训练

    版权声明:本文为博主原创文章,欢迎转载,并请注明出处.联系方式:460356155@qq.com TensorFlow是Google开发的开源的深度学习框架,也是当前使用最广泛的深度学习框架. 一.安 ...

  3. 一个简单的TensorFlow可视化MNIST数据集识别程序

    下面是TensorFlow可视化MNIST数据集识别程序,可视化内容是,TensorFlow计算图,表(loss, 直方图, 标准差(stddev)) # -*- coding: utf-8 -*- ...

  4. 基于tensorflow的MNIST手写数字识别(二)--入门篇

    http://www.jianshu.com/p/4195577585e6 基于tensorflow的MNIST手写字识别(一)--白话卷积神经网络模型 基于tensorflow的MNIST手写数字识 ...

  5. 使用Tensorflow操作MNIST数据

    MNIST是一个非常有名的手写体数字识别数据集,在很多资料中,这个数据集都会被用作深度学习的入门样例.而TensorFlow的封装让使用MNIST数据集变得更加方便.MNIST数据集是NIST数据集的 ...

  6. TensorFlow RNN MNIST字符识别演示快速了解TF RNN核心框架

    TensorFlow RNN MNIST字符识别演示快速了解TF RNN核心框架 http://blog.sina.com.cn/s/blog_4b0020f30102wv4l.html

  7. 2、TensorFlow训练MNIST

    装载自:http://www.tensorfly.cn/tfdoc/tutorials/mnist_beginners.html TensorFlow训练MNIST 这个教程的目标读者是对机器学习和T ...

  8. 深入浅出TensorFlow(二):TensorFlow解决MNIST问题入门

    2017年2月16日,Google正式对外发布Google TensorFlow 1.0版本,并保证本次的发布版本API接口完全满足生产环境稳定性要求.这是TensorFlow的一个重要里程碑,标志着 ...

  9. Tensorflow之MNIST的最佳实践思路总结

    Tensorflow之MNIST的最佳实践思路总结   在上两篇文章中已经总结出了深层神经网络常用方法和Tensorflow的最佳实践所需要的知识点,如果对这些基础不熟悉,可以返回去看一下.在< ...

  10. TensorFlow训练MNIST报错ResourceExhaustedError

    title: TensorFlow训练MNIST报错ResourceExhaustedError date: 2018-04-01 12:35:44 categories: deep learning ...

随机推荐

  1. 🔥「课代表」帮你总结了全网最全的Redis知识点

    你知道的越多,你不知道的越多 点赞再看,养成习惯 GitHub上已经开源 https://github.com/JavaFamily 有一线大厂面试点脑图.个人联系方式和人才交流群,欢迎Star和指教 ...

  2. hdu 1754 I Hate It (线段树、单点更新)(PS:ios::sync_with_stdio(false)可以加快cin、cout的读取写出速度)

    I Hate ItTime Limit: 9000/3000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others)Total Su ...

  3. Java开发者入职必备条件

    01.基础技术体系 我认为知识技能体系化是判断技术是否过关的第一步.知识体系化包含两层含义: 1. 能够知道技术知识图谱(高清版图谱扫文末二维码)的内容 比如分布式系统中常用的RPC技术,其背后就涉及 ...

  4. 半自动安装 linux 系统

    基于图形软件生成应答文件,实现半自动化安装 linux 操作系统 1.yum install -y system-config-kickstart 安装生成自动化安装操作系统的应答文件 2.syste ...

  5. cn_windows虚拟机配置

    1.打开“VMware”,点击“主页”,点“创建新的虚拟机”: 2.会弹出一个“新建虚拟机向导”,类型选择“典型”,点击“下一步”: 3.选择“稍后安装操作系统”,点击“下一步”: 4.选择“Micr ...

  6. RHEL7.2 安装Hadoop-2.8.2

    创建三台虚拟机,IP地址为:192.168.169.101,192.168.169.102,192.168.169.103 将192.168.169.102为namenode,192.168.169. ...

  7. 超速入门AT指令集 | 我的物联网成长记

    [摘要] 在物联网中,AT命令集可用于控制&调测设备.通信模块入网等.本文为您介绍NB-IoT常用的AT命令集及其调测工具. 什么是AT指令集 AT命令,用来控制TE(Terminal Equ ...

  8. nslookup命令查找域名

    了解 DNS 域名服务 熟悉使用 nslookup 查找 DNS 服务器上登记的域名,记录几次查询的结果, 及服务器的 ip. 1. 某个子域下的一部分主机的名字- IP 地址对应关系,如 flame ...

  9. 【POJ 2823】【Luogu P1886】Sliding Window 滑动窗口

    POJ 2823 Luogu P1886 [解题思路] 这是一个单调队列算法的经典题目,几乎学习单调队列的人都接触过这题. 利用单调队列算法求出每一个固定区间内的最(大/小)值. 以下以最大值为例: ...

  10. 各种优化方法总结比较(sgd/momentum/Nesterov/adagrad/adadelta)

    前言 这里讨论的优化问题指的是,给定目标函数f(x),我们需要找到一组参数x,使得f(x)的值最小. 本文以下内容假设读者已经了解机器学习基本知识,和梯度下降的原理. Batch gradient d ...