Google机器学习笔记（七）TF.Learn 手写文字识别

转载请注明作者：梦里风林

Google Machine Learning Recipes 7

官方中文博客 - 视频地址

Github工程地址 https://github.com/ahangchen/GoogleML

欢迎Star，也欢迎到Issue区讨论

mnist问题

计算机视觉领域的Hello world
给定55000个图片，处理成28*28的二维矩阵，矩阵中每个值表示一个像素点的灰度，作为feature
给定每张图片对应的字符，作为label，总共有10个label，是一个多分类问题

TensorFlow

可以按教程用Docker安装，也可以直接在Linux上安装
你可能会担心，不用Docker的话怎么开那个notebook呢？其实notebook就在主讲人的Github页上
可以用这个Chrome插件:npviewer直接在浏览器中阅读ipynb格式的文件，而不用在本地启动iPython notebook
我们的教程在这里：ep7.ipynb
把代码从ipython notebook中整理出来：tflearn_mnist.py

代码分析

下载数据集

mnist = learn.datasets.load_dataset('mnist')

恩，就是这么简单，一行代码下载解压mnist数据，每个img已经灰度化成长784的数组，每个label已经one-hot成长度10的数组

在我的深度学习笔记看One-hot是什么东西

numpy读取图像到内存，用于后续操作，包括训练集（只取前10000个）和验证集

data = mnist.train.images

labels = np.asarray(mnist.train.labels, dtype=np.int32)

test_data = mnist.test.images

test_labels = np.asarray(mnist.test.labels, dtype=np.int32)

max_examples = 10000

data = data[:max_examples]

labels = labels[:max_examples]

可视化图像

def display(i):

    img = test_data[i]

    plt.title('Example %d. Label: %d' % (i, test_labels[i]))

    plt.imshow(img.reshape((28, 28)), cmap=plt.cm.gray_r)

    plt.show()

用matplotlib展示灰度图

训练分类器
- 提取特征（这里每个图的特征就是784个像素值）

feature_columns = learn.infer_real_valued_columns_from_input(data)

创建线性分类器并训练

classifier = learn.LinearClassifier(feature_columns=feature_columns, n_classes=10)

classifier.fit(data, labels, batch_size=100, steps=1000)

注意要制定n_classes为labels的数量

分类器实际上是在根据每个feature判断每个label的可能性，
不同的feature有的重要，有的不重要，所以需要设置不同的权重
一开始权重都是随机的，在fit的过程中，实际上就是在调整权重

最后可能性最高的label就会作为预测输出
传入测试集，预测，评估分类效果

result = classifier.evaluate(test_data, test_labels)

print result["accuracy"]

速度非常快，而且准确率达到91.4%

可以只预测某张图，并查看预测是否跟实际图形一致

# here's one it gets right

print ("Predicted %d, Label: %d" % (classifier.predict(test_data[0]), test_labels[0]))

display(0)

# and one it gets wrong

print ("Predicted %d, Label: %d" % (classifier.predict(test_data[8]), test_labels[8]))

display(8)

可视化权重以了解分类器的工作原理

weights = classifier.weights_

a.imshow(weights.T[i].reshape(28, 28), cmap=plt.cm.seismic)

这里展示了8个张图中，每个像素点（也就是feature）的weights，
红色表示正的权重，蓝色表示负的权重
作用越大的像素，它的颜色越深，也就是权重越大
所以权重中红色部分几乎展示了正确的数字

Next steps

Google机器学习笔记（七）TF.Learn 手写文字识别的更多相关文章

Atitit s2018.2 s2 doc list on home ntpc.docx \Atiitt uke制度体系法律法规规章条例国王诏书.docx \Atiitt 手写文字识别讯飞科大语音云.docx \Atitit 代码托管与虚拟主机.docx \Atitit 企业文化每日心灵鸡汤值班发布.docx \Atitit 几大研发体系对比 Stage-Gat
Atitit s2018.2 s2 doc list on home ntpc.docx \Atiitt uke制度体系法律法规规章条例国王诏书.docx \Atiitt 手写文字识别 ...
机器学习（二）-kNN手写数字识别
一.kNN算法是机器学习的入门算法,其中不涉及训练,主要思想是计算待测点和参照点的距离,选取距离较近的参照点的类别作为待测点的的类别. 1,距离可以是欧式距离,夹角余弦距离等等. 2,k值不能选择太大 ...
SVM学习笔记（二）----手写数字识别
引言上一篇博客整理了一下SVM分类算法的基本理论问题,它分类的基本思想是利用最大间隔进行分类,处理非线性问题是通过核函数将特征向量映射到高维空间,从而变成线性可分的,但是运算却是在低维空间运行的.考 ...
5 TensorFlow入门笔记之RNN实现手写数字识别
------------------------------------ 写在开头:此文参照莫烦python教程(墙裂推荐!!!) ---------------------------------- ...
【机器学习】BP神经网络实现手写数字识别
最近用python写了一个实现手写数字识别的BP神经网络,BP的推导到处都是,但是一动手才知道,会理论推导跟实现它是两回事.关于BP神经网络的实现网上有一些代码,可惜或多或少都有各种问题,在下手写了一 ...
tensorflow创建cnn网络进行中文手写文字识别
数据集下载地址:http://www.nlpr.ia.ac.cn/databases/handwriting/download.html chinese_write_detection.py # -* ...
吴恩达机器学习笔记61-应用实例：图片文字识别(Application Example: Photo OCR)【完结】
最后一章内容,主要是OCR的实例,很多都是和经验或者实际应用有关:看完了,总之,善始善终,继续加油!! 一.图像识别(店名识别)的步骤: 图像文字识别应用所作的事是,从一张给定的图片中识别文字.这比从 ...
机器学习框架ML.NET学习笔记【4】多元分类之手写数字识别
一.问题与解决方案通过多元分类算法进行手写数字识别,手写数字的图片分辨率为8*8的灰度图片.已经预先进行过处理,读取了各像素点的灰度值,并进行了标记. 其中第0列是序号(不参与运算).1-64列是像 ...
机器学习框架ML.NET学习笔记【5】多元分类之手写数字识别（续）
一.概述上一篇文章我们利用ML.NET的多元分类算法实现了一个手写数字识别的例子,这个例子存在一个问题,就是输入的数据是预处理过的,很不直观,这次我们要直接通过图片来进行学习和判断.思路很简单,就是 ...

随机推荐

tomcat文件夹与文件解析
今天看到一篇不错的文章,如下: /bin:存放启动和关闭tomcat的脚本文件: /conf:存放tomcat的各种配置文件,比如:server.xml/ server/lib:存放tomcat服务器 ...
RSYSLOG没那么简单
定义系统默认的日志收集还算EASY. 但如何在公司项目里要配置程序员们写的自定义日志,那可能就要用到LOCAL及FILTER过滤这些东东了... 慢慢走吧.. 收集URL备用,都是讲LOCAL,TEM ...
LeetCode_Permutation Sequence
The set [1,2,3,…,n] contains a total of n! unique permutations. By listing and labeling all of the p ...
利用好CSS,实现Qt控件美化
一.CSS概念级联样式表 (CSS) 包含应用于网页中的元素的样式规则.CSS 样式定义元素的显示方式以及元素在页中的放置位置.可以创建一个通用规则,只要 Web 浏览器遇到一个元素实例,或遇到一个 ...
android开发论坛
http://www.hiapk.com/ http://bbs.hiapk.com/ http://bbs.gfan.com/ http://bbs.anzhi.com/ http://www.ap ...
【转】 boot.img的解包与打包
原文网址:http://blog.csdn.net/wh_19910525/article/details/8200372 Android 产品中,内核格式是Linux标准的zImage,根文件系统采 ...
【转】win7与ubuntu双系统，删除ubuntu后，启动错误error：no such partition grub rescue的修复--不错
原文网址:http://blog.sina.com.cn/s/blog_541900d50101eu9r.html win7于ubuntu双系统,进入windows后直接格式化硬盘分区将ubuntu删 ...
acdream：Andrew Stankevich Contest 3：Two Cylinders：数值积分
Two Cylinders Special JudgeTime Limit: 10000/5000MS (Java/Others)Memory Limit: 128000/64000KB (Java/ ...
hdu4622-Reincarnation(后缀自动机)
Problem Description Now you are back,and have a task to do:Given you a string s consist of lower-cas ...
apache2 httpd 基于域名的虚拟主机配置 for centos6X 和debian-8
全系统虚拟主机: for debian 系统的apache2 域名虚拟主机

Google机器学习笔记（七）TF.Learn 手写文字识别

mnist问题

TensorFlow

代码分析

Next steps

Google机器学习笔记（七）TF.Learn 手写文字识别的更多相关文章

随机推荐

热门专题