Google机器学习笔记 4-5-6 分类器
转载请注明作者:梦里风林
Google Machine Learning Recipes 4
官方中文博客 - 视频地址
Github工程地址 https://github.com/ahangchen/GoogleML
欢迎Star,也欢迎到Issue区讨论
Recipes 4 Let’s Write a Pipeline
复习与强化概念
- 监督学习基础套路
- 例子: 一个用于举报邮件的分类器
关键在于举报新的邮件
- Train vs Test:隔离训练集,测试集以验证训练效果
f(x) = y
feature: x, label: y, classifier其实就是一个feature到label的函数
可以从sklearn中import各种分类器进行训练,各种分类器有类似的接口
这些不同分类器都可以解决类似的问题
- 让算法从数据中学习到底是什么
- 拒绝手工写分类规则代码
- 本质上,是学习feature到label,从输入到输出的函数
- 从一个模型开始,用规则来定义函数
- 根据训练数据调整函数参数
- 从我们发现规律的方法中,找到model
- 比如一条划分两类点的线就是一个分类器的model,调整参数就能得到我们想要的分类器:

Example of Neural Network
Recipes 5 Writing Our First Classifier
- 从底层实现一个分类器
目标
实现一个K近邻(k-Nearest Neighbour)问题
K Nearest Neighbour

- 对于一个测试点,看它最近的邻居属于那个类别
- 考虑最近邻居的时候,我们可以综合考虑与这个点距离最近的K个点,看它们中有多少输入类别A,多少属于类别B
- 距离:两点间的直线距离(Euclidean Distance)

- 即考虑各个feature之间差异的平方和
实现
- 在Lesson4的基础上进行,我们在lesson4中使用了KNeighborsClassifier()作为分类器,现在我们要实现这个分类器
- ScrappyKNN:最简单的一个K近邻分类器
- 接口:
- fit:用于训练,将训练集的feature和label作为输入
- predict: prediction,将测试集的feature作为输入,输出预测的label
- Random Classifier
- 随机挑一个label作为预测输出,由于我们是在三种花的结果中随机挑取一种花作为结果,所以结果大概在33%
- KNN:
- 设置k=1,也就是我们只考虑最近的那个点属于那个类别
- 用scipy.spatial.distance来计算距离
- 返回测试点最近邻的label
结论
- 准确率:90%以上(这里也可能看出feature选得好的重要性)
- 优点:非常简单
- 缺点:耗时;不能表示复杂的东西;
Recipes 6 Train an Image Classifier with TensorFlow for Poets
目标
区分图片之间的差异
工具
TensorFlow for Poets
- 高度封装
- 效果奇佳
- 只需要目录中的图片和目录名字作为label,不需要预设feature
数据
- 找出图片中五种花的差异
- 下载地址:http://download.tensorflow.org/example_images/flower_photos.tgz
- 如果你想要用其他的图片类型,你只需要创建一个新的文件夹,放入对应类型的100张以上的图片
- 不需要像Iris数据集那样有预设的feature
分类器
- TensorFlow
- TensorFlow擅长于Deep learning
- 由于提取特征很困难,因为世界上的变数太多了,所以深度学习自动提取特征的功能变得很重要
- TFLearn:高阶的机器学习库
- Image Classifier
- 直接从像素级数据提取特征
- 神经网络
- 可以学习更复杂的函数
实现
- 由于官方视频教程中的语法格式使用的是nightly版本tensorflow的格式,因此对代码稍作修改
- 参考Github·TensorFlow·Issue
- 参考Github·TensorFlow·Skflow·Example
- TensorFlow处理Iris问题
- TensorFlow直接识别文件夹图片
- 耗时大概20分钟
- 基于Inception训练分类器retrain
- Transfer Learning:重用Inception的一些参数
后话
- 图像识别关键在于:Diversity and quantity
- Diversity:样本多样性越多,对新事物的预测能力越强
- Quantity:样本数量越多,分类器越强大
觉得我的文章对您有帮助的话,就给个star吧~
Google机器学习笔记 4-5-6 分类器的更多相关文章
- Google机器学习笔记(七)TF.Learn 手写文字识别
转载请注明作者:梦里风林 Google Machine Learning Recipes 7 官方中文博客 - 视频地址 Github工程地址 https://github.com/ahangchen ...
- 机器学习入门 - Google机器学习速成课程 - 笔记汇总
机器学习入门 - Google机器学习速成课程 https://www.cnblogs.com/anliven/p/6107783.html MLCC简介 前提条件和准备工作 完成课程的下一步 机器学 ...
- 机器学习笔记5-Tensorflow高级API之tf.estimator
前言 本文接着上一篇继续来聊Tensorflow的接口,上一篇中用较低层的接口实现了线性模型,本篇中将用更高级的API--tf.estimator来改写线性模型. 还记得之前的文章<机器学习笔记 ...
- 【机器学习】Google机器学习工程的43条最佳实践
https://blog.csdn.net/ChenVast/article/details/81449509 本文档旨在帮助那些掌握机器学习基础知识的人从Google机器学习的最佳实践中获益.它提供 ...
- Python机器学习笔记:使用Keras进行回归预测
Keras是一个深度学习库,包含高效的数字库Theano和TensorFlow.是一个高度模块化的神经网络库,支持CPU和GPU. 本文学习的目的是学习如何加载CSV文件并使其可供Keras使用,如何 ...
- Python机器学习笔记:sklearn库的学习
网上有很多关于sklearn的学习教程,大部分都是简单的讲清楚某一方面,其实最好的教程就是官方文档. 官方文档地址:https://scikit-learn.org/stable/ (可是官方文档非常 ...
- Python机器学习笔记:不得不了解的机器学习面试知识点(1)
机器学习岗位的面试中通常会对一些常见的机器学习算法和思想进行提问,在平时的学习过程中可能对算法的理论,注意点,区别会有一定的认识,但是这些知识可能不系统,在回答的时候未必能在短时间内答出自己的认识,因 ...
- 【转】机器学习笔记之(3)——Logistic回归(逻辑斯蒂回归)
原文链接:https://blog.csdn.net/gwplovekimi/article/details/80288964 本博文为逻辑斯特回归的学习笔记.由于仅仅是学习笔记,水平有限,还望广大读 ...
- Python机器学习笔记:不得不了解的机器学习知识点(2)
之前一篇笔记: Python机器学习笔记:不得不了解的机器学习知识点(1) 1,什么样的资料集不适合用深度学习? 数据集太小,数据样本不足时,深度学习相对其它机器学习算法,没有明显优势. 数据集没有局 ...
随机推荐
- Django学习(六) 模板
下面是一个新闻的模板:mysite/news/templates/news/year_archive.html mysite/news/templates/news/year_archive.html ...
- 动态PDF在线预览
实战动态PDF在线预览及带签名的PDF文件转换 开篇语: 最近工作需要做一个借款合同,公司以前的合同都是通过app端下载,然后通过本地打开pdf文件,而喜欢创新的我,心想着为什么不能在线H5预览,正是 ...
- DOSUSB 2.0 免费版的限制原理
两年前,我在写USB的文章时,多次提到了DOSUSB这个东东,这两年也没有关注这方面的变化,最近,有机会重新进入DOSUSB的官方网站(www.dosusb.net),欣喜地发现,这个网站不仅依然存在 ...
- Lars Knoll 宣布了Qt 5有四大目标
作者:廖梓跃链接:http://www.zhihu.com/question/19636309/answer/13097572来源:知乎著作权归作者所有,转载请联系作者获得授权. 自诺基亚宣布转向Wi ...
- WPF笔记(1.2 Navigation导航)——Hello,WPF!
原文:WPF笔记(1.2 Navigation导航)--Hello,WPF! 这一节是讲导航的.看了一遍,发现多不能实现,因为版本更新了,所以很多旧的语法不支持了,比如说,不再有NavigationA ...
- Luci流程分析(openwrt下)
1. 页面请求: 1.1. 代码结构 在openwrt文件系统中,lua语言的代码不要编译,类似一种脚本语言被执行,还有一些uhttpd服务器的主目录,它们是: /www/index.html cgi ...
- python使用post登陆电子科大信息门户并保存登陆后页面
python使用post登陆电子科大信息门户并保存登陆后页面 作者:vpoet mail:vpoet_sir@163.com #coding=utf-8 import HTMLParser impor ...
- HDU1754(线段树)
I Hate It Time Limit: 9000/3000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total S ...
- (step6.1.3)hdu 1875(畅通工程再续——最小生成树)
题目大意:本题是中文题,可以直接在OJ上看 解题思路:最小生成树 1)本题的关键在于把二维的点转化成一维的点 for (i = 0; i < n; ++i) { scanf("%d%d ...
- zb的生日(暴搜dfs)
zb的生日 时间限制:3000 ms | 内存限制:65535 KB 难度:2 描述 今天是阴历七月初五,acm队员zb的生日.zb正在和C小加.never在武汉集训.他想给这两位兄弟买点什么 ...