跟 Google 学 machineLearning [1] -- hello sklearn

时至今日，我才发现 machineLearning 的应用门槛已经被降到了这么低，简直唾手可得。我实在找不到任何理由不对它进入深入了解。如标题，感谢 Google 为这项技术发展作出的贡献。当然，可能其他人做了 99%, Google 只做了 1%，我想说，真是漂亮的 1%。

切入正题，今天从 Youtube 上跟随 Google 的工程师完成了第一个 machineLearning 的小程序。作为学习这项技能的 hello world 吧。

是为记录。

 from scipy.spatial import distance

 def euc(a,b):

     return distance.(a,b)

 class knnClassifier():

     def fit(self, x_train, y_train):

         self.x_train = x_train

         self.y_train = y_train

     def predict(self, x_test):

         predictions = []

         for row in x_test:

             label = self.closest(row)

             predictions.append(label)

         return predictions

     def closest(self, row):

         best_dist = euc(row, self.x_train[0])

         best_index = 0

         for i in range(1, len(self.x_train)):

             dist = euc(row, self.x_train[i])

             if dist < best_dist:

                 best_dist = dist

                 best_index = i

         return self.y_train[best_index]

 from sklearn import datasets

 iris = datasets.load_iris()

 x = iris.data

 y = iris.target

 from sklearn.cross_validation import train_test_split

 x_train, x_test, y_train, y_test = train_test_split(x, y, test_size= .5)

 print x_train

 print y_train

 my_classifier = knnClassifier()

 my_classifier.fit(x_train, y_train)

 predictions = my_classifier.predict(x_test)

 from sklearn.metrics import accuracy_score

 print accuracy_score(y_test, predictions)

对上面的代码进行简单解释：

1. 1-3 行是引用 scipy 的 distance 类中计算欧氏距离的函数，并进行了简单封装。（欧氏距离：N 维空间中，两个点之间的真实距离）

2. 5-25 中，定义了自己的 classifier 类，关键方法包括了 fit 和 predict。fit 主要是将喂进来的数据赋值给内部变量；predict 是根据送进来的 row，返回我们预期的 Label。这里的 classifier 是我们 hand code 的，并不是训练出来的。事实上并不算是真正意义上的 machineLearning，但是很好的解释了其内部的原理。machineLearning 中，我们定义的 closet 函数，将通过训练的到，即 model。

3. 27-30, 在入了 sklearn 库中的 iris 花的数据库，作为我们后面实验的数据来源。iris_data 是三种花的原始数据，是一个三维数组。数组中每个元素代表一朵花的三个参数，分别是花的xx长度，花的xx宽度，和xx长度（我并不关系他是什么数据，反正是花的数据）；iris_target 是 data 相对应的花的种类，大概就是0表示红玫瑰，1表示蓝玫瑰，2表示粉玫瑰之类。

4. 32-35, 把载入的花朵数据 split 为两组，一组用做 train，作为预测的凭据，另一组作为检验 classifier 准确性的待测数据。验证时，因为验证组的数据对应的结果也是已知的，所以拿 classifier 出来的结果与真实值比较，便可知 classifier 是否合理。使用上面代码进行判定的成功率已经达到 >90%，事实上拿它来对未知新数据判定，结果可信度已经很高。

5. 37-39 ，应用了在 2 中定义的 classifier，将 4 中分割出来的 x_train, y_train 喂给 classifier。然后，使用 classifier 根据 x_test 中的花的数据，预测花的种类，得到对应的预测结果数组 predictions。

6. 41-42，比较真实的花的种类 y_test 与预测结果 predictions 之间的符合度。可以看到并不是 100%，信息总是会有遗漏的，哪怕是人眼来判断也一样。

因为载入的数据在 split 时，是随机的。所以，因为 train 组和 test 组数据的不同，预测的准确度也会稍有不同。

虽然这里的 classifier 已经有了很高的准确度，但是，不能回避的是，这样的计算比对，运算量是非常大的。同时，因为我们数据属性的关系，我们可以直接通过找最接近数据来进行预测，在其他一些应用中，某些属性并不是线性分布的，或者，并不是凭人眼能发现规律的。这时候，就需要真正的 train 了。

跟 Google 学 machineLearning [1] -- hello sklearn的更多相关文章

跟 Google 学 machineLearning [2] -- 关于 classifier.fit 的 warning
tensorfllow 的进化有点快.学习的很多例子已经很快的过时了,这里记录一些久的例子里被淘汰的方法,供后面参考. 我系统现在安装的是 tensorflow 1.4.1. 主要是使用了下面的代码后 ...
Google机器学习课程基于TensorFlow ： https://developers.google.cn/machine-learning/crash-course
Google机器学习课程基于TensorFlow : https://developers.google.cn/machine-learning/crash-course https ...
机器学习入门 - Google的机器学习速成课程
1 - MLCC 通过机器学习,可以有效地解读数据的潜在含义,甚至可以改变思考问题的方式,使用统计信息而非逻辑推理来处理问题. Google的机器学习速成课程(MLCC,machine-learnin ...
【机器学习】Google机器学习工程的43条最佳实践
https://blog.csdn.net/ChenVast/article/details/81449509 本文档旨在帮助那些掌握机器学习基础知识的人从Google机器学习的最佳实践中获益.它提供 ...
【阿里聚安全·安全周刊】Google“手枪”替换 | 伊朗中央银行禁止加密货币
本周七个关键词:Google"手枪"替换丨IOS 漏洞影响工业交换机丨伊朗中央银行禁止加密货币丨黑客针对医疗保健丨付费DDoS攻击丨数据获利的8种方式丨MySQL 8.0 正式版 ...
学习笔记之Machine Learning Crash Course | Google Developers
Machine Learning Crash Course | Google Developers https://developers.google.com/machine-learning/c ...
google学习
https://developers.google.com/machine-learning/crash-course/ https://developers.google.com/machine-l ...
Google发布机器学习术语表 (包括简体中文)
Google 工程教育团队已经发布了多语种的 Google 机器学习术语表,该术语表中列出了一般的机器学习术语和 TensorFlow 专用术语的定义.语言版本包括西班牙语,法语,韩语和简体中文. 查 ...
（原创）sklearn中 F1-micro 与 F1-macro区别和计算原理
最近在使用sklearn做分类时候,用到metrics中的评价函数,其中有一个非常重要的评价函数是F1值,(关于这个值的原理自行google或者百度) 在sklearn中的计算F1的函数为 f1_sc ...

随机推荐

gzip格式解压缩
gzip格式解压缩有时候网络请求中会出现gzip格式的数据,而我们无法通过常规办法进行解析: 这时候可以使用下面的这个工具来解决这个问题: https://github.com/mattt/Godz ...
linux设置允许和禁止访问的IP host.allow 和 host.deny
对于能过xinetd程序启动的网络服务,比如ftp telnet,我们就可以修改/etc/hosts.allow和/etc/hosts.deny的配制,来许可或者拒绝哪些IP.主机.用户可以访问. 比 ...
Linux下怎么确定Nginx安装目录
linux环境下,怎么确定nginx是以那个config文件启动的? 输入命令行: ps -ef | grep nginx 摁回车,将出现如下图片: master process 后面的就是 ngi ...
纸牌屋第一季/全集House of Cards迅雷下载
纸牌屋第一季 House of Cards Season 1 (2013) 本季看点:经过数轮激烈角逐,新一届美国总统加勒特·沃克(迈克·吉尔 Michael Gill 饰)诞生,自称水管工的众议院 ...
Gerrit代码审查工具
1 Gerrit简介 Gerrit,一种免费.开放源代码的代码审查软件,使用网页界面.利用网页浏览器,同一个团队的软件程序员,可以相互审阅彼此修改后的程序代码,决定是否能够提交,退回或者继续修改. 1 ...
TensorFlow的离线安装
主要通过whl方式进行配置. 1.1 Whl文件下载地址: https://www.lfd.uci.edu/~gohlke/pythonlibs/ 注意:必须安装numpy-mkl, ...
SpringBoot整合Quartz定时任务系统job Spring Boot教程调度任务
原文地址:https://www.cnblogs.com/allalongx/p/8477368.html 构建工程创建一个Springboot工程,在它的程序入口加上@EnableScheduli ...
东芝发布运行Win 10的AR眼镜，它和Google Glass企业版有哪些异同？
https://www.leiphone.com/news/201803/Tw0nrq6vGDIvbmXr.html 雷锋网(公众号:雷锋网)获悉,3月13日,东芝发布新AR眼镜dynaEdge AR ...
Ajax 中正常使用jquery-easyui (转)
一.ASP.NET Ajax 页面中应用了 jquery-easyui,当页面进行回发操作后只是局部刷新,原本的EASYUI 样式无法生效.解决这个问题的思路是让页面在回发后重新调用EASYUI进行重 ...
ASP.NET 网站管理工具介绍
有没有感觉对 web.config 的操作很烦呢? 老是手动来编辑 web.config 确实挺麻烦的, 不过自 ASP.NET 2.0 起便有了 ASP.NET 网站管理工具, 这个工具呢,其实就是 ...

跟 Google 学 machineLearning [1] -- hello sklearn

跟 Google 学 machineLearning [1] -- hello sklearn的更多相关文章

随机推荐

热门专题