K近邻 Python实现机器学习实战(Machine Learning in Action)

算法原理

K近邻是机器学习中常见的分类方法之间，也是相对最简单的一种分类方法，属于监督学习范畴。其实K近邻并没有显式的学习过程，它的学习过程就是测试过程。K近邻思想很简单：先给你一个训练数据集D，包括每个训练样本对应的标签。然后给你一个新的测试样本T，问你测试样本的标签预测是什么，K近邻的方法就是找到T到D中每一个样本的相似度，然后根据相似度大小对D中样本排序，取前K个最相似的样本的标签的众数作为测试样本T的标签（即前K个样本投票决定）。具体相似度怎么度量，是根据测试样本到D中每个训练样本的距离度量，一般用的最多的是欧氏距离，也可以更广泛的p范数（欧氏距离是2范数）。

例如：训练数据集D为二位数据，二维图如下图所示：

三种颜色分别代表三种比同类别的标签，现在给你一个新的测试样本T，只要放到图中取计算T到图中各点的距离，然后选取距离最近的K个点来投票决定测试样本属于哪一类（即是什么颜色）

K近邻算法实现

先给出算法实现，再详细解释各函数实现：

from numpy import *
import operator

import matplotlib
import matplotlib.pyplot as plot

#########Python做数据处理常用的三个工具包，定义了一些矩阵运算，画图，操作符函数接口######
def classify0(inX,dataSet,labels,k):
    dataSetSize=dataSet.shape[0]                                            #1
    diffMat=tile(inX,(dataSetSize,1))-dataSet                             #2
    sqDiffMat=diffMat**2                                                        #3
    sqDistances=sqDiffMat.sum(axis=1)                                    #4
    distances=sqDistances**0.5                                               #5
    sortedDistIndicies=distances.argsort()                                 #6
    classCount={}                                                                  #7
    for i in range(k):
        voteIlabel=labels[sortedDistIndicies[i]]                            #8
        classCount[voteIlabel]=classCount.get(voteIlabel,0)+1       #9
    sortedClasscount=sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True)     #10
    return sortedClasscount[0][0]                                                                                         #11

--------------------------分割线----------------------------------------

参数注释：第一个参数表示要测试的样本(n维向量)；第二个参数表示训练数据集矩阵（每一行是一个训练样本(m)，每一列是一个坐标维度(n)）；第三个参数是训练数据的样本标签向量(m)；第四个参数K是设置的最近的前K个最近的样本

#1：获取训练样本矩阵的行数(即训练数据集中样本数量)，array.shape 或者shape(array)是numpy库中函数接口，用来读书矩阵的行数和列数(numpy中矩阵一般用多维数组实现)。array.shape[0]表示行，array.shape[1]表示列。

#2 ：tile函数是numpy中的一种类似于扩展函数，对于列表而言，如inX=[1，2，3]

则tile（inX，[2,3]）=[[1,2,3,1,2,3,1,2,3] ,2表示扩展两行，3表示扩展成3列。在这里inX扩展后为

　　　　　　　　　　　[1,2,3,1,2,3,1,2,3]]

在这里inX扩展后为　,然后减去训练数据矩阵，得到该测试样本与各训练数据的各维度的差值

#3 各维度的差值平方，方便求欧式距离

#4 numpy.sum(axis)是矩阵求和函数，axis=0表示按行求和，axis=1表示按列求和，这里按列求和，得到测试样本点和训练数据样本点在各维度上的差值的平方和

#5得到的矢量每一列开方

#6对distances矢量排序。array.argsort()是numpy中的排序函数，返回的是按顺序的各值在原列表中的索引，如a=[3 5 6 1]

a.argsort()=[3 0 1 2],因为排完序后是[1 3 5 6],对应在原数组中的位置为[3 0 1 2],默认是按升序排序。此函数的具体其他用法请自己参考其它资料，网上很多。

#7字典，用来存储前K个距离最近的训练样本，其中的key存储K个样本的标签，value存储对应的距离。

#8从距离最小的训练样本点开始，把各点的标签存储进key

#9投票，当前训练样本如果是属于某一标签，就把该key值对应的value加1，如果之前还没出现过该标签，则创建该标签key，并设置默认value值为0

#10对字典内的各键值对按值排序，即按各类别的投票数排序，按降序排序，得到排序后的字典sortedClasscount

#11返回字典的第一个键值对的键值，即标签，作为检测样本的预测标签

--------------------------------分割线------------------------------------

机器学习实战中(Machine Learning in Action)的约会对象分类和手写识别源代码和data文件如有需要，可发邮件到Tjingang@ustc.mail.edu.cn

K近邻 Python实现机器学习实战(Machine Learning in Action)的更多相关文章

学习笔记之机器学习实战 (Machine Learning in Action)
机器学习实战 (豆瓣) https://book.douban.com/subject/24703171/ 机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中 ...
机器学习实战 [Machine learning in action]
内容简介机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中萃取有价值的信息或模式,成为各行业求生存.谋发展的决定性手段,这使得这一过去为分析师和数学家所专属 ...
《Machine Learning in Action》—— 剖析支持向量机，单手狂撕线性SVM
<Machine Learning in Action>-- 剖析支持向量机,单手狂撕线性SVM 前面在写NumPy文章的结尾处也有提到,本来是打算按照<机器学习实战 / Machi ...
机器学习实战（Machine Learning in Action）学习笔记————09.利用PCA简化数据
机器学习实战(Machine Learning in Action)学习笔记————09.利用PCA简化数据关键字:PCA.主成分分析.降维作者:米仓山下时间:2018-11-15机器学习实战(Ma ...
机器学习实战（Machine Learning in Action）学习笔记————05.Logistic回归
机器学习实战(Machine Learning in Action)学习笔记————05.Logistic回归关键字:Logistic回归.python.源码解析.测试作者:米仓山下时间:2018- ...
机器学习实战（Machine Learning in Action）学习笔记————02.k-邻近算法（KNN）
机器学习实战(Machine Learning in Action)学习笔记————02.k-邻近算法(KNN) 关键字:邻近算法(kNN: k Nearest Neighbors).python.源 ...
【机器学习实战】Machine Learning in Action 代码视频项目案例
MachineLearning 欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远 Machine Learning in Action (机器学习实战) | ApacheCN(apa ...
机器学习实战（Machine Learning in Action）学习笔记————08.使用FPgrowth算法来高效发现频繁项集
机器学习实战(Machine Learning in Action)学习笔记————08.使用FPgrowth算法来高效发现频繁项集关键字:FPgrowth.频繁项集.条件FP树.非监督学习作者:米 ...
机器学习实战（Machine Learning in Action）学习笔记————07.使用Apriori算法进行关联分析
机器学习实战(Machine Learning in Action)学习笔记————07.使用Apriori算法进行关联分析关键字:Apriori.关联规则挖掘.频繁项集作者:米仓山下时间:2018 ...

随机推荐

华硕ASUS笔记本中间5个指示灯分别表示什么
1.图案像个灯的叫电源状态指示灯:当笔记本电脑启动时,电源状态指示灯便会亮起来并会在笔记本电脑进入休眠模式(Sleep Mode,Suspend-to-RAM)时缓慢闪烁.当笔记本电脑关机或进入休眠模 ...
JQuery和Ajax在ASP.NET MVC中的基本应用
当我们在开发Web应用程序中使用JQuery和Ajax异步调用来实现很多功能时,不仅提高了程序的性能,而且给用户一个更好的交互式界面操作体验.接下来我们依旧用简单的实例来学习下它们的应用. 创建一个A ...
WP8.1程序开发，可视树VisualTreeHelper类的使用
对于可视树的使用,很久之前就接触了, 一方面当时知识太浅根本看不懂,就放下没看了: 另一方面,也没用到,就没往这方面努力研究学习: 现在好了,遇到问题了,正好涉及到VisualTreeHelper的使 ...
iOS开发——设计模式那点事
单例模式(Singleton) 概念:整个应用或系统只能有该类的一个实例在iOS开发我们经常碰到只需要某类一个实例的情况,最常见的莫过于对硬件参数的访问类,比如UIAccelerometer.这个类 ...
【前端】:jQuery实例
前言: 今天2月最后一天,写一篇jQuery的几个实例,算是之前前端知识的应用.写完这篇博客会做一个登陆界面+后台管理(i try...) 一.菜单实例最开始的界面: 点击菜单三后的界面: < ...
H5缓存-Manifest
在app中更新h5页面一直有缓存问题.默认什么都不做的情况下,app有一定的空间缓存页面.一开始更新之后会马上加载,等到app缓存空间上来之后更新就无法下载了.安卓能够清理缓存空间,ios就只能卸载重 ...
C#基础运算符
运算符分为5类-- 1.算数运算符[加加(++) 减减(--) 加(+) 减(-) 乘(*) 除(/) 取余(%)] (1)前++和后++的区别 using System; using ...
Android中使用findViewByMe提升组件查找效率
1.引出安卓初学者一般在写android Activity的时候总是会在onCreate方法中加上setContentView方法来加载layout,通过findViewById来实现控件的绑定,刚 ...
2017-03-10 T-sql 语句高级查询
T-SQL语句: 创建数据库: 1,点击新建查询,在弹出的页面上进行代码编写.点击可用数据库,编写前确定当前操作的页面是自己想要进行操作的界面. 2,数据库创建语句 Create datebase ...
KoaHub.JS基于Node.js开发的mysql的node.js驱动程序代码
mysql A node.js driver for mysql. It is written in JavaScript, does not require compiling, and is 10 ...

K近邻 Python实现 机器学习实战(Machine Learning in Action)

K近邻 Python实现 机器学习实战(Machine Learning in Action)的更多相关文章

随机推荐

热门专题

K近邻 Python实现机器学习实战(Machine Learning in Action)

K近邻 Python实现机器学习实战(Machine Learning in Action)的更多相关文章