算法原理

K近邻是机器学习中常见的分类方法之间,也是相对最简单的一种分类方法,属于监督学习范畴。其实K近邻并没有显式的学习过程,它的学习过程就是测试过程。K近邻思想很简单:先给你一个训练数据集D,包括每个训练样本对应的标签。然后给你一个新的测试样本T,问你测试样本的标签预测是什么,K近邻的方法就是找到T到D中每一个样本的相似度,然后根据相似度大小对D中样本排序,取前K个最相似的样本的标签的众数作为测试样本T的标签(即前K个样本投票决定)。具体相似度怎么度量,是根据测试样本到D中每个训练样本的距离度量,一般用的最多的是欧氏距离,也可以更广泛的p范数(欧氏距离是2范数)。

例如:训练数据集D为二位数据,二维图如下图所示:

三种颜色分别代表三种比同类别的标签,现在给你一个新的测试样本T,只要放到图中取计算T到图中各点的距离,然后选取距离最近的K个点来投票决定测试样本属于哪一类(即是什么颜色)

K近邻算法实现

先给出算法实现,再详细解释各函数实现:

from numpy import * 
import operator

import matplotlib
import matplotlib.pyplot as plot

#########Python做数据处理常用的三个工具包,定义了一些矩阵运算,画图,操作符函数接口######
def classify0(inX,dataSet,labels,k):
    dataSetSize=dataSet.shape[0]                                            #1
    diffMat=tile(inX,(dataSetSize,1))-dataSet                             #2
    sqDiffMat=diffMat**2                                                        #3
    sqDistances=sqDiffMat.sum(axis=1)                                    #4
    distances=sqDistances**0.5                                               #5
    sortedDistIndicies=distances.argsort()                                 #6
    classCount={}                                                                  #7
    for i in range(k):
        voteIlabel=labels[sortedDistIndicies[i]]                            #8
        classCount[voteIlabel]=classCount.get(voteIlabel,0)+1       #9
    sortedClasscount=sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True)     #10
    return sortedClasscount[0][0]                                                                                         #11

--------------------------分割线----------------------------------------

参数注释:第一个参数表示要测试的样本(n维向量);第二个参数表示训练数据集矩阵(每一行是一个训练样本(m),每一列是一个坐标维度(n));第三个参数是训练数据的样本标签向量(m);第四个参数K是设置的最近的前K个最近的样本

#1:获取训练样本矩阵的行数(即训练数据集中样本数量),array.shape 或者shape(array)是numpy库中函数接口,用来读书矩阵的行数和列数(numpy中矩阵一般用多维数组实现)。array.shape[0]表示行,array.shape[1]表示列。

#2 :tile函数是numpy中的一种类似于扩展函数,对于列表而言,如inX=[1,2,3]

则tile(inX,[2,3])=[[1,2,3,1,2,3,1,2,3] ,2表示扩展两行,3表示扩展成3列。在这里inX扩展后为

           [1,2,3,1,2,3,1,2,3]]

在这里inX扩展后为 ,然后减去训练数据矩阵,得到该测试样本与各训练数据的各维度的差值

#3 各维度的差值平方,方便求欧式距离

#4 numpy.sum(axis)是矩阵求和函数,axis=0表示按行求和,axis=1表示按列求和,这里按列求和,得到测试样本点和训练数据样本点在各维度上的差值的平方和

#5得到的矢量每一列开方

#6对distances矢量排序。array.argsort()是numpy中的排序函数,返回的是按顺序的各值在原列表中的索引,如a=[3 5 6 1]

a.argsort()=[3 0 1 2],因为排完序后是[1 3 5 6],对应在原数组中的位置为[3 0 1 2],默认是按升序排序。此函数的具体其他用法请自己参考其它资料,网上很多。

#7字典,用来存储前K个距离最近的训练样本,其中的key存储K个样本的标签,value存储对应的距离。

#8从距离最小的训练样本点开始,把各点的标签存储进key

#9投票,当前训练样本如果是属于某一标签,就把该key值对应的value加1,如果之前还没出现过该标签,则创建该标签key,并设置默认value值为0

#10对字典内的各键值对按值排序,即按各类别的投票数排序,按降序排序,得到排序后的字典sortedClasscount

#11返回字典的第一个键值对的键值,即标签,作为检测样本的预测标签

--------------------------------分割线------------------------------------

机器学习实战中(Machine Learning in Action)的约会对象分类和手写识别源代码和data文件如有需要,可发邮件到Tjingang@ustc.mail.edu.cn

K近邻 Python实现 机器学习实战(Machine Learning in Action)的更多相关文章

  1. 学习笔记之机器学习实战 (Machine Learning in Action)

    机器学习实战 (豆瓣) https://book.douban.com/subject/24703171/ 机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中 ...

  2. 机器学习实战 [Machine learning in action]

    内容简介 机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中萃取有价值的信息或模式,成为各行业求生存.谋发展的决定性手段,这使得这一过去为分析师和数学家所专属 ...

  3. 《Machine Learning in Action》—— 剖析支持向量机,单手狂撕线性SVM

    <Machine Learning in Action>-- 剖析支持向量机,单手狂撕线性SVM 前面在写NumPy文章的结尾处也有提到,本来是打算按照<机器学习实战 / Machi ...

  4. 机器学习实战(Machine Learning in Action)学习笔记————09.利用PCA简化数据

    机器学习实战(Machine Learning in Action)学习笔记————09.利用PCA简化数据 关键字:PCA.主成分分析.降维作者:米仓山下时间:2018-11-15机器学习实战(Ma ...

  5. 机器学习实战(Machine Learning in Action)学习笔记————05.Logistic回归

    机器学习实战(Machine Learning in Action)学习笔记————05.Logistic回归 关键字:Logistic回归.python.源码解析.测试作者:米仓山下时间:2018- ...

  6. 机器学习实战(Machine Learning in Action)学习笔记————02.k-邻近算法(KNN)

    机器学习实战(Machine Learning in Action)学习笔记————02.k-邻近算法(KNN) 关键字:邻近算法(kNN: k Nearest Neighbors).python.源 ...

  7. 【机器学习实战】Machine Learning in Action 代码 视频 项目案例

    MachineLearning 欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远 Machine Learning in Action (机器学习实战) | ApacheCN(apa ...

  8. 机器学习实战(Machine Learning in Action)学习笔记————08.使用FPgrowth算法来高效发现频繁项集

    机器学习实战(Machine Learning in Action)学习笔记————08.使用FPgrowth算法来高效发现频繁项集 关键字:FPgrowth.频繁项集.条件FP树.非监督学习作者:米 ...

  9. 机器学习实战(Machine Learning in Action)学习笔记————07.使用Apriori算法进行关联分析

    机器学习实战(Machine Learning in Action)学习笔记————07.使用Apriori算法进行关联分析 关键字:Apriori.关联规则挖掘.频繁项集作者:米仓山下时间:2018 ...

随机推荐

  1. 华硕ASUS笔记本 中间5个指示灯分别表示什么

    1.图案像个灯的叫电源状态指示灯:当笔记本电脑启动时,电源状态指示灯便会亮起来并会在笔记本电脑进入休眠模式(Sleep Mode,Suspend-to-RAM)时缓慢闪烁.当笔记本电脑关机或进入休眠模 ...

  2. JQuery和Ajax在ASP.NET MVC中的基本应用

    当我们在开发Web应用程序中使用JQuery和Ajax异步调用来实现很多功能时,不仅提高了程序的性能,而且给用户一个更好的交互式界面操作体验.接下来我们依旧用简单的实例来学习下它们的应用. 创建一个A ...

  3. WP8.1程序开发,可视树VisualTreeHelper类的使用

    对于可视树的使用,很久之前就接触了, 一方面当时知识太浅根本看不懂,就放下没看了: 另一方面,也没用到,就没往这方面努力研究学习: 现在好了,遇到问题了,正好涉及到VisualTreeHelper的使 ...

  4. iOS开发——设计模式那点事

    单例模式(Singleton) 概念:整个应用或系统只能有该类的一个实例 在iOS开发我们经常碰到只需要某类一个实例的情况,最常见的莫过于对硬件参数的访问类,比如UIAccelerometer.这个类 ...

  5. 【前端】:jQuery实例

    前言: 今天2月最后一天,写一篇jQuery的几个实例,算是之前前端知识的应用.写完这篇博客会做一个登陆界面+后台管理(i try...) 一.菜单实例 最开始的界面: 点击菜单三后的界面: < ...

  6. H5缓存-Manifest

    在app中更新h5页面一直有缓存问题.默认什么都不做的情况下,app有一定的空间缓存页面.一开始更新之后会马上加载,等到app缓存空间上来之后更新就无法下载了.安卓能够清理缓存空间,ios就只能卸载重 ...

  7. C#基础 运算符

    运算符分为5类-- 1.算数运算符[加加(++)   减减(--)  加(+)  减(-)  乘(*)  除(/)  取余(%)] (1)前++和后++的区别 using System; using ...

  8. Android中使用findViewByMe提升组件查找效率

    1.引出 安卓初学者一般在写android Activity的时候总是会在onCreate方法中加上setContentView方法来加载layout,通过findViewById来实现控件的绑定,刚 ...

  9. 2017-03-10 T-sql 语句 高级查询

    T-SQL语句: 创建数据库: 1,点击新建查询,在弹出的页面上进行代码编写.点击可用数据库,编写前确定当前操作的页面是自己想要进行操作的界面. 2,数据库创建语句 Create datebase   ...

  10. KoaHub.JS基于Node.js开发的mysql的node.js驱动程序代码

    mysql A node.js driver for mysql. It is written in JavaScript, does not require compiling, and is 10 ...