Machine Learning in Action(1) K-近邻

机器学习分两大类，有监督学习(supervised learning)和无监督学习(unsupervised learning)。有监督学习又可分两类：分类（classification.）和回归（regression），分类的任务就是把一个样本划为某个已知类别，每个样本的类别信息在训练时需要给定，比如人脸识别、行为识别、目标检测等都属于分类。回归的任务则是预测一个数值，比如给定房屋市场的数据（面积，位置等样本信息）来预测房价走势。而无监督学习也可以成两类：聚类（clustering）和密度估计（density estimation）,聚类则是把一堆数据聚成弱干组，没有类别信息；密度估计则是估计一堆数据的统计参数信息来描述数据,比如深度学习的RBM。

根据机器学习实战讲解顺序，先学习K近邻法（K Nearest Neighbors-KNN）

K近邻法是有监督学习方法，原理很简单，假设我们有一堆分好类的样本数据，分好类表示每个样本都一个对应的已知类标签，当来一个测试样本要我们判断它的类别是，就分别计算到每个样本的距离，然后选取离测试样本最近的前K个样本的标签累计投票，得票数最多的那个标签就为测试样本的标签。

例子（电影分类）：

（图一）

（图一）中横坐标表示一部电影中的打斗统计个数，纵坐标表示接吻次数。我们要对（图一）中的问号这部电影进行分类，其他几部电影的统计数据和类别如（图二）所示：

（图二）

从（图二）中可以看出有三部电影的类别是Romance,有三部电影的类别是Action,那如何判断问号表示的这部电影的类别？根据KNN原理,我们需要在（图一）所示的坐标系中计算问号到所有其他电影之间的距离。计算出的欧式距离如（图三）所示：

（图三）

由于我们的标签只有两类，那假设我们选K=6/2=3,由于前三个距离最近的电影都是Romance,那么问号表示的电影被判定为Romance。

代码实战（Python版本）：

先来看看KNN的实现：

 from numpy import *

 import operator

 from os import listdir

 def classify0(inX, dataSet, labels, k):

     dataSetSize = dataSet.shape[0]    #获取一条样本大小

     diffMat = tile(inX, (dataSetSize,1)) - dataSet  #计算距离

     sqDiffMat = diffMat**2    #计算距离

     sqDistances = sqDiffMat.sum(axis=1)   #计算距离

     distances = sqDistances**0.5   #计算距离

     sortedDistIndicies = distances.argsort()  #距离排序

     classCount={}          

     for i in range(k):

         voteIlabel = labels[sortedDistIndicies[i]]    #前K个距离最近的投票统计

         classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1  #前K个距离最近的投票统计

     sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)  #对投票统计进行排序

     return sortedClassCount[0][0]   #返回最高投票的类别

下面取一些样本测试KNN：

 def file2matrix(filename):

     fr = open(filename)

     numberOfLines = len(fr.readlines())         #get the number of lines in the file

     returnMat = zeros((numberOfLines,3))        #prepare matrix to return

     classLabelVector = []                       #prepare labels return

     fr = open(filename)

     index = 0

     for line in fr.readlines():

         line = line.strip()

         listFromLine = line.split('\t')

         returnMat[index,:] = listFromLine[0:3]

         classLabelVector.append(int(listFromLine[-1]))

         index += 1

     return returnMat,classLabelVector

 def autoNorm(dataSet):

     minVals = dataSet.min(0)

     maxVals = dataSet.max(0)

     ranges = maxVals - minVals

     normDataSet = zeros(shape(dataSet))

     m = dataSet.shape[0]

     normDataSet = dataSet - tile(minVals, (m,1))

     normDataSet = normDataSet/tile(ranges, (m,1))   #element wise divide

     return normDataSet, ranges, minVals

 def datingClassTest():

     hoRatio = 0.50      #hold out 50%

     datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')       #load data setfrom file

     normMat, ranges, minVals = autoNorm(datingDataMat)

     m = normMat.shape[0]

     numTestVecs = int(m*hoRatio)

     errorCount = 0.0

     for i in range(numTestVecs):

         classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)

         print "the classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i])

         if (classifierResult != datingLabels[i]): errorCount += 1.0

     print "the total error rate is: %f" % (errorCount/float(numTestVecs))

     print errorCount

上面的代码中第一个函数从文本文件中读取样本数据，第二个函数把样本归一化，归一化的好处就是降低样本不同特征之间数值量级对距离计算的显著性影响

datingClassTest则是对KNN测试，留了一半数据进行测试，文本文件中的每条数据都有标签，这样可以计算错误率，运行的错误率为：the total error rate is: 0.064000

总结：

优点：高精度，对离群点不敏感，对数据不需要假设模型

缺点：判定时计算量太大，需要大量的内存

工作方式：数值或者类别

下面挑选一步样本数据发出来：

以上内容来至群友博客:http://blog.csdn.net/marvin521

Ps:Knn算法作为最经典的分类算法，它也可以用来作回归预测。Knn是一个lazy且非参数的算法，这里的非参数跟参数算法(Non-parametric techniques and parametric techniques)，指的是算法对数据分布的假设是否含参数，而不是说算法本身是不是有参数，例如Knn算法的参数有K的值，但它是一个Non-parametric techniques，不过它隐含了聚类假设等，这里面的K的选择一般需要结合业务场景或者CV验证，K减小，算法的bias减小,variance增加，陷入过拟合状态，K增加,算法的bias增加,variance减小，陷入欠拟合状态。算法的复杂度还是蛮高的，需要各种计算，在特征低维度情况下可以尝试Kd-Tree，可以加快训练速度,代码实现可以谷歌FLANN C++开源包，Python工具包Scikit 里面的实现包含基于Kd-Tree，Ball-Tree的近邻搜寻算法

Machine Learning in Action(1) K-近邻的更多相关文章

K近邻 Python实现机器学习实战(Machine Learning in Action)
算法原理 K近邻是机器学习中常见的分类方法之间,也是相对最简单的一种分类方法,属于监督学习范畴.其实K近邻并没有显式的学习过程,它的学习过程就是测试过程.K近邻思想很简单:先给你一个训练数据集D,包括 ...
学习笔记之机器学习实战 (Machine Learning in Action)
机器学习实战 (豆瓣) https://book.douban.com/subject/24703171/ 机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中 ...
机器学习实战（Machine Learning in Action）学习笔记————09.利用PCA简化数据
机器学习实战(Machine Learning in Action)学习笔记————09.利用PCA简化数据关键字:PCA.主成分分析.降维作者:米仓山下时间:2018-11-15机器学习实战(Ma ...
机器学习实战（Machine Learning in Action）学习笔记————08.使用FPgrowth算法来高效发现频繁项集
机器学习实战(Machine Learning in Action)学习笔记————08.使用FPgrowth算法来高效发现频繁项集关键字:FPgrowth.频繁项集.条件FP树.非监督学习作者:米 ...
机器学习实战（Machine Learning in Action）学习笔记————07.使用Apriori算法进行关联分析
机器学习实战(Machine Learning in Action)学习笔记————07.使用Apriori算法进行关联分析关键字:Apriori.关联规则挖掘.频繁项集作者:米仓山下时间:2018 ...
机器学习实战（Machine Learning in Action）学习笔记————06.k-均值聚类算法（kMeans）学习笔记
机器学习实战(Machine Learning in Action)学习笔记————06.k-均值聚类算法(kMeans)学习笔记关键字:k-均值.kMeans.聚类.非监督学习作者:米仓山下时间: ...
机器学习实战（Machine Learning in Action）学习笔记————05.Logistic回归
机器学习实战(Machine Learning in Action)学习笔记————05.Logistic回归关键字:Logistic回归.python.源码解析.测试作者:米仓山下时间:2018- ...
机器学习实战（Machine Learning in Action）学习笔记————02.k-邻近算法（KNN）
机器学习实战(Machine Learning in Action)学习笔记————02.k-邻近算法(KNN) 关键字:邻近算法(kNN: k Nearest Neighbors).python.源 ...
Machine Learning in Action(5) SVM算法
做机器学习的一定对支持向量机(support vector machine-SVM)颇为熟悉,因为在深度学习出现之前,SVM一直霸占着机器学习老大哥的位子.他的理论很优美,各种变种改进版本也很多,比如 ...
Machine Learning In Action 第二章学习笔记: kNN算法
本文主要记录<Machine Learning In Action>中第二章的内容.书中以两个具体实例来介绍kNN(k nearest neighbors),分别是: 约会对象预测手写数 ...

随机推荐

yii 数据save后得到插入id
$model->save();//得到上次插入的Insert id$id = $model->attributes['id'];如此很简单
PHP实现自定义中奖和概率算法
最近玩<QQ飞车手游>,出了一款点券A车,需要消耗抽奖券抽奖,甚是激动,于是抽了几次,没想到中的都是垃圾道具,可恨可叹~~ 这几天项目中也涉及到了类似的概率操作,于是思考了一下,简单分装了 ...
洛谷——P2983 [USACO10FEB]购买巧克力Chocolate Buying
P2983 [USACO10FEB]购买巧克力Chocolate Buying 题目描述 Bessie and the herd love chocolate so Farmer John is bu ...
awk理论详解、实战
答疑解惑: 为什么用awk取IP的时候用$4? ifconfig eth0 | awk -F '[ :]+' 'NR==2{print $4}' IP第二行内容如下: inet addr:10.0.0 ...
老哥你真的知道ArrayList#sublist的正确用法么
我们有这么一个场景,给你一个列表,可以动态的新增,但是最终要求列表升序,要求长度小于20,可以怎么做? 这个还不简单,几行代码就可以了 public List<Integer> trimL ...
DTrace Oracle Database
http://d.hatena.ne.jp/yohei-a/20100515/1273954199 DTrace で Oracle Database のサーバー・プロセスをトレースしてみた Oracl ...
fastscript增加三方控件
fastscript增加三方控件 A．关于如何使用第三方控件,增加方法.属性.事件)举例如下: 如:有一控件为edtbutton:TedtButton,我们需要在动态脚本中使用该控件.我们采用如下方法 ...
asyncTask 的execute和executeOnExecutor 方法
asyncTask.execute Android.os.Build.VERSION_CODES.DONUT, this was changed to a pool of threads allowi ...
mac 查看系统位数
uname -a
Free Pascal 的安装
Free Pascal 的安装 https://www.cnblogs.com/cnssc/p/6110492.html https://wenku.baidu.com/view/ee80cc8eed ...

Machine Learning in Action(1) K-近邻

Machine Learning in Action(1) K-近邻的更多相关文章

随机推荐

热门专题