机器学习实战 之 KNN算法
现在 机器学习 这么火,小编也忍不住想学习一把。注意,小编是零基础哦。
所以,第一步,推荐买一本机器学习的书,我选的是Peter harrigton 的《机器学习实战》。这本书是基于python 2.7的,但是我安装的是python 3.6.2.
所以很关键的是,你必须得有一定的python基础。这里我推荐runoob的py3教程,通俗易懂。http://www.runoob.com/python3/python3-tutorial.html
注意:python2和python3是不兼容的
python是面向对象的,面向对象是python的精髓。
————————————————————严肃的分割线......——————————————————————————————
言归正传,首先,我们要安装一些包,比如numpy和matplotlib。小编推荐用anaconda,这是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。下载地址https://www.anaconda.com/download/。这就免去安装各种包的烦恼。
界面如下:里面有一个spyder,这是一款很好用的IDE

左边是文本编辑区,右下角是命令行。右上角是变量区,很方便啊,有木有!
下面就是KNN算法的讲解了。
————————————————————————分割线————————————————————————————————————————————————————
00000000000001111000000000000000
00000000000011111110000000000000
00000000001111111111000000000000
00000001111111111111100000000000
00000001111111011111100000000000
00000011111110000011110000000000
00000011111110000000111000000000
00000011111110000000111100000000
00000011111110000000011100000000
00000011111110000000011100000000
00000011111100000000011110000000
00000011111100000000001110000000
00000011111100000000001110000000
00000001111110000000000111000000
00000001111110000000000111000000
00000001111110000000000111000000
00000001111110000000000111000000
00000011111110000000001111000000
00000011110110000000001111000000
00000011110000000000011110000000
00000001111000000000001111000000
00000001111000000000011111000000
00000001111000000000111110000000
00000001111000000001111100000000
00000000111000000111111000000000
00000000111100011111110000000000
00000000111111111111110000000000
00000000011111111111110000000000
00000000011111111111100000000000
00000000001111111110000000000000
00000000000111110000000000000000
这就是经过数字图像处理的手写字体了,格式是32x32。
#inX:用于分类的输入向量。即将对其进行分类。
#dataSet:训练样本集
#labels:标签向量
def classify0(inX, dataSet, labels, k):
dataSetSize = dataSet.shape[0]#得到训练样本集的行数,即有几个训练数据
diffMat = tile(inX, (dataSetSize,1)) - dataSet #tile:numpy中的函数。tile将原来的一个数组,扩充成了dataSetSize个一样的数组。diffMat得到了目标与训练数值之间的差值。
sqDiffMat = diffMat**2#差值的平方
sqDistances = sqDiffMat.sum(axis=1)#对应列相乘,即距离和
distances = sqDistances**0.5 #开根号 即距离
sortedDistIndicies = distances.argsort()#升序排列
classCount={} #创建一个字典classCount 选择距离最小的k个点,
for i in range(k): #k次遍历
voteIlabel = labels[sortedDistIndicies[i]]
classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True) #原书是iteritems() py3改为items()
return sortedClassCount[0][0]
#计算完所有点后,数据按从小到大排序,然后确定前k个距离最小元素所在的主要分类,输入k总是正整数,最后,将classCount字典分解为元组列表,然后此处的排序为逆序,
返回发生频率最高的元素标签。
我们要知道的是在python中。classfiy0就是一个函数,而inX, dataSet, labels, k是输入参数,其中k就是KNN算法的K。
shape是numpy库中的函数。.shape用于计算array各维度的长度,在python中都是从0开始的。
tile 也是 numpy中的函数,它可以在行和列上重复一个矩阵。
aaarticlea/png;base64," alt="" width="803" height="312" />
那 tile(inX, (dataSetSize,1))的意思就是,让inX矩阵,在列重复1次。在行方向上重复dataSetSize次了。diffMat得到了目标与训练数值之间的差值。
而 sum(axis=1) 为什么这样写呢,因为python和c不一样。 小编开始也不懂然后 在命令行输入help(sum) 出来很多有用的帮助。自己亲手敲了几行就懂了。
axis=None, will sum all of the elements of the input array. If
axis is negative it counts from the last to the first axis.
写到这想必大家也懂了。如果想搞机器学习,还需要了解很多python数学函数啊。
下面是get() 它是dictionary(字典)的一个函数。

所以classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1 的意思就是查找classcount字典中和voteIlabel相同的元素,默认返回0,因为是从0开始的,所以要加1
'''
Created on Sep 16, 2010
kNN: k Nearest Neighbors Input: inX: vector to compare to existing dataset (1xN)
dataSet: size m data set of known vectors (NxM)
labels: data set labels (1xM vector)
k: number of neighbors to use for comparison (should be an odd number) Output: the most popular class label
@author: pbharrin
'''
from numpy import *
import operator #运算符模块
from os import listdir #inX:用于分类的输入向量。即将对其进行分类。
#dataSet:训练样本集
#labels:标签向量
def classify0(inX, dataSet, labels, k):
dataSetSize = dataSet.shape[0]#得到数组的行数,即有几个训练数据
diffMat = tile(inX, (dataSetSize,1)) - dataSet #tile:numpy中的函数。tile将原来的一个数组,扩充成了4个一样的数组。diffMat得到了目标与训练数值之间的差值。
sqDiffMat = diffMat**2#差值的平方
sqDistances = sqDiffMat.sum(axis=1)#对应列相乘,即距离和
distances = sqDistances**0.5 #开根号
sortedDistIndicies = distances.argsort()#升序排列
classCount={} #选择距离最小的k个点
for i in range(k):
voteIlabel = labels[sortedDistIndicies[i]]
classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
return sortedClassCount[0][0] def createDataSet():
group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
labels = ['A','A','B','B']
return group, labels def file2matrix(filename):
fr = open(filename)
numberOfLines = len(fr.readlines()) #get the number of lines in the file
returnMat = zeros((numberOfLines,3)) #prepare matrix to return
classLabelVector = [] #prepare labels return
fr = open(filename)
index = 0
for line in fr.readlines():
line = line.strip() #Python strip() 方法用于移除字符串头尾指定的字符(默认为空格)。
listFromLine = line.split('\t') #将line按'\t'进行分割
returnMat[index,:] = listFromLine[0:3]
classLabelVector.append(int(listFromLine[-1])) #倒数第一个元素
index += 1
return returnMat,classLabelVector
#归一化特征值
#使得所有参量在0到1之间
def autoNorm(dataSet):
minVals = dataSet.min(0)
maxVals = dataSet.max(0)
ranges = maxVals - minVals
normDataSet = zeros(shape(dataSet))
m = dataSet.shape[0] #返回矩阵第二维长度(列数)
normDataSet = dataSet - tile(minVals, (m,1))
normDataSet = normDataSet/tile(ranges, (m,1)) #element wise divide
return normDataSet, ranges, minVals def datingClassTest():
hoRatio = 0.50 #hold out 10%
datingDataMat,datingLabels = file2matrix('datingTestSet2.txt') #load data setfrom file
normMat, ranges, minVals = autoNorm(datingDataMat)
m = normMat.shape[0] #m:目录中有多少文件#shape函数是numpy.core.fromnumeric中的函数,它的功能是查看矩阵或者数组的维数。
numTestVecs = int(m*hoRatio)
errorCount = 0.0
for i in range(numTestVecs):
classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)
#inX:用于分类的输入向量。即将对其进行分类。normMat[i,:],
#dataSet:训练样本集.normMat[numTestVecs:m,:]
#labels:标签向量.datingLabels[numTestVecs:m]
#k:3
print ("the classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i]))
if (classifierResult != datingLabels[i]): errorCount += 1.0
print ( "the total error rate is: %f" % (errorCount/float(numTestVecs)))
print (errorCount)
'''
我们将一个32x32二进制图像矩阵转换为1x1024的向量
'''
def img2vector(filename): #图片转化为向量
returnVect = zeros((1,1024))
fr = open(filename)
for i in range(32):
lineStr = fr.readline()
for j in range(32):
returnVect[0,32*i+j] = int(lineStr[j])
return returnVect
#安照先训练再测试的模式
def handwritingClassTest():
hwLabels = []
trainingFileList = listdir('trainingDigits') #load the training set listdir法用于返回指定的文件夹包含的文件或文件夹的名字的列表
m = len(trainingFileList) #获取文件长度
trainingMat = zeros((m,1024))
for i in range(m):
fileNameStr = trainingFileList[i] #从文件名解析分类数字
fileStr = fileNameStr.split('.')[0] #take off .txt
classNumStr = int(fileStr.split('_')[0])
hwLabels.append(classNumStr)
trainingMat[i,:] = img2vector('trainingDigits/%s' % fileNameStr) #将文件名
testFileList = listdir('testDigits') #iterate through the test set
errorCount = 0.0
mTest = len(testFileList)
for i in range(mTest):
fileNameStr = testFileList[i]
fileStr = fileNameStr.split('.')[0] #take off .txt
classNumStr = int(fileStr.split('_')[0])
vectorUnderTest = img2vector('testDigits/%s' % fileNameStr)
classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 4)
print ("the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr))
if (classifierResult != classNumStr): errorCount += 1.0
print ("\nthe total number of errors is: %d" % errorCount)
print ("\nthe total error rate is: %f" % (errorCount/float(mTest)))
# main part
handwritingClassTest();


k临近算法手写识别,错误率为1.2%,改变k的值,修改函数handwriting - classTest 随机选取的训练样本,改变训练样本的个数,都会对k临近算法错误率产生影响。
代码下载地址 http://www.ituring.com.cn/book/download/0019ab9d-0fda-4c17-941b-afe639fcccac
机器学习实战 之 KNN算法的更多相关文章
- 算法代码[置顶] 机器学习实战之KNN算法详解
改章节笔者在深圳喝咖啡的时候突然想到的...之前就有想写几篇关于算法代码的文章,所以回家到以后就奋笔疾书的写出来发表了 前一段时间介绍了Kmeans聚类,而KNN这个算法刚好是聚类以后经常使用的匹配技 ...
- 机器学习实战之kNN算法
机器学习实战这本书是基于python的,如果我们想要完成python开发,那么python的开发环境必不可少: (1)python3.52,64位,这是我用的python版本 (2)numpy 1.1 ...
- 《机器学习实战》KNN算法实现
本系列都是参考<机器学习实战>这本书,只对学习过程一个记录,不做详细的描述! 注释:看了一段时间Ng的机器学习视频,感觉不能光看不练,现在一边练习再一边去学习理论! KNN很早就之前就看过 ...
- 吴裕雄--天生自然python机器学习实战:K-NN算法约会网站好友喜好预测以及手写数字预测分类实验
实验设备与软件环境 硬件环境:内存ddr3 4G及以上的x86架构主机一部 系统环境:windows 软件环境:Anaconda2(64位),python3.5,jupyter 内核版本:window ...
- 《机器学习实战》kNN算法及约会网站代码详解
使用kNN算法进行分类的原理是:从训练集中选出离待分类点最近的kkk个点,在这kkk个点中所占比重最大的分类即为该点所在的分类.通常kkk不超过202020 kNN算法步骤: 计算数据集中的点与待分类 ...
- 机器学习之路--KNN算法
机器学习实战之kNN算法 机器学习实战这本书是基于python的,如果我们想要完成python开发,那么python的开发环境必不可少: (1)python3.52,64位,这是我用的python ...
- 机器学习实战1-1 KNN电影分类遇到的问题
为什么电脑排版效果和手机排版效果不一样~ 目前只学习了python的基础语法,有些东西理解的不透彻,希望能一边看<机器学习实战>,一边加深对python的理解,所以写的内容很浅显,也许还会 ...
- 机器学习实战-k近邻算法
写在开头,打算耐心啃完机器学习实战这本书,所用版本为2013年6月第1版 在P19页的实施kNN算法时,有很多地方不懂,遂仔细研究,记录如下: 字典按值进行排序 首先仔细读完kNN算法之后,了解其是用 ...
- 基于Python的机器学习实战:KNN
1.KNN原理: 存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系.输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应 ...
随机推荐
- linux 巨页使用测试
这里记录测试巨页的mmap使用,测试代码和<linux 巨页使用测试以及勘误1>类似. 跟踪脚本如下: probe kernel.function("hugetlb_reserv ...
- linux_初始参数选择
目前linux发行版? linux内核 : Linux Kernel2.2 2.4 2.6 3.x 发行版本: Red Hat 主流 6.x, 正在发展 7.x Fedora: 为Red Hat ...
- 20165220 学习基础和C语言基础调查
# # # # 我觉得我打游戏(不知道算不算一技之长)毕竟从小学一年级就接触到了各种形形色色的游戏,讲道理其实我的游戏天赋毕竟还是很大的,从意识到感觉我觉得都比大多数人好一些,其实吧打游戏打得好也是很 ...
- SpringMVC源码之Controller查找原理
摘要 本文从源码层面简单讲解SpringMVC的处理器映射环节,也就是查找Controller详细过程. SpringMVC请求流程 Controller查找在上图中对应的步骤1至2的过程 Sprin ...
- 2017noip普及组赛前注意事项总结
petr 大神镇场 距人生第一场noip只差4天半了(好紧张) 总结几下四道题的做题策略 NO1 第一题一般是送分的,认真读题,别太草率,多想几遍再动手,把重要的地方圈一圈.画一画,自己找几个数据多试 ...
- GitHub For Beginners: Don’t Get Scared, Get Started
It's 2013, and there's no way around it: you need to learn how to use GitHub.2 Why? Because it's a s ...
- OSSEC初探
OSSEC初探 概念: OSSEC是一款开源的基于主机的入侵检测系统(HIDS),它可以执行日志分析.完整性检验.windows注册表监控.隐匿性检测和实时告警.它可以运行在各种不同的操作系统上,包括 ...
- 《.NET 设计规范》第 7 章:异常
第 7 章:异常 异常与各种面向对象语言集成得非常好. 异常增强了 API 的一致性. 在用返回值来报告错误时,错误处理的代码与可能会发生错误的代码距离总是很近. 更容易使错误处理的带码全局化. 错误 ...
- win7:你需要来自Administrators的权限才能对此文件进行修改的一个文件
win7:你需要来自Administrators的权限才能对此文件进行修改的一个文件 Posted on 2010-11-29 09:54 寒宵飞飞 阅读(36117) 评论(1) 编辑 收藏 新建一 ...
- Redis进阶实践之十 Redis主从复制的集群模式
一.引言 Redis的基本数据类型,高级特性,与Lua脚本的整合等相关知识点都学完了,说是学完了,只是完成了当前的学习计划,在以后的时间还需继续深入研究和学习.从今天开始来讲一下有关Re ...