KNN算法的感受 1

本来预计的打算是一天一个十大挖掘算法，然而由于同时要兼顾数据结构面试的事情，所以很难办到，但至少在回家前要把数据挖掘十大算法看完，过个好年，在course上学习老吴的课程还是帮了我很大的忙，虽然浪费了时间，但是也无形中帮助我很多，所以说还是很值得的，今天就总结KNN算法的一部分，这部分老吴的课程中没有太多涉及到，所以我又重新关注了一下，下面是我的总结，希望能对大家有所帮组。

介绍环镜：python2.7 IDLE Pycharm5.0.3

操作系统：windows

第一步：因为没有numpy，所以要安装numpy，详情见另一篇安装numpy的博客，这里不再多说.

第二步：贴代码：

     from numpy import *

     import operator

     from os import listdir

   def classify0(inX, dataSet, labels, k):

         dataSetSize = dataSet.shape[0]

         diffMat = tile(inX, (dataSetSize,1)) - dataSet

         sqDiffMat = diffMat**2

         sqDistances = sqDiffMat.sum(axis=1)

         distances = sqDistances**0.5

         sortedDistIndicies = distances.argsort()

         classCount={}

         for i in range(k):

             voteIlabel = labels[sortedDistIndicies[i]]

             classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1

         sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)

         return sortedClassCount[0][0]  

   def createDataSet():

         group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])

         labels = ['A','A','B','B']

         return group, labels  

    def file2matrix(filename):

         fr = open(filename)

         numberOfLines = len(fr.readlines())         #get the number of lines in the file

         returnMat = zeros((numberOfLines,3))        #prepare matrix to return

         classLabelVector = []                       #prepare labels return

         fr = open(filename)

         index = 0

         for line in fr.readlines():

             line = line.strip()

             listFromLine = line.split('\t')

             returnMat[index,:] = listFromLine[0:3]

             classLabelVector.append(int(listFromLine[-1]))

             index += 1

         return returnMat,classLabelVector  

     def autoNorm(dataSet):

         minVals = dataSet.min(0)

         maxVals = dataSet.max(0)

         ranges = maxVals - minVals

         normDataSet = zeros(shape(dataSet))

         m = dataSet.shape[0]

         normDataSet = dataSet - tile(minVals, (m,1))

         normDataSet = normDataSet/tile(ranges, (m,1))   #element wise divide

         return normDataSet, ranges, minVals  

     def datingClassTest():

         hoRatio = 0.50      #hold out 10%

         datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')       #load data setfrom file

         normMat, ranges, minVals = autoNorm(datingDataMat)

         m = normMat.shape[0]

         numTestVecs = int(m*hoRatio)

         errorCount = 0.0

         for i in range(numTestVecs):

             classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)

             print "the classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i])

             if (classifierResult != datingLabels[i]): errorCount += 1.0

         print "the total error rate is: %f" % (errorCount/float(numTestVecs))

         print errorCount  

     def img2vector(filename):

         returnVect = zeros((1,1024))

         fr = open(filename)

         for i in range(32):

             lineStr = fr.readline()

             for j in range(32):

                 returnVect[0,32*i+j] = int(lineStr[j])

         return returnVect  

     def handwritingClassTest():

         hwLabels = []

         trainingFileList = listdir('trainingDigits')           #load the training set

         m = len(trainingFileList)

         trainingMat = zeros((m,1024))

         for i in range(m):

             fileNameStr = trainingFileList[i]

             fileStr = fileNameStr.split('.')[0]     #take off .txt

             classNumStr = int(fileStr.split('_')[0])

             hwLabels.append(classNumStr)

             trainingMat[i,:] = img2vector('trainingDigits/%s' % fileNameStr)

         testFileList = listdir('testDigits')        #iterate through the test set

         errorCount = 0.0

         mTest = len(testFileList)

         for i in range(mTest):

             fileNameStr = testFileList[i]

             fileStr = fileNameStr.split('.')[0]     #take off .txt

             classNumStr = int(fileStr.split('_')[0])

             vectorUnderTest = img2vector('testDigits/%s' % fileNameStr)

             classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)

             print "the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr)

             if (classifierResult != classNumStr): errorCount += 1.0

         print "\nthe total number of errors is: %d" % errorCount

         print "\nthe total error rate is: %f" % (errorCount/float(mTest))

第三步：通过命令行交互

（1）：先将上述代码保存为kNN.py

（2）：再在IDLE下的run菜单下run一下，将其生成python模块

（3）： import kNN（因为上一步已经生成knn模块）
（4）： kNN.classify0([0,0],group,labels,3) （讨论[0,0]点属于哪一个类）

注：其中【0,0】可以随意换

即【】内的坐标就是我们要判断的点的坐标：

>>> kNN.classify0([0,0],group,labels,3)
'B'
>>> kNN.classify0([0,1],group,labels,3)
'B'
>>> kNN.classify0([0.6,0.6],group,labels,3)
'A'

KNN算法的感受 1的更多相关文章

KNN算法的感受 2
(1):先将上述代码保存为kNN.py (2):再在IDLE下的run菜单下run一下,将其生成python模块 (3):import kNN(因为上一步已经生成knn模块) (4):kNN.cla ...
【Machine Learning】KNN算法虹膜图片识别
K-近邻算法虹膜图片识别实战作者:白宁超 2017年1月3日18:26:33 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结 ...
KNN算法
1.算法讲解 KNN算法是一个最基本.最简单的有监督算法,基本思路就是给定一个样本,先通过距离计算,得到这个样本最近的topK个样本,然后根据这topK个样本的标签,投票决定给定样本的标签: 训练过程 ...
kNN算法python实现和简单数字识别
kNN算法算法优缺点: 优点:精度高.对异常值不敏感.无输入数据假定缺点:时间复杂度和空间复杂度都很高适用数据范围:数值型和标称型算法的思路: KNN算法(全称K最近邻算法),算法的思想很简单 ...
什么是 kNN 算法？
学习 machine learning 的最低要求是什么? 我发觉要求可以很低,甚至初中程度已经可以. 首先要学习一点 Python 编程,譬如这两本小孩子用的书:[1][2]便可. 数学方面 ...
数据挖掘之KNN算法（C#实现）
在十大经典数据挖掘算法中,KNN算法算得上是最为简单的一种.该算法是一种惰性学习法(lazy learner),与决策树.朴素贝叶斯这些急切学习法(eager learner)有所区别.惰性学习法仅仅 ...
机器学习笔记--KNN算法2-实战部分
本文申明:本系列的所有实验数据都是来自[美]Peter Harrington 写的<Machine Learning in Action>这本书,侵删. 一案例导入:玛利亚小姐最近寂寞了, ...
机器学习笔记--KNN算法1
前言 Hello ,everyone. 我是小花.大四毕业,留在学校有点事情,就在这里和大家吹吹我们的狐朋狗友算法---KNN算法,为什么叫狐朋狗友算法呢,在这里我先卖个关子,且听我慢慢道来. 一 K ...
学习OpenCV——KNN算法
转自:http://blog.csdn.net/lyflower/article/details/1728642 文本分类中KNN算法,该方法的思路非常简单直观:如果一个样本在特征空间中的k个最相似( ...

随机推荐

Python 零基础快速入门趣味教程 (咪博士海龟绘图 turtle) 0. 准备工作
一.关于 Python Python 是全球使用人数增长最快的编程语言!它易于入门.功能强大,从 Web 后端到数据分析.人工智能,到处都能看到 Python 的身影. Python 有两个主要的 ...
SpringMVC返回JSON方案
SpringMVC已经大行其道.一般的,都是返回JSP视图.如果需要返回JSON格式,我们大都掌握了一些方法. 在ContentNegotiatingViewResolver之前,一般使用XmlVie ...
hdwiki 前后台版权信息在哪修改
hdwiki 前台copyright 信息在 view/default/footer.htm 搜索footer-phdwiki 后台copyright 信息在 view/default/admin_m ...
luogu1328 [NOIp2014]生活大爆炸版石头剪刀布 (模拟)
#include<bits/stdc++.h> #define pa pair<int,int> #define CLR(a,x) memset(a,x,sizeof(a)) ...
【hdu3842】 Machine Works
http://acm.hdu.edu.cn/showproblem.php?pid=3842 (题目链接) 题意一个公司使用一个厂房$D$天,希望获利最大.有$n$台机器,每一台可以在第$D_i$天 ...
5: EL 表达式小结
1.EL表达式的语法格式很简单: 以前编写jsp代码时,如果要获取表单中的用户名,一般使用 <%=request.getParameter("name")%> ,这样 ...
vue子组件的自定义事件
父子组件的信息传递无碍就是父组件给子组件传值(props和$attrs)和父组件触发子组件的事件($emit) 之前已经谈过了父组件给子组件传值了,现在来说说父组件触发子组件的自定义事件吧-- 实际上 ...
001. MyBatis+SpringMVC+Spring[重置版]
说在前面的话三阶段的课程知识点和细节很多,请假应该杜绝! 课后需抓紧时间复习,提高代码质量和速度! 课程周期和学习课程顺序为:[正常情况下] MyBatis 持久层框架 [2周] SpringMVC ...
在ajax请求后台时在请求标头RequestHeader加token
情景:为了保证系统数据的安全性,一般前后台之间的数据访问会有授权与验证,这里的Token机制相对于Cookie支持跨域访问,在RESTful API里面,验证一般可以使用POST请求来通过验证,使服务 ...
BSGS 算法
求解 A^x ≡ B mod C C是质数的最小非负整数解证明:A^x ≡ A^(x%φ(C)) mod C A^(x%φ(C)) ≡ A^(x-k*φ(C)) ≡ (A^x)/ A^(k*φ ...

KNN算法的感受 1

KNN算法的感受 1的更多相关文章

随机推荐

热门专题