KNN-综合应用

本文代码均来自《机器学习实战》

这里讲了两个例子，datingclass 和 figureclass,用到的都是KNN，要调用这两个例子的话就在代码末尾加datingClassTest()和handwritingClassTest()

至于第二个例子中用到的图片，是指那种字符点阵的图片，但是对于同样的原理，灰度图片应该也是可以的，虽然准确率就不一定了吧

图片长这个样子：

0_0.txt

00000000000001111000000000000000

00000000000011111110000000000000

00000000001111111111000000000000

00000001111111111111100000000000

00000001111111011111100000000000

00000011111110000011110000000000

00000011111110000000111000000000

00000011111110000000111100000000

00000011111110000000011100000000

00000011111110000000011100000000

00000011111100000000011110000000

00000011111100000000001110000000

00000011111100000000001110000000

00000001111110000000000111000000

00000001111110000000000111000000

00000001111110000000000111000000

00000001111110000000000111000000

00000011111110000000001111000000

00000011110110000000001111000000

00000011110000000000011110000000

00000001111000000000001111000000

00000001111000000000011111000000

00000001111000000000111110000000

00000001111000000001111100000000

00000000111000000111111000000000

00000000111100011111110000000000

00000000111111111111110000000000

00000000011111111111110000000000

00000000011111111111100000000000

00000000001111111110000000000000

00000000000111110000000000000000

00000000000011000000000000000000

'''

Created on Sep 16, 2010

kNN: k Nearest Neighbors

Input:      inX: vector to compare to existing dataset (1xN)

            dataSet: size m data set of known vectors (NxM)

            labels: data set labels (1xM vector)

            k: number of neighbors to use for comparison (should be an odd number)

Output:     the most popular class label

@author: pbharrin

'''

from numpy import *

#NumPy是Python语言的一个扩展程序库。支持高端大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库。

import pdb

pdb.set_trace()#用于调试

import operator#operator 模块是 Python 中内置的操作符函数接口，它定义了算术，比较和与标准对象 API 相对应的其他操作的内置函数。

#operator 模块是用 C 实现的，所以执行速度比 Python 代码快。

from os import listdir#os.listdir() 方法用于返回指定的文件夹包含的文件或文件夹的名字的列表。这个列表以字母顺序。 它不包括 '.' 和'..' 即使它在文件夹中。

def classify0(inX, dataSet, labels, k):

    #这个方法每次只能处理一个样本

    #这里的dataSet是一个数组，inX是待分类的样本,K是neighbor的数量

    #inX是以行向量的方式储存的，dataSet也是一行表示一个样本

    #KNN算法几乎不需要“训练”，属于即开即用那种的

    dataSetSize = dataSet.shape[0]#这是样本个数

    diffMat = tile(inX, (dataSetSize,1)) - dataSet#ile（）函数内括号中的参数代表扩展后的维度，而扩展是通过复制A来运作的，最终得到一个与括号内的参数（reps）维度一致的数组（矩阵）

    #将inX复制为和样本一样多的行数

    sqDiffMat = diffMat**2

    sqDistances = sqDiffMat.sum(axis=1)#sum对array求和，如果参数是0，就按列求和，返回一个行向量；如果参数是1，就按行求和，但是也返回一个行向量（从计算的角度来看，是列向量转置之后的）

    distances = sqDistances**0.5#**是python中的幂运算,用在矩阵上的效果的对应位置相乘而不是矩阵乘法中的A*A

    ##现在distances中的每一个元素代表了待求目标点和每一个样本点之间的距离

    sortedDistIndicies = distances.argsort() #argsort是numpy的方法，从小到大排序（不加参数的话），返回的是index而不是排序后的元素本身

    classCount={}#这是个字典类型

    for i in range(k):

        voteIlabel = labels[sortedDistIndicies[i]]

        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1#给这个类型加一

    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)#选出k中数量最大的label

    return sortedClassCount[0][0]##输出最大的label

def createDataSet():

    group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])

    #[[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]是list类型的二维向量，转成array可以方便进行向量化计算（array是numpy封装的)

    labels = ['A','A','B','B']

    return group, labels

def file2matrix(filename):#将文件数据（data,label)转换为矩阵

    fr = open(filename)

    numberOfLines = len(fr.readlines())         #get the number of lines （行数）in the file

    returnMat = zeros((numberOfLines,3))        #prepare matrix to return，这里将矩阵的列数硬编码为3了，需要的时候可以改

    classLabelVector = []                       #prepare labels return

    index = 0

    fr = open(filename)#为啥这里要再读一次呢？因为上面的fr.readlines()为了获取数据行数已经把全文读完了

    for line in fr.readlines():

        line = line.strip()#移除字符串头尾指定的字符（默认为空格或换行符）或字符序列

        listFromLine = line.split('\t')

        returnMat[index,:] = listFromLine[0:3]

        classLabelVector.append(int(listFromLine[-1]))

        index += 1

    return returnMat,classLabelVector

def autoNorm(dataSet):#归一化，使用公式为 newValue=(oldValue-min)/(max-min)

    minVals = dataSet.min(0)

    maxVals = dataSet.max(0)

    ranges = maxVals - minVals

    normDataSet = zeros(shape(dataSet))

    m = dataSet.shape[0]

    normDataSet = dataSet - tile(minVals, (m,1))

    normDataSet = normDataSet/tile(ranges, (m,1))   #element wise divide

    return normDataSet, ranges, minVals

#第一个KNN例子，classify date

def datingClassTest():

    hoRatio = 0.50      #hold out 10%

    datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')       #load data setfrom file

    normMat, ranges, minVals = autoNorm(datingDataMat)

    m = normMat.shape[0]

    numTestVecs = int(m*hoRatio)

    errorCount = 0.0

    for i in range(numTestVecs):

        classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)

        print("the classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i]))

        if (classifierResult != datingLabels[i]): errorCount += 1.0

    print("the total error rate is: %f" % (errorCount/float(numTestVecs)))

    print(errorCount)

def img2vector(filename):

    #将路径中文件转换为行向量进行存储，说到底干的就是一个char转int的活，

    returnVect = zeros((1,1024))#行向量，这里不好的一点就是特征数也是写死的，要实现泛用需要修改

    fr = open(filename)

    for i in range(32):

        lineStr = fr.readline()#读一行

        for j in range(32):

            returnVect[0,32*i+j] = int(lineStr[j])

    return returnVect

#第二个例子，归类由字符串组成的数字

def handwritingClassTest():

    hwLabels = []#存储所有样本的label

    trainingFileList = listdir('trainingDigits')           #load the training set,返回的是一个字符串数组，里面是该文件夹中所有文件的名称

    print(trainingFileList)

    m = len(trainingFileList)#m代表训练集样本个数

    trainingMat = zeros((m,1024))#1024是特征个数

    for i in range(m):

        fileNameStr = trainingFileList[i]

        fileStr = fileNameStr.split('.')[0]     #take off .txt

        classNumStr = int(fileStr.split('_')[0])

        #为什么要分这个？因为这里的样本比较特殊，文件名的第一个数组就代表了label

        hwLabels.append(classNumStr)

        trainingMat[i,:] = img2vector('trainingDigits/%s' % fileNameStr)#将路径输入，返回转换好的矩阵

    testFileList = listdir('testDigits')        #iterate through the test set

    errorCount = 0.0

    mTest = len(testFileList)

    for i in range(mTest):#对验证集一个一个进行运算，虽然这种for比较慢吧`````

        fileNameStr = testFileList[i]

        fileStr = fileNameStr.split('.')[0]     #take off .txt

        classNumStr = int(fileStr.split('_')[0])

        vectorUnderTest = img2vector('testDigits/%s' % fileNameStr)

        classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)

        print("the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr))

        if (classifierResult != classNumStr): errorCount += 1.0

    print("\nthe total number of errors is: %d" % errorCount)

    print("\nthe total error rate is: %f" % (errorCount/float(mTest)))

KNN-综合应用的更多相关文章

【Machine Learning】KNN算法虹膜图片识别
K-近邻算法虹膜图片识别实战作者:白宁超 2017年1月3日18:26:33 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结 ...
机器学习实战笔记(Python实现)-01-K近邻算法(KNN)
--------------------------------------------------------------------------------------- 本系列文章为<机器 ...
基于kNN的手写字体识别——《机器学习实战》笔记
看完一节<机器学习实战>,算是踏入ML的大门了吧!这里就详细讲一下一个demo:使用kNN算法实现手写字体的简单识别 kNN 先简单介绍一下kNN,就是所谓的K-近邻算法: [作用原理]: ...
ML(5):KNN算法
K近邻算法,即K-Nearest Neighbor algorithm,简称KNN算法,可以简单的理解为由那离自己最近的K个点来投票决定待分类数据归为哪一类.这个算法是机器学习里面一个比较经典的算法, ...
机器学习基础之knn的简单例子
knn算法是人工智能的基本算法,类似于语言中的"hello world!",python中的机器学习核心模块:Scikit-Learn Scikit-learn(sklearn)模 ...
scikit-learn---PCA(Principle Component Analysis)---KNN(image classifier)
摘要:PCA为非监督分类方法,常用于数据降维.为监督分类数据预处理,本例采用PCA对人脸特征提取先做降维处理,然后使用KNN算法对图片进行分类 ##1.PCA简介设法将原来变量重新组合成一组新的互相 ...
kaggle 欺诈信用卡预测——不平衡训练样本的处理方法综合结论就是：随机森林+过采样（直接复制或者smote后，黑白比例1:3 or 1:1）效果比较好！记得在smote前一定要先做标准化！！！其实随机森林对特征是否标准化无感，但是svm和LR就非常非常关键了
先看数据: 特征如下: Time Number of seconds elapsed between each transaction (over two days) numeric V1 No de ...
PCB 加投率计算实现基本原理--K最近邻算法（KNN）
PCB行业中,客户订购5000pcs,在投料时不会直接投5000pcs,因为实际在生产过程不可避免的造成PCB报废, 所以在生产前需计划多投一定比例的板板, 例:订单量是5000pcs,加投3%,那 ...
机器学习回顾篇（6）：KNN算法
1 引言本文将从算法原理出发,展开介绍KNN算法,并结合机器学习中常用的Iris数据集通过代码实例演示KNN算法用法和实现. 2 算法原理 KNN(kNN,k-NearestNeighbor)算法, ...
如何利用AI识别未知——加入未知类（不太靠谱），检测待识别数据和已知样本数据的匹配程度（例如使用CNN降维，再用knn类似距离来实现），将问题转化为特征搜索问题而非决策问题，使用HTM算法（记忆+模式匹配预测就是智能），GAN异常检测，RBF
https://www.researchgate.net/post/How_to_determine_unknown_class_using_neural_network 里面有讨论,说是用rbf神经 ...

随机推荐

HTML jQuery 文档操作 - html() 方法
jQuery 文档操作 - html() 方法 jQuery 文档操作参考手册实例设置所有 p 元素的内容: $(".btn1").click(function(){ $(&q ...
php的if函数
条件语句用于基于不同条件执行不同的动作 PHP 条件语句在您编写代码时,经常会希望为不同的决定执行不同的动作.您可以在代码中使用条件语句来实现这一点. 在 PHP 中,我们可以使用以下条件语句: i ...
Python set 用法
(原文链接)http://blog.csdn.net/business122/article/details/7541486# python的set和其他语言类似, 是一个无序不重复元素集, 基本功能 ...
迷人的bug--torch.load
利用Google Colab跑了50代的EDSR超分神经网络,然后把网络模型下载到win10上做测试,结果,一直出错,卡了好久结果百度到这一文章:Pytorch load深度模型时报错:Runtim ...
LeetCode 61. 旋转链表（Rotate List）
题目描述给定一个链表,旋转链表,将链表每个节点向右移动 k 个位置,其中 k 是非负数. 示例 1: 输入: 1->2->3->4->5->NULL, k = 2 输出 ...
Fiddlercore拦截并修改HTTPS链接的网页，实现JS注入
原始出处:https://www.cnblogs.com/Charltsing/p/FiddlerCoreHTTPS.html Fiddlercore可以拦截和修改http的网页内容,代码在百度很多. ...
深度学习----现今主流GAN原理总结及对比
原文地址:https://blog.csdn.net/Sakura55/article/details/81514828 1.GAN 先来看看公式: GAN网络主要由两个网络构 ...
下载的管理类MyDownloadManager
import android.content.Intent; import android.net.Uri; import java.io.File; import java.io.FileOutpu ...
Android的工程目录主要有哪些
src 源文件gen 生成的文件 R 文件就在此android. jar 依赖的 android sdkassets 资源文件bin 生成的字节码 apk 在此libs 依赖 jar 和 sores ...
Jmeter(九)集合点
性能测试需要模拟大量用户并发,集合点能够尽量让虚拟用户同一时刻发送请求, 在Jmeter中集合点是通过定时器-同步定时器来完成的.

KNN-综合应用

至于第二个例子中用到的图片，是指那种字符点阵的图片，但是对于同样的原理，灰度图片应该也是可以的，虽然准确率就不一定了吧

KNN-综合应用的更多相关文章

随机推荐

热门专题