机器学习2—K近邻算法学习笔记

Python3.6.3下修改代码中def classify0(inX,dataSet,labels,k)函数的classCount.iteritems()为classCount.items()，另外print在Python新版本下是函数，print后面需加上一对括号，否则执行会报错。

classify0详解

import numpy as np

#用于分类的输入向量是inX，输入的训练样本集为dataSet，

#标签向量为 labels ，最后的参数 k 表示用于选择最近邻居的数目，其中标签向量的元素数目和矩

#阵 dataSet 的行数相同。

def classify0(inX,dataSet,labels,k):

    # 获取 数组 形状的 第一个 参数 a=[[1,2],[1,2],[1,2]]  a.shape = [3,2] a.shape[0] = 3

# 一、

    dataSetSize = dataSet.shape[0]

    # tile 代表了inX，复制为dataSetSize行，1列的数组

# 二、

    diffMat = np.tile(inX,(dataSetSize,1))-dataSet

    # 平方

    sqDiffMat = diffMat**2

    # axis 等于 1 是将 矩阵的每一行 相加

    sqDistances = sqDiffMat.sum(axis=1)

    # 开方

    distances = sqDistances**0.5

# 三、

    # 从小到大 排列，argsort : 将distacnces中的元素从小到大排列，提取其对应的index(索引)，然后输出到sortedDistances

    sortedDistances = distances.argsort()

    classCount = {}

# 四、求出来 最低距离 的 labels结果，存放在classCount 中

    for i in range(k):

        #取第i+1个邻近的样本对应的类别标签

        voteIlabel =labels[sortedDistances[i]]

        #以标签为key，标签出现的次数为value将统计到的标签及出现次数写进字典

        classCount[voteIlabel] = classCount.get(voteIlabel,0)+1

        #对字典按value从大到小排序

    sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)

        #返回排序后字典中最大value对应的key

    return sortedClassCount[0][0]

以下注解参考

#将文本记录转换为Numpy的解析程序

def file2matrix(filename):  

      fr=open(filename)     #打开文件  

      arrayOLines=fr.readlines()   #获取文件所有行  

      numberOfLines=len(arrayOLines)     #得到文件行数  

      returnMat=zeros((numberOfLines,3))   #先用零元素创建需要返回的numpy矩阵，（行数，列数）  

      classLabelVector=[]    # 创建空的标签列表  

      index=0  

      for line in arrayOLines:  

            line=line.strip()   #截取掉尾部的回车字符  

            listFromLine=line.split('\t')  #用‘\t’作为分隔符将整行元素分割成元素列表，将一行数据按空进行分割，  

            returnMat[index,:]=listFromLine[0:3] #选取列表前三个元素到=矩阵中  

            classLabelVector.append(listFromLine[-1]) #将列表的最后一列存储到向量中  

            index += 1  

      return returnMat,classLabelVector  #返回数据集矩阵和对应的标签向量

#归一化特征值

def autoNorm(dataSet):  

    minVals = dataSet.min(0)  #找到数据集中的最小值（实际上应该是样本数据中的一列中的最小值，参数0就代表这个，下同），这样说的话minVals和maxVals都应该是一个行向量（1*n)  

    maxVals = dataSet.max(0)   #找到数据集中的最大值  

    ranges = maxVals - minVals    #得到数据的范围差值  

    normDataSet = zeros(shape(dataSet))     # 定义空的要返回的归一化后的矩阵，该矩阵和传入的数据集是一样的大小  

    m = dataSet.shape[0]       #得到矩阵第一行的数据个数，也就是维数  

    normDataSet = dataSet - tile(minVals, (m,1))  #数据集与最小值相减(title()函数将按照括号中的参数制作对应大小的矩阵，用给定的minVals内容来填充  

    normDataSet = normDataSet/tile(ranges, (m,1))   #除以范围值之后就是归一化的值了。（注意是矩阵除法）  

    return normDataSet, ranges, minVals

#分类器针对约会网站的测试代码

def datingClassTest():  

    hoRatio = 0.10      #测试所占的比例  

    datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')       #将文件中的数据转换为矩阵形式和提取出标签矩阵  

    normMat, ranges, minVals = autoNorm(datingDataMat)    #对提取出的矩阵数据归一化处理  

    m = normMat.shape[0]   #获得数据总的条数  

    numTestVecs = int(m*hoRatio)    #得出作为测试的数据个数  

    errorCount = 0.0      #初始化错误个数为0  

    for i in range(numTestVecs):  #对测试的数据进行遍历  

        classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)    # 对数据进行分类  

        print("the classifier came back with: %s, the real answer is: %s" % (classifierResult, datingLabels[i]))   #输出分类结果和实际的类别(之前的代码有问题啊，要将%d,改为%s)  

        if (int(classifierResult) != int(datingLabels[i])): errorCount += 1.0    # 如果分类结果与实际结果不一致 ，错误数加1  

    print("the total error rate is: %f" % (errorCount/float(numTestVecs)))   # 输出错误率  

    print(errorCount)    #输出错误总数

#约会网站预测函数

def classiyPerson():  

    resultList = ['not at all','in small doses','in large doses']         # 定义分类结果的类别  

    percentTats = float(raw_input("percentage of time spent playing video games?"))    # 读取输入数据   

    ffMiles = float(raw_input("frequent flier miles earned per year?"))     # 读取输入数据   

    iceCream = float(raw_input("liters of ice cream consumed per year?"))     # 读取输入数据   

    datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')         # 从文件中读取已有数据  

    normMat,ranges,minVals = autoNorm(datingDataMat)                     # 对数据进行归一化  

    inArr =array([ffMiles,percentTats,iceCream])                         # 将单个输入数据定义成一条数据  

    classifierResult = classify0(inArr,datingDataMat,datingLabels,3)      # 对输入数据进行分类  

    print('You will probably like this person: %s' % (resultList[int(classifierResult) - 1]))       # 输出预测的分类类别

# 将单个手写字符文件变成向量

def img2vector(filename):  

    returnVect = zeros((1,1024))   #创建要返回的1*1024的矩阵并初始化为0  

    fr = open(filename)    # 打开文件  

    for i in range(32):    #从0到31行遍历  

        lineStr = fr.readline()   #读取一行（自动成为一个列表）  

        for j in range(32):  #从0到31列  

            returnVect[0,32*i+j] = int(lineStr[j])   #将一行中的每个元素复制到要返回的矩阵中  

    return returnVect   #返回该1*1024的矩阵

# 手写字符识别测试

def handwritingClassTest():  

    hwLabels = []      # 定义手写字符标签(类别)   

    trainingFileList = listdir('trainingDigits')          # 列出目录下所有的文件  

    m = len(trainingFileList)            # 计算训练文件的数目  

    trainingMat = zeros((m,1024))        # 定义手写字符数据矩阵  

    for i in range(m):      # 依次读取每个文件  

        fileNameStr = trainingFileList[i]        # 依次获得文件名   

        fileStr = fileNameStr.split('.')[0]     # 对文件名进行分割  

        classNumStr = int(fileStr.split('_')[0])   # 获得文件名中的类标签  

        hwLabels.append(classNumStr)    # 把类标签放到hwLabels中  

        trainingMat[i,:] = img2vector('trainingDigits/%s' % fileNameStr)     # 把文件变成向量并赋值到trainingMat这个矩阵中    

    testFileList = listdir('testDigits')       # 列出测试目录下的所有文件  

    errorCount = 0.0        # 定义错误数  

    mTest = len(testFileList)       # 获得测试文件数目  

    for i in range(mTest):     # 遍历测试文件  

        fileNameStr = testFileList[i]         # 定义测试文件名  

        fileStr = fileNameStr.split('.')[0]        # 对测试文件名进行分割  

        classNumStr = int(fileStr.split('_')[0])       # 获得测试文件的类标签   

        vectorUnderTest = img2vector('testDigits/%s' % fileNameStr)          # 将测试文件转换成向量  

        classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)      # 进行分类   

        print("the classifier came back with: %d, the real answer is: %d" % (int(classifierResult), int(classNumStr)))       # 输出预测类别和实际类别  

        if (int(classifierResult) != int(classNumStr)): errorCount += 1.0      # 如果二者不一致，累加错误数量   

    print("\nthe total number of errors is: %d" % errorCount)       # 输出分类错误的数目  

    print("\nthe total error rate is: %f" % (errorCount/float(mTest)))          # 输出分类的错误率

第二章代码修改如下:

from numpy import *

import operator

from os import listdir

def classify0(inX, dataSet, labels, k):

    dataSetSize = dataSet.shape[0]

    diffMat = tile(inX, (dataSetSize,1)) - dataSet

    sqDiffMat = diffMat**2

    sqDistances = sqDiffMat.sum(axis=1)

    distances = sqDistances**0.5

    sortedDistIndicies = distances.argsort()

    classCount={}

    for i in range(k):

        voteIlabel = labels[sortedDistIndicies[i]]

        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1

    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)

    return sortedClassCount[0][0]

def createDataSet():

    group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])

    labels = ['A','A','B','B']

    return group, labels

def file2matrix(filename):

    fr = open(filename)

    numberOfLines = len(fr.readlines())         #get the number of lines in the file

    returnMat = zeros((numberOfLines,3))        #prepare matrix to return

    classLabelVector = []                       #prepare labels return

    fr = open(filename)

    index = 0

    for line in fr.readlines():

        line = line.strip()

        listFromLine = line.split('\t')

        returnMat[index,:] = listFromLine[0:3]

        classLabelVector.append(int(listFromLine[-1]))

        index += 1

    return returnMat,classLabelVector

def autoNorm(dataSet):

    minVals = dataSet.min(0)

    maxVals = dataSet.max(0)

    ranges = maxVals - minVals

    normDataSet = zeros(shape(dataSet))

    m = dataSet.shape[0]

    normDataSet = dataSet - tile(minVals, (m,1))

    normDataSet = normDataSet/tile(ranges, (m,1))   #element wise divide

    return normDataSet, ranges, minVals

def datingClassTest():

    hoRatio = 0.50      #hold out 10%

    datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')       #load data setfrom file

    normMat, ranges, minVals = autoNorm(datingDataMat)

    m = normMat.shape[0]

    numTestVecs = int(m*hoRatio)

    errorCount = 0.0

    for i in range(numTestVecs):

        classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)

        print("the classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i]))

        if (classifierResult != datingLabels[i]): errorCount += 1.0

    print("the total error rate is: %f" % (errorCount/float(numTestVecs)))

    print(errorCount)

def img2vector(filename):

    returnVect = zeros((1,1024))

    fr = open(filename)

    for i in range(32):

        lineStr = fr.readline()

        for j in range(32):

            returnVect[0,32*i+j] = int(lineStr[j])

    return returnVect

def handwritingClassTest():

    hwLabels = []

    trainingFileList = listdir('trainingDigits')           #load the training set

    m = len(trainingFileList)

    trainingMat = zeros((m,1024))

    for i in range(m):

        fileNameStr = trainingFileList[i]

        fileStr = fileNameStr.split('.')[0]     #take off .txt

        classNumStr = int(fileStr.split('_')[0])

        hwLabels.append(classNumStr)

        trainingMat[i,:] = img2vector('trainingDigits/%s' % fileNameStr)

    testFileList = listdir('testDigits')        #iterate through the test set

    errorCount = 0.0

    mTest = len(testFileList)

    for i in range(mTest):

        fileNameStr = testFileList[i]

        fileStr = fileNameStr.split('.')[0]     #take off .txt

        classNumStr = int(fileStr.split('_')[0])

        vectorUnderTest = img2vector('testDigits/%s' % fileNameStr)

        classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)

        print("the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr))

        if (classifierResult != classNumStr): errorCount += 1.0

    print("\nthe total number of errors is: %d" % errorCount)

    print("\nthe total error rate is: %f" % (errorCount/float(mTest)))

机器学习2—K近邻算法学习笔记的更多相关文章

机器学习之K近邻算法（KNN）
机器学习之K近邻算法(KNN) 标签: python 算法 KNN 机械学习苛求真理的欲望让我想要了解算法的本质,于是我开始了机械学习的算法之旅 from numpy import * import ...
【机器学习】k近邻算法（kNN）
一.写在前面本系列是对之前机器学习笔记的一个总结,这里只针对最基础的经典机器学习算法,对其本身的要点进行笔记总结,具体到算法的详细过程可以参见其他参考资料和书籍,这里顺便推荐一下Machine Le ...
第四十六篇入门机器学习——kNN - k近邻算法（k-Nearest Neighbors）
No.1. k-近邻算法的特点 No.2. 准备工作,导入类库,准备测试数据 No.3. 构建训练集 No.4. 简单查看一下训练数据集大概是什么样子,借助散点图 No.5. kNN算法的目的是,假如 ...
机器学习之K近邻算法
K 近邻 (K-nearest neighbor, KNN) 算法直接作用于带标记的样本,属于有监督的算法.它的核心思想基本上就是近朱者赤,近墨者黑. 它与其他分类算法最大的不同是,它是一种&quo ...
机器学习实战-k近邻算法
写在开头,打算耐心啃完机器学习实战这本书,所用版本为2013年6月第1版在P19页的实施kNN算法时,有很多地方不懂,遂仔细研究,记录如下: 字典按值进行排序首先仔细读完kNN算法之后,了解其是用 ...
【机器学习】K近邻算法——多分类问题
给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该类输入实例分为这个类. KNN是通过测量不同特征值之间的距离进行分类.它的的思路是:如 ...
机器学习03：K近邻算法
本文来自同步博客. P.S. 不知道怎么显示数学公式以及排版文章.所以如果觉得文章下面格式乱的话请自行跳转到上述链接.后续我将不再对数学公式进行截图,毕竟行内公式截图的话排版会很乱.看原博客地址会有更 ...
02-16 k近邻算法
目录 k近邻算法一.k近邻算法学习目标二.k近邻算法引入三.k近邻算法详解 3.1 k近邻算法三要素 3.1.1 k值的选择 3.1.2 最近邻算法 3.1.3 距离度量的方式 3.1.4 分类 ...
机器学习实战 - python3 学习笔记（一） - k近邻算法
一. 使用k近邻算法改进约会网站的配对效果 k-近邻算法的一般流程: 收集数据:可以使用爬虫进行数据的收集,也可以使用第三方提供的免费或收费的数据.一般来讲,数据放在txt文本文件中,按照一定的格式进 ...

随机推荐

洛谷——P1143 进制转换
P1143 进制转换题目描述请你编一程序实现两种不同进制之间的数据转换. 输入输出格式输入格式: 输入数据共有三行,第一行是一个正整数,表示需要转换的数的进制n(2≤n≤16),第二行是一个n进 ...
Find the Duplicate Number -- LeetCode
Given an array nums containing n + 1 integers where each integer is between 1 and n (inclusive), pro ...
COCOS2d 标准 android.MK
LOCAL_PATH := $(call my-dir) include$(CLEAR_VARS) LOCAL_MODULE := game_shared PP_CPPFLAGS := -frtti ...
extjs combo中给Store插入一条数据
{ xtype: 'combo', columnWidth: .55, name: 'AQLLevel', store: Ext.create('Scripts.Code.Common.store.I ...
Orchard EventBus 事件总线及 IEventHandler作用
事件总线接口定义: public interface IEventBus : IDependency { IEnumerable Notify(string messageName, IDiction ...
如何在AutoCAD中将卫星底图变为有坐标参考信息的
这篇博文首先没有图,主要是博主太懒了,不想再截图,我把过程说清楚也可以的.特此说明. (1)将下载好的瓦片拼接好大的地图 (2)将其导入到ArcGIS中,定义其地理坐标,如WGS84:然后将其其投影为 ...
ASIHTTPREQUEST framework compile error when method is called / link error
never mind!!! duplicate: Error with iOS 5.1 when i use ASIHTTPRequest and SBJSON "I would take ...
跟着Sedgewick学算法(week 1 ElementarySort)
链接https://www.evernote.com/shard/s408/sh/dbe0167f-20e0-41c4-a49b-75717ad98695/461148482ffb6add092be ...
JAVA常见算法题(二)
package com.xiaowu.demo; /** * 判断101-2000之间有多少个素数,并输出所有素数. * 质数(prime number)又称素数,有无限个.质数定义为在大于1的自然数 ...
ubuntu配置无密码登录
1 本地生成ssh公钥和私钥, 2将公钥拷贝到ubuntu上的.ssh/authorized_keys 中

机器学习2—K近邻算法学习笔记

机器学习2—K近邻算法学习笔记的更多相关文章

随机推荐

热门专题