机器学习实战之KNN

KNN也称K-近邻算法，简单来说，KNN采用测量不同特征值之间的距离的方法进行分类。

优点：精度高，对异常值不敏感，无数据输入假定。

确定：时间复杂度、空间复杂度较高

适用数据范围：数值型和标称型

工作原理简介：存在一个样本数据集合，并且每个样本数据集中都存在标签。输入没有标签的数据集之后，将新数据集的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。一般来说，我们只选择样本中钱K个最相似的数据，这就是K-近邻中K的出处，通常K是不大于20的整数。最后，选择K个最相似数据中出现次数最多的分类，作为新数据集的分类标签。

示例1：使用KNN改进约会网站的配对效果

labels:不喜欢的人

　　魅力一般的人

　　极具魅力的人

Feature：每年获得的飞行常客里程数

　　　　玩视频游戏所消耗的时间百分比

　　　　每周消耗的冰淇淋公升数

示例代码如下：

import numpy as np

import operator

import matplotlib

import matplotlib.pyplot as plt

#KNN 分类器

def classify0(inX, dataSet, labels, k):

    dataSetSize = dataSet.shape[0]

    diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet #复制inX为（dataSetSize, 1）

    sqDiffMat = diffMat ** 2

    sqDistances = sqDiffMat.sum(axis = 1)

    distances = sqDistances ** 0.5

    sortedDistIndicies = distances.argsort() #按照value排序，并且返回索引

    classCount = {}

    for i in range(k):

        voteIlabel = labels[sortedDistIndicies[i]]

        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1

    sortedClassCount = sorted(classCount.items(), key = lambda item: item[1] ,reverse = True)

    return sortedClassCount[0][0]


#将文件中数据转化为矩阵数据

def file2matrix(fileName):

    fr = open(fileName)

    arrayAllLines = fr.readlines()

    numberOfLines = len(arrayAllLines)

    returnMat = np.zeros((numberOfLines, 3))

    classLabelVector = []

    index = 0

    for line in arrayAllLines:

        line.strip() #默认删除此行开头和结尾的空格和换行

        listFromLine = line.split('\t')

        returnMat[index,:] = listFromLine[0:3]

        classLabelVector.append(int(listFromLine[-1]))

        index += 1

    return returnMat, classLabelVector


#归一化

def autoNorm(dataSet):

    minVals = dataSet.min(0)

    maxVals = dataSet.max(0)

    ranges = maxVals - minVals

    row = dataSet.shape[0]

    normDataSet = dataSet - np.tile(minVals, (row, 1))

    normDataSet = normDataSet / np.tile(ranges, (row, 1))

    return normDataSet, ranges, minVals


#随机选取10%的数据进行测试

def datingClassTest():

    hoRatio = 0.10

    pathName = "./datingTestSet2.txt"

    datingDataMat, datingLabels = file2matrix(pathName)

    normMat, ranges, minVals = autoNorm(datingDataMat)

    row = normMat.shape[0]

    numTestVecs = int(hoRatio * row)

    errorCount = 0.0

    for i in range(numTestVecs):

        classifierResult = classify0(normMat[i,:], normMat[numTestVecs:row,:], datingLabels[numTestVecs:row], 5)

        print("The classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i]))

        if(classifierResult != datingLabels[i]):

            errorCount += 1.0

    print("The total error tate is : %f" % (errorCount / float(numTestVecs)))

datingClassTest()

示例2：手写数字识别系统

import numpy as np

import operator

import matplotlib

import matplotlib.pyplot as plt

from os import listdir

#KNN 分类器

def classify0(inX, dataSet, labels, k):

    dataSetSize = dataSet.shape[0]

    diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet #复制inX为（dataSetSize, 1）

    sqDiffMat = diffMat ** 2

    sqDistances = sqDiffMat.sum(axis = 1)

    distances = sqDistances ** 0.5

    sortedDistIndicies = distances.argsort() #按照value排序，并且返回索引

    classCount = {}

    for i in range(k):

        voteIlabel = labels[sortedDistIndicies[i]]

        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1

    sortedClassCount = sorted(classCount.items(), key = lambda item: item[1] ,reverse = True)

    return sortedClassCount[0][0]

#将文本文件转化为向量

def img2vector(fileName):

    returnVect = np.zeros((1,32 * 32))

    fr = open(fileName)

    for i in range(32):

        lineStr = fr.readline()

        for j in range(32):

            returnVect[0,i * 32 + j] = int(lineStr[j])

    return returnVect

#手写数字测试错误率

def handwritingClassTest():

    hwLabels = []

    trainingFileList = listdir('trainingDigits')

    m = len(trainingFileList)

    trainingMat = np.zeros((m, 32 * 32))

    for i in range(m):

        fileNameStr = trainingFileList[i]

        fileStr = fileNameStr.split('.')[0]

        classNum = int(fileStr.split('_')[0])

        hwLabels.append(classNum)

        trainingMat[i,:] = img2vector('trainingDigits/%s' % fileNameStr)

    testFileList = listdir('testDigits')

    m = len(testFileList)

    errorCount = 0.0

    for i in range(m):

        fileNameStr = testFileList[i]

        fileStr = fileNameStr.split('.')[0]

        realClassNum = int(fileStr.split('_')[0])

        testVect = img2vector('testDigits/%s' % fileNameStr)

        testClassNum = classify0(testVect, trainingMat, hwLabels, 3)

        print("The classifier came back with: %d, the real answer is: %d" % (testClassNum, realClassNum))

        if(testClassNum != realClassNum):

            errorCount += 1.0

    print("The total error rate is: %f" % (errorCount / float(m)))

handwritingClassTest()

数据集下载以及完整jupyter notebook 代码下载：

https://github.com/qwqwqw110/machineLearningInactionCode/tree/master/KNN

机器学习实战之KNN的更多相关文章

算法代码[置顶] 机器学习实战之KNN算法详解
改章节笔者在深圳喝咖啡的时候突然想到的...之前就有想写几篇关于算法代码的文章,所以回家到以后就奋笔疾书的写出来发表了前一段时间介绍了Kmeans聚类,而KNN这个算法刚好是聚类以后经常使用的匹配技 ...
机器学习实战之 KNN算法
现在机器学习这么火,小编也忍不住想学习一把.注意,小编是零基础哦. 所以,第一步,推荐买一本机器学习的书,我选的是Peter harrigton 的<机器学习实战>.这本书是基于pyt ...
机器学习实战1-1 KNN电影分类遇到的问题
为什么电脑排版效果和手机排版效果不一样~ 目前只学习了python的基础语法,有些东西理解的不透彻,希望能一边看<机器学习实战>,一边加深对python的理解,所以写的内容很浅显,也许还会 ...
《机器学习实战》KNN算法实现
本系列都是参考<机器学习实战>这本书,只对学习过程一个记录,不做详细的描述! 注释:看了一段时间Ng的机器学习视频,感觉不能光看不练,现在一边练习再一边去学习理论! KNN很早就之前就看过 ...
机器学习实战之kNN算法
机器学习实战这本书是基于python的,如果我们想要完成python开发,那么python的开发环境必不可少: (1)python3.52,64位,这是我用的python版本 (2)numpy 1.1 ...
机器学习实战笔记——KNN约会网站
''' 机器学习实战——KNN约会网站优化 ''' import operator import numpy as np from numpy import * from matplotlib.fon ...
机器学习实战笔记——KNN
机器学习实战——读书笔记书籍奉上
基于Python的机器学习实战：KNN
1.KNN原理: 存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系.输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应 ...
吴裕雄--天生自然python机器学习实战：K-NN算法约会网站好友喜好预测以及手写数字预测分类实验
实验设备与软件环境硬件环境:内存ddr3 4G及以上的x86架构主机一部系统环境:windows 软件环境:Anaconda2(64位),python3.5,jupyter 内核版本:window ...

随机推荐

Ligg.EasyWinApp-10300-Ligg.EasyWinForm：View的配置
View的配置文件, 路径如下: .\Applications\xxxx(Apllication)\Clients\Form\Functions\yyyy(Function)\ Views\zzzz ...
Python3如何安装pip工具？
前几天安装Python的时候没有装上pip工具,所以只能现在手动安装了. 首先,访问https://bootstrap.pypa.io/get-pip.py这个网址,然后Ctrl+S将get-pip. ...
复杂的POI导出Excel表格（多行表头、合并单元格）
poi导出excel有两种方式: 第一种:从无到有的创建整个excel,通过HSSFWorkbook,HSSFSheet HSSFCell, 等对象一步一步的创建出工作簿,sheet,和单元格,并添加 ...
MySQL优化/面试，看这一篇就够了
原文链接:http://www.zhenganwen.top/articles/2018/12/25/1565048860202.html 作者:Anwen~链接:https://www.nowcod ...
centos8 yum 安装 rabbitmq
进入/etc/yum.repos.d/ 文件夹创建rabbitmq-erlang.repo 文件内容如下[rabbitmq-erlang] name=rabbitmq-erlangbaseurl=ht ...
Java IO系列之 ByteArrayInputStream
http://www.cnblogs.com/skywang12345/p/io_02.html
（day68）Vue-CLI项目、页面跳转和传参、生命周期钩子
目录一.Vue-CLI (一)环境搭建 (二)项目的创建 (三)项目目录结构 (四)Vue组件(.vue文件) (五)全局脚本文件main.js(项目入口) (六)Vue请求生命周期二.页面跳转和 ...
Redis分布式缓存实现
基于redis分布式缓存实现第一:Redis是什么? Redis是基于内存.可持久化的日志型.Key-Value数据库高性能存储系统,并提供多种语言的API. 第二:出现背景数据结构(Data S ...
php isset()和 in_array()
结果: 结论: isset()完胜
ElementPath
ElementTree库附带了一个简单的类似XPath的路径语言ElementPath主要区别在于,可以在ElementPath表达式中使用{namespace}标记符号但是,诸如值比较和函数之类的高 ...

机器学习实战之KNN

机器学习实战之KNN的更多相关文章

随机推荐

热门专题