基于Python的机器学习实战：KNN

1.KNN原理：

存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中最相似数据（最近邻）的分类标签。一般来说，只选择样本数据集中前 $k$ 个最相似的数据，这就是KNN算法 $k$ 的出处, 通常 $k$ 是不大于20的整数。最后，选择 $k$ 个最相似数据中出现次数最多的分类，作为新数据的分类。

2.实验准备：

Python
scikit-learn（一个基于python的机器学习库）

3.实验代码：

代码有两个版本，一个是自己编写的简单的KNN算法实现，一个是基于scikit-learn库中KNN算法实现的，数据均采用scikit-learn中的手写体数据集。

版本1（自己编写）：

# -*- coding: utf-8 -*-

"""

This script is an exercise on KNN.

Created on Tue Nov 03 21:21:39 2015

@author: 90Zeng

"""

import numpy as np

from sklearn import datasets

import operator

#-----------------function classify--------------------------------------

def classify0(inX, dataSet, labels, k):

    dataSetSize = dataSet.shape[ 0 ]

    # 计算输入的向量inX与所有样本的距离

    diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet

    sqDiffMat = diffMat ** 2

    sqDistances = sqDiffMat.sum(axis = 1)

    distances = sqDistances ** 0.5

    # 对距离大小进行排序

    sortedDistIndices = distances.argsort()

    classCount = {}

    # 选择距离最小的 K 个点

    for i in range(k):

        voteLabel = labels[ sortedDistIndices[i] ]

        classCount[ voteLabel ] = classCount.get(voteLabel, 0) + 1

    # 按照类别的数量多少进行排序

    sortedClassCount = sorted(classCount.iteritems(),

                                 key=operator.itemgetter(1), reverse=True)

    return sortedClassCount[0][0]  # 返回类别数最多的类别名称

#-------------------end of function classify--------------------------------

def handwritingClassTest():

    # 导入数据

    digits = datasets.load_digits()

    totalNum = len(digits.data)

    # 选出90%样本作为训练样本，其余10%测试

    trainNum = int(0.8 * totalNum)

    trainX = digits.data[0 : trainNum]

    trainY = digits.target[0 : trainNum]

    testX = digits.data[trainNum:]

    testY = digits.target[trainNum:]

    errorCount = 0

    testExampleNum = len( testX )

    for i in range( testExampleNum ):

        # 测试样本在测试集中真实的类别

        trueLabel = testY[i]

        classifierResult = classify0( testX[ i, : ], trainX, trainY, 5 )

        print "\nThe classifier came back with: %d, the real answer is: %d"\

            % ( classifierResult, trueLabel )

        if trueLabel != classifierResult:

            errorCount += 1

        else:

            pass

    print "\nThe total number of errors is: %d" % errorCount

    print "\nthe total error rate is: %f" % (

        errorCount / float( testExampleNum)

        )

if __name__ == '__main__':

    print "start..."

    handwritingClassTest()

运行结果：

版本2（使用库函数）：

# -*- coding: utf-8 -*-

"""

This script is an exercise on KNN.

Created on Tue Nov 06 21:26:39 2015

@author: ZengJiulin

"""

print(__doc__)

import numpy as np

from sklearn import neighbors, datasets

digits = datasets.load_digits()

totalNum = len(digits.data)

# 选出90%样本作为训练样本，其余10%测试

trainNum = int(0.8 * totalNum)

trainX = digits.data[0 : trainNum]

trainY = digits.target[0 : trainNum]

testX = digits.data[trainNum:]

testY = digits.target[trainNum:]

n_neighbors = 10

clf = neighbors.KNeighborsClassifier(n_neighbors, weights='uniform')

clf.fit(trainX, trainY)

Z = clf.predict(testX)

print "\nthe total error rate is: %f" % ( 1 - np.sum(Z==testY) / float(len(testX)) )

运行结果：

4.总结

KNN的优点：精度高、对异常值不敏感，无数据输入假定

缺点：计算复杂度高（要计算待分类样本与所有已知类别样本的距离），空间复杂度高（存储所有样本点和目标样本的距离）

基于Python的机器学习实战：KNN的更多相关文章

基于Python的机器学习实战：Apriori
目录: 1.关联分析 2. Apriori 原理 3. 使用 Apriori 算法来发现频繁集 4.从频繁集中挖掘关联规则 5. 总结 1.关联分析返回目录关联分析是一种在大规模数据集中寻找有趣 ...
基于Python的机器学习实战：AadBoost
目录: 1. Boosting方法的简介 2. AdaBoost算法 3.基于单层决策树构建弱分类器 4.完整的AdaBoost的算法实现 5.总结 1. Boosting方法的简介返回目录 Boo ...
【python与机器学习实战】感知机和支持向量机学习笔记（一）
对<Python与机器学习实战>一书阅读的记录,对于一些难以理解的地方查阅了资料辅以理解并补充和记录,重新梳理一下感知机和SVM的算法原理,加深记忆. 1.感知机感知机的基本概念感知机 ...
机器学习实战kNN之手写识别
kNN算法算是机器学习入门级绝佳的素材.书上是这样诠释的:“存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都有标签,即我们知道样本集中每一条数据与所属分类的对应关系.输入没有标签的新数据 ...
K近邻 Python实现机器学习实战(Machine Learning in Action)
算法原理 K近邻是机器学习中常见的分类方法之间,也是相对最简单的一种分类方法,属于监督学习范畴.其实K近邻并没有显式的学习过程,它的学习过程就是测试过程.K近邻思想很简单:先给你一个训练数据集D,包括 ...
《机器学习实战-KNN》—如何在cmd命令提示符下运行numpy和matplotlib
问题背景:好吧,文章标题是瞎取得.平常用cmd运行python代码问题不大,我在学习<机器学习实战>这本书时,发现cmd无法运行import numpy as np以及import mat ...
朴素贝叶斯算法的python实现 -- 机器学习实战
import numpy as np import re #词表到向量的转换函数 def loadDataSet(): postingList = [['my', 'dog', 'has', 'fle ...
基于python的机器学习开发环境安装（最简单的初步开发环境）
一.安装Python 1.下载安装python3.6 https://www.python.org/getit/ 2.配置环境变量(2个) 略...... 二.安装Python算法库安装顺序:Num ...
机器学习实战-KNN
KNN算法很简单,大致的工作原理是:给定训练数据样本和标签,对于某测试的一个样本数据,选择距离其最近的k个训练样本,这k个训练样本中所属类别最多的类即为该测试样本的预测标签.简称kNN.通常k是不大于 ...

随机推荐

自学Python2.8-条件(if、if...else）
自学Python之路自学Python2.8-条件(if.if...else) 1.if 判断语句 if语句是用来进行判断的,其使用格式如下: if 要判断的条件: 条件成立时,要做的事情当“判断 ...
软Raid5制作
以raid5为例: 1.添加4块磁盘要求:容量.转速.接口一样的硬盘. 2.创建分区并修改ID[root@localhost ~]# fdisk /dev/sdb[root@localhost ~]# ...
bzoj2599/luogu4149 [IOI2011]Race (点分治)
点分治.WA了一万年. 重点就是统计答案的方法做法一(洛谷AC bzojWA 自测WA): 做点x时记到x距离为k的边数最小值为dis[k],然后对每一对有值的dis[i]和dis[K-i],给an ...
洛谷【P2458】[SDOI2006]保安站岗题解树上DP
题目描述五一来临,某地下超市为了便于疏通和指挥密集的人员和车辆,以免造成超市内的混乱和拥挤,准备临时从外单位调用部分保安来维持交通秩序. 已知整个地下超市的所有通道呈一棵树的形状:某些通道之间可以互 ...
题解【bzoj4650 [NOI2016]优秀的拆分】
Description 求对每一个连续字串将它切割成形如 AABB 的形式的方案数之和 Solution 显然 AABB 是由两个 AA 串拼起来的考虑维护两个数组 a[i] 和 b[i] ,其中 ...
H5新特性之拖拽文件
H5新增了drag事件,在H5中拖拽是十分常见的. 可以拖拽的分为页面内的和页面外的页面内的一般默认可以拖拽的是img和a标签页面外的常指的是文件上代码吧~ let zoom = documen ...
H3C配置FTP服务器
H3C配置FTP服务器作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.FTP协议简介 1.FTP协议是互联网上广泛使用的文件传输协议 FTP文件传送协议(File Transf ...
python---RabbitMQ（3）exchange中关键字发送direct（组播）
设置关键字,交换机根据消费者传递的关键字判断是否与生产者的一致,一致则将数据传递给消费者可以实现对消息分组生产者: # coding:utf8 # __author: Administrator ...
一张非常强大的OSI七层模型图解。。。
源自http://www.colasoft.com.cn/download/protocols_map.php,非常适合小白入门,后面罗列出来方便大家浏览记忆...(不经意间看到的,分享一下) OSI ...
谈谈你对MVC的理解
MVC 模式 MVC 模式代表 Model-View-Controller(模型-视图-控制器) 模式.这种模式用于应用程序的分层开发. Model(模型) - 模型代表一个存取数据的对象或 JAVA ...

基于Python的机器学习实战：KNN

基于Python的机器学习实战：KNN的更多相关文章

随机推荐

热门专题