【Machine Learning in Action --2】K-最近邻分类

1、K-近邻算法（KNN）概述

K-近邻算法采用测量不同特征值之间的距离方法进行分类。

工作原理：存在一个样本数据集合（也称作训练样本集），并且样本集中每个数据都存在标签（即我们知道样本集中每一数据与所属分类的对应关系）。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，通常k是不大于20的整数。最后选择k个最相似数据中出现次数最多的分类，作为新数据的分类。

例如：电影分类，用K-近邻算法分类爱情片和动作片，假如有一部未看过的电影，如何确定它是爱情片还是动作片？

表1 每部电影的打斗镜头数、接吻镜头数以及电影评估类型

电影名称	打斗镜头	接吻镜头	电影类型
California Man	3	104	爱情片
He's Not Really into Dudes	2	100	爱情片
Beautiful Woman	1	81	爱情片
Kevin Longblade	101	10	动作片
Robo Slayer 3000	99	5	动作片
Amped II	98	2	动作片
?	18	90	未知

首先计算未知电影与样本集中其他电影的距离（先忽略如何计算得到这些距离值），如表2

表2 已知电影与未知电影的距离

电影名称	与未知电影的距离
California Man	20.5
He's Not Really into Dudes	18.7
Beautiful Woman	19.2
Kevin Longblade	115.3
Robo Slayer 3000	117.4
Amped II	118.9

现在按照距离递增排序，可以找到K个距离最近的电影。假定K=3，则三个最靠近的电影依次是He's Not Really into Dudes、Beautiful Woman、California Man。K-近邻算法按照距离最近的三部电影的类型，而这三部电影全是爱情片，因此我们判定未知电影是爱情片。

2、K-近邻算法的一般流程

（1）收集数据：可以使用任何方法

（2）准备数据：距离计算所需要的数值，最好是结构化的数据格式

（3）分析数据：可以使用任何方法

（4）训练算法：此步骤不适合用于K-近邻算法

（5）测试算法：计算错误率

（6）使用算法：首先需要输入样本数据和结构化的输出结果，然后运行K-近邻算法判定输入数据分别属于那个类别，最后应用对计算出的分类执行后续的处理。

3、用python实现kNN算法

首先创建名为kNN.py模块

在kNN.py文件中增加下面代码：

# -*- coding: utf-8 -*-

from numpy import *     #引入科学计算包numpy

import operator         #经典python函数库，运算符模块。

#创建数据集

def createDataSet():

    group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])

    labels=['A','A','B','B']

    return group,labels

#k-近邻算法核心

#inX：用户分类的输入向量，即将对其进行分类

#dataSet:训练样本集

#labels：标签向量

def classifyO(inX,dataSet,labels,k):

    #距离计算

    dataSetSize=dataSet.shape[0] #得到数组的行数，即知道有几个训练数据，这里为4

    diffMat=tile(inX,(dataSetSize,1))-dataSet  #tile是numpy中的函数，tile将一个数组，扩充成了4个一样的数组；diffMat得到目标与训练数值之间的差值

    sqDiffMat=diffMat**2         #各个差值分别平方

    sqDistances=sqDiffMat.sum(axis=1)  #对平方后的数据求和，sum(axis=1)表示求矩阵的行的和

    distances=sqDistances**0.5   #开方，得到距离

    sortedDistIndicies=distances.argsort()  #对距离进行升序排列

    #选择距离最小的k个点

    classCount={}

    for i in range(k):

        voteIlabel=labels[sortedDistIndicies[i]]  #获得前k个距离对应的类标签

        classCount[voteIlabel]=classCount.get(voteIlabel,0)+1 #对这些类标签进行统计，求出对应的数量，形成的列表有两列，一列为类标签，一列为数量

    #排序

       sortedClassCount=sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True)  #对上面前k个类标签数量进行排序

    return sortedClassCount[0][0] #取最小的距离对应的类标签

在centos中运行（kNN.py在desktop/algorithm/）

#cd algorithm

#python

>>>import kNN

>>>group,labels=kNN.createDataSet()

>>>group

array([[1. , 1.1],

           [1. , 1.  ],

           [0. , 0.  ],

           [0. , 0.1] ])

>>>labels

['A','A','B','B']

>>>kNN.classifyO([0,0],group,labels,3) #输入[0,0]测试值，测试运行结果

'B'

4、kNN算法的优缺点

优点：精度高，对异常数据不敏感（你的类别是由邻居中的大多数决定的，一个异常邻居并不能影响太大），无数据输入假定；

缺点：计算发杂度高（需要计算新的数据点与样本集中每个数据的“距离”，以判断是否是前k个邻居），空间复杂度高（巨大的矩阵）；无法给出任何数据的基础结构信息，无法知晓平均实例样本和典型实例样本具有什么特征。

适用数据范围：数值型（目标变量可以从无限的数值集合中取值）和标称型（目标变量只有在有限目标集中取值）。

【Machine Learning in Action --2】K-最近邻分类的更多相关文章

K近邻 Python实现机器学习实战(Machine Learning in Action)
算法原理 K近邻是机器学习中常见的分类方法之间,也是相对最简单的一种分类方法,属于监督学习范畴.其实K近邻并没有显式的学习过程,它的学习过程就是测试过程.K近邻思想很简单:先给你一个训练数据集D,包括 ...
学习笔记之机器学习实战 (Machine Learning in Action)
机器学习实战 (豆瓣) https://book.douban.com/subject/24703171/ 机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中 ...
机器学习实战（Machine Learning in Action）学习笔记————09.利用PCA简化数据
机器学习实战(Machine Learning in Action)学习笔记————09.利用PCA简化数据关键字:PCA.主成分分析.降维作者:米仓山下时间:2018-11-15机器学习实战(Ma ...
机器学习实战（Machine Learning in Action）学习笔记————08.使用FPgrowth算法来高效发现频繁项集
机器学习实战(Machine Learning in Action)学习笔记————08.使用FPgrowth算法来高效发现频繁项集关键字:FPgrowth.频繁项集.条件FP树.非监督学习作者:米 ...
机器学习实战（Machine Learning in Action）学习笔记————07.使用Apriori算法进行关联分析
机器学习实战(Machine Learning in Action)学习笔记————07.使用Apriori算法进行关联分析关键字:Apriori.关联规则挖掘.频繁项集作者:米仓山下时间:2018 ...
机器学习实战（Machine Learning in Action）学习笔记————06.k-均值聚类算法（kMeans）学习笔记
机器学习实战(Machine Learning in Action)学习笔记————06.k-均值聚类算法(kMeans)学习笔记关键字:k-均值.kMeans.聚类.非监督学习作者:米仓山下时间: ...
机器学习实战（Machine Learning in Action）学习笔记————05.Logistic回归
机器学习实战(Machine Learning in Action)学习笔记————05.Logistic回归关键字:Logistic回归.python.源码解析.测试作者:米仓山下时间:2018- ...
机器学习实战（Machine Learning in Action）学习笔记————02.k-邻近算法（KNN）
机器学习实战(Machine Learning in Action)学习笔记————02.k-邻近算法(KNN) 关键字:邻近算法(kNN: k Nearest Neighbors).python.源 ...
Machine Learning in Action(5) SVM算法
做机器学习的一定对支持向量机(support vector machine-SVM)颇为熟悉,因为在深度学习出现之前,SVM一直霸占着机器学习老大哥的位子.他的理论很优美,各种变种改进版本也很多,比如 ...
Machine Learning In Action 第二章学习笔记: kNN算法
本文主要记录<Machine Learning In Action>中第二章的内容.书中以两个具体实例来介绍kNN(k nearest neighbors),分别是: 约会对象预测手写数 ...

随机推荐

Linux镜像资源收集
1.企业搜狐开源镜像站: http://mirrors.sohu.com/ 网易开源镜像站: http://mirrors.163.com/ 阿里开源镜像站: http://mirrors.aliy ...
Latex问题收集
1. Latex中的空格两个quad空格 a \qquad b 两个m的宽度 quad空格 a \quad b 一个m的宽度大空格 a\ b 1/3m宽度中等空格 a\;b 2/7m宽度小空格 ...
C#抽象类与接口的区别
一.抽象类:抽象类是特殊的类,只是不能被实例化(可以用派生类实例化基类对象):除此以外,具有类的其他特性:重要的是抽象类可以包括抽象方法(当然它可以有普通方法),这是普通类所不能的.抽象方法只能声明于 ...
Maxwell顺态求解器电磁力分析
文源:技术邻问题描述:求解一段通有正弦交流电的直导线在某一稳态磁场中的受力情况,并简单验证仿真结果. 模型介绍: 如上几何模型中10mm边长立方体代表永磁体,材料属性为材料库中的NdFe35,修改磁 ...
SSH综合练习-仓库管理系统-第二天
SSH综合练习-仓库管理系统-第二天今天的主要内容: 货物入库页面信息自动补全回显功能:(学习目标:练习Ajax交互) 根据货物简记码来自动查询回显已有货物(Ajax回显) 根据货物名来自动查询补 ...
Linux下安装awstats日志统计分析
1. 下载安装 cd /data/software wget http://prdownloads.sourceforge.net/awstats/awstats-7.0-1.noarch.rpm 2 ...
count 数字计数（bzoj 1833）
Description 给定两个正整数a和b,求在[a,b]中的所有整数中,每个数码(digit)各出现了多少次. Input 输入文件中仅包含一行两个整数a.b,含义如上所述. Output 输出文 ...
CENTOS7小注意
由于第一次使用 Linux CENTOS ,所以安装了图形界面,但是在终端执行yum 安装的时候,总是提示 Existing lock /var/run/yum.pid: another copy i ...
第九十七节，使用JavaScript
使用JavaScript 学习要点: 1.创建一张HTML页面 2.<Script>标签解析 3.JS代码嵌入的一些问题一．创建一张HTML页面因为JavaScript是嵌套在html ...
onS 记录
1.用户的解锁用户因多次登录失败而被锁的情况下,可用faillog命令来解锁.具体如下 ...

【Machine Learning in Action --2】K-最近邻分类

【Machine Learning in Action --2】K-最近邻分类的更多相关文章

随机推荐

热门专题