简介

　　在所有机器学习算法中，k近邻（K-Nearest Neighbors，KNN）相对是比较简单的。尽管它很简单，但事实证明它在某些任务中非常有效，甚至更好。它可以用于分类和回归问题！然而，它更常用于分类问题。在本文中，我们将首先了解KNN算法背后的原理，研究计算点之间距离的不同方法，然后最终用Python实现该算法。

一个简单的例子来理解KNN背后的原理
KNN算法如何工作
计算点之间距离的方法
如何选择k因子
KNN聚类实例（python）

1.一个简单的例子来理解KNN背后的原理

　　让我们从一个简单的例子开始。请考虑下图，，我们有两类数据，分别是蓝色方块和红色三角形，他们分布在一个上图的二维中间中。那么假如我们有一个绿色圆圈这个数据，需要判断这个数据是属于蓝色方块这一类，还是与红色三角形同类呢？

　　我们先把离这个绿色圆圈最近的几个点找到，根据相似性，离绿色圆圈最近的才对它的类别有判断的帮助。那到底要用多少个来判断呢？这个个数就是k了。

如果k=3，就表示我们选择离绿色圆圈最近的3个点来判断，由于红色三角形所占比例为2/3，所以我们认为绿色圆是和红色三角形同类。
如果k=5，由于蓝色四方形比例为3/5，因此绿色圆被赋予蓝色四方形类。

它的思想很简单：如果一个样本在特征空间中的k个最相似（即特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别。

2.KNN算法如何工作

算法流程：

计算已知类别数据集中的点与当前点之间的距离；
按照距离递增次序排序；
选取与当前点距离最小的k个点；
确定前k个点所在类别的出现频率；
返回前k个点出现频率最高的类别作为当前点的预测分类

3.计算点之间距离的方法

第一步是计算新点和每个训练点之间的距离。有多种计算这种距离的方法，其中最常见的方法是 - 欧几里德，曼哈顿（对连续变量）和汉明距离（对分类变量）。

欧几里德距离：欧几里德距离计算为新点（x）和现有点（y）之间的平方差之和的平方根。
曼哈顿距离：这是实际向量之间的距离，使用它们的绝对差值之和。
汉明距离：用于分类变量。如果值（x）和值（y）相同，则距离D将等于0。否则D = 1。

一旦测量了新观测距离训练集中各点的距离，下一步就是选择最近的点。要考虑的点数由k的值定义。

4.如何选择k因子

　首先让我们试着了解K在算法中的确切影响。如果我们看到最后一个例子，假设所有训练观察值保持不变，给定K值我们可以为每个类创建边界。这些边界将两个别别分开。让我们试着看看“K”值对类边界的影响。以下是用不同的K值分隔两个类的不同边界：

　　仔细观察，可以发现：随着K值的增加，边界变得更加平滑。随着K增加到无穷大，它最终变成全蓝色或全红色。我们可以根据我们的训练和验证集的误差计算来决定它（毕竟，我们的最终目标是最小化误差）。

以下是具有不同k值的训练误差和验证误差：

　　对于非常低的k值（假设k = 1），模型过度拟合训练数据，这导致验证集上的高错误率。另一方面，对于较大的k值，该模型在训练和验证集上都表现不佳。如果仔细观察，会发现验证误差曲线在k = 9的值处达到最小值。该k值是模型的最佳值（对于不同的数据集，它将有所不同）。该曲线称为“肘形曲线”，通常用于确定k值。

　　我们还可以使用网格搜索技术来查找最佳k值。我们将在下一节中实现这一点。

5.KNN聚类实例

可以在这里下载数据集。

1.导入数据：

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

#查看数据

data.head()

2.变量的处理

　　由于类别变量为非数值型，我们需要进行处理。

name_list=data['Name'].unique()

for i in name_list:

    data.loc[data['Name']==i,'Name']=list(name_list).index(i)+1

data.head()

3.分割训练集和测试集

　　我们可以把数据70%用于训练，30%用于测试。

#create trainset  and testset

from sklearn.model_selection import train_test_split

train , test = train_test_split(data, test_size = 0.3)

x_train = train.drop('Name', axis=1)

y_train = train['Name']

x_test = test.drop('Name', axis = 1)

y_test = test['Name']

4.预处理 - 缩放功能

　　我们需要对数据进行归一化处理，即均值为0，方差为1。

　　好处：消除特征之间量级不同导致的影响。

#Preprocessing – Scaling the features

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler(feature_range=(0, 1))

x_train_scaled = scaler.fit_transform(x_train)

x_train = pd.DataFrame(x_train_scaled)

x_test_scaled = scaler.fit_transform(x_test)

x_test = pd.DataFrame(x_test_scaled)

5.查看不同k值下的分类错误率

　　我们用均方误差的平方根来衡量。

#import required packages

from sklearn import neighbors

from sklearn.metrics import mean_squared_error

from math import sqrt

rmse_val = [] #to store rmse values for different k

for K in range(20):

    K = K+1

    model = neighbors.KNeighborsRegressor(n_neighbors = K)

    model.fit(x_train, y_train)  #fit the model

    pred=model.predict(x_test) #make prediction on test set

    error = sqrt(mean_squared_error(y_test,pred)) #calculate rmse

    rmse_val.append(error) #store rmse values

    print('RMSE value for k= ' , K , 'is:', error)

画出分类错误曲线：

#plotting the rmse values against k values

curve = pd.DataFrame(rmse_val) #elbow curve

curve.plot()

　　正如我们所讨论的，当我们取k = 1时，我们得到一个非常高的RMSE值。随着我们增加k值，RMSE值减小。在k = 7时，RMSE约为0.2266，并且在进一步增加k值时上升。在这种情况下，我们可以判断，k = 7会给我们带来最好的结果。

这些是使用我们的训练数据集的预测。现在让我们预测测试数据集的值。

6.应用Gridsearch

　　为了确定k的值，每次绘制‘”肘曲线”是一个麻烦且繁琐的过程。您只需使用gridsearch即可找到最佳值。

from sklearn.model_selection import GridSearchCV

params = {'n_neighbors':[2,3,4,5,6,7,8,9]}

knn = neighbors.KNeighborsRegressor()

model = GridSearchCV(knn, params, cv=5)

model.fit(x_train,y_train)

model.best_params_

可以看出，k=4确实是最佳选择。

小结

　　KNN算法是最简单的分类算法之一。即使如此简单，它也可以提供极具竞争力的结果。 KNN算法也可用于回归问题。与讨论的方法的唯一区别将是使用最近邻居的平均值而不是从最近邻居投票。

优点

简单好用，容易理解，既可以用来做分类也可以用来做回归；
可用于数值型数据和离散型数据；
训练时间复杂度为O(n)；无数据输入假定；
对异常值不敏感。

缺点：

计算复杂性高；空间复杂性高；
样本不平衡问题（即有些类别的样本数量很多，而其它样本的数量很少）；
一般数值很大的时候不用这个，计算量太大。但是单个样本又不能太少，否则容易发生误分。
最大的缺点是无法给出数据的内在含义。

　以上对KNN的简单总结与应用，希望对您有所帮助！

k近邻聚类简介的更多相关文章

李航统计学习方法(第二版)（五）：k 近邻算法简介
1 简介 k近邻法的输入为实例的特征向量,对应于特征空间的点;输出为实例的类别,可以取多类.k近邻法假设给定一个训练数据集,其中的实例类别已定.分类时,对新的实例,根据其k个最近邻的训练实例的类别,通 ...
机器学习中 K近邻法(knn)与k-means的区别
简介 K近邻法(knn)是一种基本的分类与回归方法.k-means是一种简单而有效的聚类方法.虽然两者用途不同.解决的问题不同,但是在算法上有很多相似性,于是将二者放在一起,这样能够更好地对比二者的异 ...
<转>从K近邻算法、距离度量谈到KD树、SIFT+BBF算法
转自 http://blog.csdn.net/likika2012/article/details/39619687 前两日,在微博上说:“到今天为止,我至少亏欠了3篇文章待写:1.KD树:2.神经 ...
从K近邻算法、距离度量谈到KD树、SIFT+BBF算法
转载自:http://blog.csdn.net/v_july_v/article/details/8203674/ 从K近邻算法.距离度量谈到KD树.SIFT+BBF算法前言前两日,在微博上说: ...
数据挖掘入门系列教程（三）之scikit-learn框架基本使用（以K近邻算法为例）
数据挖掘入门系列教程(三)之scikit-learn框架基本使用(以K近邻算法为例) 简介 scikit-learn 估计器加载数据集进行fit训练设置参数预处理流水线结尾数据挖掘入门系 ...
K近邻法(KNN)原理小结
K近邻法(k-nearst neighbors,KNN)是一种很基本的机器学习方法了,在我们平常的生活中也会不自主的应用.比如,我们判断一个人的人品,只需要观察他来往最密切的几个人的人品好坏就可以得出 ...
scikit-learn K近邻法类库使用小结
在K近邻法(KNN)原理小结这篇文章,我们讨论了KNN的原理和优缺点,这里我们就从实践出发,对scikit-learn 中KNN相关的类库使用做一个小结.主要关注于类库调参时的一个经验总结. 1. s ...
K近邻分类法
K近邻法 K近邻法:假定存在已标记的训练数据集,分类时对新的实例根据其K个最近邻的训练实例的类别,通过多数表决等分类决策规则进行预测. k近邻不具有显示学习的过程,是“懒惰学习”(lazy learn ...
从K近邻算法谈到KD树、SIFT+BBF算法
转自 http://blog.csdn.net/v_july_v/article/details/8203674 ,感谢july的辛勤劳动前言前两日,在微博上说:“到今天为止,我至少亏欠了3篇文章 ...

随机推荐

js数组方法大全（下）
# js数组方法大全(下) 记录一下整理的js数组方法,免得每次要找方法都找不到.图片有点多,注意流量,嘻嘻! 本期分享 forEach() map() filer() every() some() ...
C++中对C的扩展学习新增语法——作用域运算符::
作用域运算符用来告诉编译器在哪个作用域范围搜索符号,一般分为以下3种: 全局作用域: 命名空间作用域: 类作用域:
如何对 React 函数式组件进行优化
文章首发个人博客前言目的本文只介绍函数式组件特有的性能优化方式,类组件和函数式组件都有的不介绍,比如 key 的使用.另外本文不详细的介绍 API 的使用,后面也许会写,其实想用好 hooks ...
nyoj 29-求转置矩阵问题 (行，列位置调换)
29-求转置矩阵问题内存限制:64MB 时间限制:3000ms Special Judge: No accepted:8 submit:18 题目描述: 求一个三行三列的转置矩阵. 输入描述: 第一 ...
PL真有意思（二）：程序设计语言语法
前言虽然标题是程序语言的语法,但是讲的是对词法和语法的解析,其实关于这个前面那个写编译器系列的描述会更清楚,有关语言语法的部分应该是穿插在整个设计当中的,也看语言设计者的心情了和英语汉语这些自然语 ...
Android 如何动态添加 View 并显示在指定位置。
引子最近,在做产品的需求的时候,遇到 PM 要求在某个按钮上添加一个新手引导动画,引导用户去点击.作为 RD,我哗啦啦的就写好相关逻辑了.自测完成后,提测,PM Review 效果. 看完后,PM ...
关于for循环中使用setTimeout
我们先来简单了解一下setTimeout延时器的运行机制.setTimeout会先将回调函数放到等待队列中,等待区域内其他主程序执行完毕后,按时间顺序先进先出执行回调函数.本质上是作用域的问题. 因此 ...
Xtrabackup 增量备份和增量还原
目录测试数据准备进行全量备份第一次增量插入一条数据进行第一次增量备份注意第二次增量插入一条数据进行第二次增量备份注意查看xtrabackup_binlog_info中的binlog位 ...
英语口语考试资料Friendships
Friendships Remember Friendships can be complicated. When you want to get to know someone, it helps ...
使用HttpReports快速搭建API分析平台
HttpReports 简单介绍 HttpReports 是 .Net Core下的一个Web组件,适用于 WebAPI 项目和 API 网关项目,通过中间件的形式集成到您的项目中, 通过HttpRe ...

k近邻聚类简介

简介