KNN算法

K-近邻算法原理

K最近邻(kNN，k-NearestNeighbor)分类算法，见名思意。

我们的目的是要预测某个学生在数学课上的成绩。。。
先来说明几个基本概念：图中每个点代表一个样本（在这里是指一个学生），横纵坐标代表了特征（到课率，作业质量），不同的形状代表了类别（即：红色代表A（优秀），绿色代表D（不及格））。

我们现在看（10，20）这个点，它就代表着：在数学课上，某个学生到课率是10%，交作业质量是20分，最终导致了他期末考试得了D等级（不佳）。同理，这6个点也就代表了6个往届学生的平时状态和最终成绩，称之为训练样本。。。。

现在要来实现我们的预测目的了，想象一下现在一学期快过完了，张三同学马上要考试了，他想知道自己能考的怎么样，他在数学老师那里查到了自己的到课率85%，作业质量是90，那么怎么实现预测呢？

张三可以看做是（85,90）这个点–也被称之为测试样本，首先，我们计算张三到其他6位同学（训练样本）的距离，点到点的距离相信我们初中就学了吧（一般用的欧氏距离）。

再选取前K个最近的距离，例如我们选择k=3，那么我们就找出距离最近的三个样本分别属于哪个类别，此例中，自然三个都是A等，所以可预测出张三的数学期末成绩可能是A等（优秀）。倘若李四现在也想进行预测，据他较近的3个中两个D，一个A，那么李四的数学期末成绩被预测为D。这也就是最开始所说的：在前k个样本中选择频率最高的类别作为预测类别。。。

总结其计算步骤如下：

<code>1）算距离：给定测试对象，计算它与训练集中的每个对象的距离
2）找邻居：圈定距离最近的k个训练对象，作为测试对象的近邻
3）做分类：根据这k个近邻归属的主要类别，来对测试对象分类</code>

<code>1）算距离：给定测试对象，计算它与训练集中的每个对象的距离

2）找邻居：圈定距离最近的k个训练对象，作为测试对象的近邻

3）做分类：根据这k个近邻归属的主要类别，来对测试对象分类</code>

好了，经过上诉过程，你是否对KNN算法基本思想有了一定了解。

2 K-近邻的优缺点

KNN算法的优点：

1）简单、有效。

2）重新训练的代价较低（类别体系的变化和训练集的变化，在Web环境和电子商务应用中是很常见的）。

3）计算时间和空间线性于训练集的规模（在一些场合不算太大）。

4）由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合。

5）该算法比较适用于样本容量比较大的类域的自动分类，而那些样本容量较小的类域采用这种算法比较容易产生误分。

KNN算法缺点：

1）KNN算法是懒散学习方法（lazy learning,基本上不学习），一些积极学习的算法要快很多。

2）类别评分不是规格化的（不像概率评分）。

3）输出的可解释性不强，例如决策树的可解释性较强。

4）该算法在分类时有个主要的不足是，当样本不平衡时，如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。

该算法只计算“最近的”邻居样本，某一类的样本数量很大，那么或者这类样本并不接近目标样本，或者这类样本很靠近目标样本。无论怎样，数量并不能影响运行结果。可以采用权值的方法（和该样本距离小的邻居权值大）来改进。

5）计算量较大。目前常用的解决方法是事先对已知样本点进行剪辑，事先去除对分类作用不大的样本。3 K-近邻算法的Python实现

友情提示：本代码是基于Python2.7的，而且需要提前安装numpy函数库（这是我们常用的强大的科学计算包）。。。。

3.1 首先我们介绍一下代码实现步骤：

<code>1）计算已知类别数据集中的点与当前点之间的距离
2）按距离递增次序排序
3）选取与当前点距离最小的k个点
4）统计前k个点所在的类别出现的频率
5）返回前k个点出现频率最高的类别作为当前点的预测分类</code>

<code>1）计算已知类别数据集中的点与当前点之间的距离

2）按距离递增次序排序

3）选取与当前点距离最小的k个点

4）统计前k个点所在的类别出现的频率

5）返回前k个点出现频率最高的类别作为当前点的预测分类</code>

转载于数据科学与编程

KNN算法简介的更多相关文章

机器学习笔记--KNN算法1
前言 Hello ,everyone. 我是小花.大四毕业,留在学校有点事情,就在这里和大家吹吹我们的狐朋狗友算法---KNN算法,为什么叫狐朋狗友算法呢,在这里我先卖个关子,且听我慢慢道来. 一 K ...
KNN算法简单应用
这里是写给小白看的,大牛路过勿喷. 1 KNN算法简介 KNN(K-Nearest Neighbor)工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集 ...
机器学习——KNN算法（k近邻算法）
一 KNN算法 1. KNN算法简介 KNN(K-Nearest Neighbor)工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分 ...
JavaScript机器学习之KNN算法
译者按: 机器学习原来很简单啊,不妨动手试试! 原文: Machine Learning with JavaScript : Part 2 译者: Fundebug 为了保证可读性,本文采用意译而非直 ...
机器学习之KNN算法
1 KNN算法 1.1 KNN算法简介 KNN(K-Nearest Neighbor)工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属 ...
【转载】K-NN算法学习总结
声明:作者:会心一击出处:http://www.cnblogs.com/lijingchn/ 本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接, ...
K-NN算法学习总结
1. K-NN算法简介 K-NN算法 ( K Nearest Neighbor, K近邻算法 ), 是机器学习中的一个经典算法, 比较简单且容易理解. K-NN算法通过计算新数据与训练数据特征值之间的 ...
【Machine Learning】KNN算法虹膜图片识别
K-近邻算法虹膜图片识别实战作者:白宁超 2017年1月3日18:26:33 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结 ...
KNN算法[分类算法]
kNN(k-近邻)分类算法的实现 (1) 简介: (2)算法描述: (3) <?php /* *KNN K-近邻方法(分类算法的实现) */ /* *把.txt中的内容读到数组中保存,$file ...

随机推荐

json 异常
com.google.gson.JsonSyntaxException: 1530842820000 1530842820000 是服务器直接返回的Date值由 Gson 解析后出来的值. 后台发出: ...
android之RefBase
路径 system core libutils include utils RefBase.h namespace android 命名空间是android class TextOutput;// 这 ...
django + nginx + uwsgi
server{ listen ; server_name 0.0.0.0; charset utf-; access_log /var/log/nginx/access.log main; locat ...
20175314 《Java程序设计》第四周学习总结
20175314 <Java程序设计>第四周学习总结教材学习内容总结每个子类只能有一个父类,而一个父类可以有多个子类.可以使用关键字extends来定义一个类的子类:class 子类名 ...
220. Contains Duplicate III 数组指针差k数值差t
［抄题］: Given an array of integers, find out whether there are two distinct indices i and j in the arr ...
vba统计电脑计算机名和登陆的用户名
Public Sub GetIPT() gipt = Trim(InputBox("请输入所在组,只需输入前面的字母代码即可 A- groupA B-groupB C-groupC D-gr ...
java ssh执行shell脚本
1.添加依赖 com.jcraft:jsch ch.ethz.ganymed:ganymed-ssh2:262 2.获取连接 conn = new Connection(ip, port); conn ...
TUN/TAP编程实现
其实关于这两种设备的编程,基本上属于八股文,大家一般都这么干. 启动设备之前有的linux 并没有将tun 模块编译到内核之中,所以,我们要做的第一件事情就是检查我们的系统是否支持 TUN/TAP ...
我的java学习之旅--一些基础
(因为我粗略学过C,C++,Python,了解过他们的一些语法,所以为了使得java的入门更为顺畅,便会忽略一些和C语法相类似的地方,着重点明一些java自己的特色之处.也减轻一下自己写文字的负担.) ...
centos 7安装java开发环境
https://jingyan.baidu.com/article/29697b91660672ab20de3c15.html 自带版本是有问题的~

KNN算法简介

KNN算法

K最近邻(kNN，k-NearestNeighbor)分类算法，见名思意。

3.1 首先我们介绍一下代码实现步骤：

KNN算法简介的更多相关文章

随机推荐

热门专题