基本原理

KNN算法又叫最近邻居法,是一种非常简单易于掌握的分类算法。
其基本原理是,存在一个已知标签的数据集合,也就是训练样本集。
这个样本集中的每一个数据所属的分类都是已知的。
当一个没有标签的新数据需要确定自己属于哪个分类的时候,
只需要把新数据的每个特征和训练集中的每个数据的特征进行比较,
找出其中和新数据最相似(最近邻)的k个数据,
算法取这k个数据中出现次数最多的标签作为新数据的类别。
通常k不大于20。

代码实现

假如现在又四个已知点,[1.01.1], [1.01.0], [00], [00.1],类别标签分别是A、A、B、B
如果给定一个新的点[0, 0],那么怎么判断它属于A还是B呢?
按照KNN算法原理,需要执行以下操作:
计算训练集中各点与当前点之间的距离(本文采用最经典的欧式距离)
  1. 计算训练集中各点与当前点之间的距离(本文采用最经典的欧式距离)
  2. 按照距离递增次序对各点排序
  3. 选取与当前点距离最小的k个点
  4. 确定前k个点所在类别的出现频率
  5. 返回前k个点出现频率最高的类别,即为分类结果。

以下代码实现了KNN算法的分类过程
  1. # 创建训练数据集
  2. def creatDataSet():
  3. group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
  4. labels = ['A', 'A', 'B', 'B']
  5. return group, labels
  6. # ========================================
  7. # inX:输入待分类向量
  8. # dataSet:输入的训练样本集
  9. # labels:标签向量
  10. # k:用于选择最近邻居的数目
  11. # 分类器得出类别标签然后返回
  12. # =========================================
  13. def classify0 (inX, dataSet, labels, k):
  14. # shape返回表示行列数的元组,shape[0]获得行数
  15. dataSetSize = dataSet.shape[0]
  16. # 以inX为元素重复(dataSetSize, 1)次构成新的数组
  17. diffMat = tile(inX, (dataSetSize, 1))-dataSet
  18. sqDiffMat = diffMat**2
  19. # 矩阵行元素相加(如果axis = 0的话表示列相加)
  20. sqDistance = sqDiffMat.sum(axis = 1)
  21. distances = sqDistance**0.5
  22. # argsort()得到排序后原来位置的下标
  23. sortedDisIndicies = distances.argsort()
  24. classCount = {}
  25. for i in range(k):
  26. voteIlabel = labels[sortedDisIndicies[i]]
  27. classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
  28. sortedClassCount = sorted(classCount.iteritems(),
  29. # 构造函数key,获取对象的第1个域的值
  30. key = operator.itemgetter(1),
  31. # 升序排列
  32. reverse = True)
  33. # 返回分类器得出类别标签
  34. return sortedClassCount[0][0]

如果把上面问题中的待测试点[0, 0]和训练集生成函数的返回值group和labels作为参数输入分类器,选择k=3
即:
  1. classify0 ([0, 0], group, labels, 3):
会得到其标签为B

这就完成了一个基于KNN分类算法的简单分类器。
当然,在现实中的应用场景的复杂程度比这个例子大多了

【1】KNN(K-nearest neighbors algorithm)的更多相关文章

  1. 【Luogu2900】土地征用(斜率优化,动态规划)

    [Luogu2900]土地征用(斜率优化,动态规划) 题面 Description 农夫John准备扩大他的农场,他正在考虑N (1 <= N <= 50,000) 块长方形的土地. 每块 ...

  2. 【BZOJ1855】股票交易(动态规划,单调队列)

    [BZOJ1855]股票交易(动态规划,单调队列) 题面 BZOJ 题解 很显然,状态之和天数以及当天剩余的股票数有关 设\(f[i][j]\)表示第\(i\)天进行了交易,剩余股票数为\(j\)的最 ...

  3. 【BZOJ1004】Cards(组合数学,Burnside引理)

    [BZOJ1004]Cards(组合数学,Burnside引理) 题面 Description 小春现在很清闲,面对书桌上的N张牌,他决定给每张染色,目前小春只有3种颜色:红色,蓝色,绿色.他询问Su ...

  4. 【BZOJ2242】计算器(BSGS,快速幂)

    [BZOJ2242]计算器(BSGS,快速幂) 题面 BZOJ 洛谷 1.给定y.z.p,计算y^z mod p 的值: 2.给定y.z.p,计算满足xy ≡z(mod p)的最小非负整数x: 3.给 ...

  5. 【BZOJ4555】求和(多种解法混合版本)

    [BZOJ4555]求和(多种解法混合版本) 题面 BZOJ 给定\(n\),求 \[f(n)=\sum_{i=0}^{n}\sum_{j=0}^{i}S(i,j)\times 2^j \times ...

  6. 【BZOJ3456】城市规划(生成函数,多项式运算)

    [BZOJ3456]城市规划(生成函数,多项式运算) 题面 求\(n\)个点的无向连通图个数. \(n<=130000\) 题解 \(n\)个点的无向图的个数\(g(n)=2^{C_n^2}\) ...

  7. 【CF961G】Partitions(第二类斯特林数)

    [CF961G]Partitions(第二类斯特林数) 题面 CodeForces 洛谷 题解 考虑每个数的贡献,显然每个数前面贡献的系数都是一样的. 枚举当前数所在的集合大小,所以前面的系数\(p\ ...

  8. 【BZOJ4826】【HNOI2017】影魔(扫描线,单调栈)

    [BZOJ4826][HNOI2017]影魔(扫描线,单调栈) 题面 BZOJ 洛谷 Description 影魔,奈文摩尔,据说有着一个诗人的灵魂.事实上,他吞噬的诗人灵魂早已成千上万.千百年来,他 ...

  9. 【BZOJ2654】Tree(凸优化,最小生成树)

    [BZOJ2654]Tree(凸优化,最小生成树) 题面 BZOJ 洛谷 题解 这道题目是之前\(Apio\)的时候写的,忽然发现自己忘记发博客了... 这个万一就是一个凸优化, 给所有白边二分一个额 ...

  10. 【BZOJ4455】小星星(动态规划,容斥)

    [BZOJ4455]小星星(动态规划,容斥) 题面 BZOJ 洛谷 Uoj 题解 题意说简单点就是给定一张\(n\)个点的图和一棵\(n\)个点的树,现在要让图和树之间的点一一对应,并且如果树上存在一 ...

随机推荐

  1. SpringMVC项目案例之---数据的获取与显示

    数据的获取与显示 (一)功能 1.对用户输入的数据进行获取 2.将获取的数据显示到页面 3.使用了SpringMVC技术的注解方式 4.使用了过滤器,处理中文乱码问题 5.在web.xml中设置了访问 ...

  2. Flink 源码解析 —— 源码编译运行

    更新一篇知识星球里面的源码分析文章,去年写的,周末自己录了个视频,大家看下效果好吗?如果好的话,后面补录发在知识星球里面的其他源码解析文章. 前言 之前自己本地 clone 了 Flink 的源码,编 ...

  3. 08_代码块丶继承和final

    Day07笔记 课程内容 1.封装 2.静态 3.工具类 4.Arrays工具类 封装 概述 1.封装:隐藏事物的属性和实现细节,对外提供公共的访问方式 2.封装的好处: 隐藏了事物的实现细节 提高了 ...

  4. Java Web基础面试题整理

    Tomcat的缺省端口是多少,怎么修改 tomcat默认缺省端口是8080 修改方法: 找到Tomcat目录下的conf文件夹 进入conf文件夹里面找到server.xml文件 打开server.x ...

  5. exe4j打包--exe转安装包

    前面一篇已经详细的说明了打包成exe的步骤了,下面谈谈exe如何压缩成安装文件.这里用到之前的另外一个软件,具体软件看这篇文章 exe4j打包成exe 打开inno 编辑器 打开软件后我们选择 用[脚 ...

  6. 谷歌hack

    0x00 网上搜集整理的一些可能会用到的Googlehack语法 0x01 intitle: 从网页标题中搜索指定的关键字,可专门用来搜索指定版本名称的各类 web 程序,也可用 allintitle ...

  7. ggplot2: how to check the color and coreponding value pairs

    The way to check the color and coreponding value pairs in ggplot2 To see what colors are used to mak ...

  8. 某团面试题:JVM 堆内存溢出后,其他线程是否可继续工作?

    转载注明:http://dwz.win/gHc 最近网上出现一个美团面试题:"一个线程OOM后,其他线程还能运行吗?".我看网上出现了很多不靠谱的答案.这道题其实很有难度,涉及的知 ...

  9. malloc和free

    1.系统使用红黑树管理空闲堆空间,malloc是申请了堆一块内存的使用权,拿到了这个钥匙,然后红黑树该块的空闲标记被去除. 2.free后,红黑树重新标记该块内存为空闲,其他程序就可以申请到此块内存. ...

  10. static用法总结:

    这是我的第一篇随笔! 1.当1.cpp和2.cpp都定义了同一个全局时链接会报错,变量名冲突.需要将其中一个设置为static控制其作用域为只在一个源文件内部. 2.函数名也是全局的,故static的 ...