基本原理

KNN算法又叫最近邻居法,是一种非常简单易于掌握的分类算法。
其基本原理是,存在一个已知标签的数据集合,也就是训练样本集。
这个样本集中的每一个数据所属的分类都是已知的。
当一个没有标签的新数据需要确定自己属于哪个分类的时候,
只需要把新数据的每个特征和训练集中的每个数据的特征进行比较,
找出其中和新数据最相似(最近邻)的k个数据,
算法取这k个数据中出现次数最多的标签作为新数据的类别。
通常k不大于20。

代码实现

假如现在又四个已知点,[1.01.1], [1.01.0], [00], [00.1],类别标签分别是A、A、B、B
如果给定一个新的点[0, 0],那么怎么判断它属于A还是B呢?
按照KNN算法原理,需要执行以下操作:
计算训练集中各点与当前点之间的距离(本文采用最经典的欧式距离)
  1. 计算训练集中各点与当前点之间的距离(本文采用最经典的欧式距离)
  2. 按照距离递增次序对各点排序
  3. 选取与当前点距离最小的k个点
  4. 确定前k个点所在类别的出现频率
  5. 返回前k个点出现频率最高的类别,即为分类结果。

以下代码实现了KNN算法的分类过程
  1. # 创建训练数据集
  2. def creatDataSet():
  3. group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
  4. labels = ['A', 'A', 'B', 'B']
  5. return group, labels
  6. # ========================================
  7. # inX:输入待分类向量
  8. # dataSet:输入的训练样本集
  9. # labels:标签向量
  10. # k:用于选择最近邻居的数目
  11. # 分类器得出类别标签然后返回
  12. # =========================================
  13. def classify0 (inX, dataSet, labels, k):
  14. # shape返回表示行列数的元组,shape[0]获得行数
  15. dataSetSize = dataSet.shape[0]
  16. # 以inX为元素重复(dataSetSize, 1)次构成新的数组
  17. diffMat = tile(inX, (dataSetSize, 1))-dataSet
  18. sqDiffMat = diffMat**2
  19. # 矩阵行元素相加(如果axis = 0的话表示列相加)
  20. sqDistance = sqDiffMat.sum(axis = 1)
  21. distances = sqDistance**0.5
  22. # argsort()得到排序后原来位置的下标
  23. sortedDisIndicies = distances.argsort()
  24. classCount = {}
  25. for i in range(k):
  26. voteIlabel = labels[sortedDisIndicies[i]]
  27. classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
  28. sortedClassCount = sorted(classCount.iteritems(),
  29. # 构造函数key,获取对象的第1个域的值
  30. key = operator.itemgetter(1),
  31. # 升序排列
  32. reverse = True)
  33. # 返回分类器得出类别标签
  34. return sortedClassCount[0][0]

如果把上面问题中的待测试点[0, 0]和训练集生成函数的返回值group和labels作为参数输入分类器,选择k=3
即:
  1. classify0 ([0, 0], group, labels, 3):
会得到其标签为B

这就完成了一个基于KNN分类算法的简单分类器。
当然,在现实中的应用场景的复杂程度比这个例子大多了

【1】KNN(K-nearest neighbors algorithm)的更多相关文章

  1. 【Luogu2900】土地征用(斜率优化,动态规划)

    [Luogu2900]土地征用(斜率优化,动态规划) 题面 Description 农夫John准备扩大他的农场,他正在考虑N (1 <= N <= 50,000) 块长方形的土地. 每块 ...

  2. 【BZOJ1855】股票交易(动态规划,单调队列)

    [BZOJ1855]股票交易(动态规划,单调队列) 题面 BZOJ 题解 很显然,状态之和天数以及当天剩余的股票数有关 设\(f[i][j]\)表示第\(i\)天进行了交易,剩余股票数为\(j\)的最 ...

  3. 【BZOJ1004】Cards(组合数学,Burnside引理)

    [BZOJ1004]Cards(组合数学,Burnside引理) 题面 Description 小春现在很清闲,面对书桌上的N张牌,他决定给每张染色,目前小春只有3种颜色:红色,蓝色,绿色.他询问Su ...

  4. 【BZOJ2242】计算器(BSGS,快速幂)

    [BZOJ2242]计算器(BSGS,快速幂) 题面 BZOJ 洛谷 1.给定y.z.p,计算y^z mod p 的值: 2.给定y.z.p,计算满足xy ≡z(mod p)的最小非负整数x: 3.给 ...

  5. 【BZOJ4555】求和(多种解法混合版本)

    [BZOJ4555]求和(多种解法混合版本) 题面 BZOJ 给定\(n\),求 \[f(n)=\sum_{i=0}^{n}\sum_{j=0}^{i}S(i,j)\times 2^j \times ...

  6. 【BZOJ3456】城市规划(生成函数,多项式运算)

    [BZOJ3456]城市规划(生成函数,多项式运算) 题面 求\(n\)个点的无向连通图个数. \(n<=130000\) 题解 \(n\)个点的无向图的个数\(g(n)=2^{C_n^2}\) ...

  7. 【CF961G】Partitions(第二类斯特林数)

    [CF961G]Partitions(第二类斯特林数) 题面 CodeForces 洛谷 题解 考虑每个数的贡献,显然每个数前面贡献的系数都是一样的. 枚举当前数所在的集合大小,所以前面的系数\(p\ ...

  8. 【BZOJ4826】【HNOI2017】影魔(扫描线,单调栈)

    [BZOJ4826][HNOI2017]影魔(扫描线,单调栈) 题面 BZOJ 洛谷 Description 影魔,奈文摩尔,据说有着一个诗人的灵魂.事实上,他吞噬的诗人灵魂早已成千上万.千百年来,他 ...

  9. 【BZOJ2654】Tree(凸优化,最小生成树)

    [BZOJ2654]Tree(凸优化,最小生成树) 题面 BZOJ 洛谷 题解 这道题目是之前\(Apio\)的时候写的,忽然发现自己忘记发博客了... 这个万一就是一个凸优化, 给所有白边二分一个额 ...

  10. 【BZOJ4455】小星星(动态规划,容斥)

    [BZOJ4455]小星星(动态规划,容斥) 题面 BZOJ 洛谷 Uoj 题解 题意说简单点就是给定一张\(n\)个点的图和一棵\(n\)个点的树,现在要让图和树之间的点一一对应,并且如果树上存在一 ...

随机推荐

  1. 【一些小常识】Linux文件目录的通配符用法/*

    在使用linux命令的时候,一时有点搞不清*的用法,于是整理记录下,在做jenkins 持续集成时还是很有用的 “*”在通配符中是最常用的一种,主要整理下在使用Linux命令时,文件夹目录的用法. 1 ...

  2. spring-boot-starter-quartz集群实践

    [**前情提要**]由于项目需要,需要一个定时任务集群,故此有了这个spring-boot-starter-quartz集群的实践.springboot的版本为:2.1.6.RELEASE:quart ...

  3. java并发编程(二十三)----(JUC集合)ConcurrentSkipListMap介绍

    ConcurrentSkipListMap提供了一种线程安全的并发访问的排序映射表.内部是SkipList(跳表)结构实现,在理论上能够在O(log(n))时间内完成查找.插入.删除操作. 理解Ski ...

  4. Transformation HDU - 4578(线段树——懒惰标记的妙用)

    Yuanfang is puzzled with the question below: There are n integers, a 1, a 2, …, a n. The initial val ...

  5. 通过Blazor使用C#开发SPA单页面应用程序(1)

    2019年9月23——25日 .NET Core 3.0即将在.NET Conf上发布! .NET Core的发布及成熟重燃了.net程序员的热情和希望,一些.net大咖也在积极的为推动.NET Co ...

  6. Vue cli2.0 项目中使用Monaco Editor编辑器

    monaco-editor 是微软出的一条开源web在线编辑器支持多种语言,代码高亮,代码提示等功能,与Visual Studio Code 功能几乎相同. 在项目中可能会用带代码编辑功能,或者展示代 ...

  7. unsqueeze 和 squeeze

    squeeze压缩的意思 就是在第几维为1 去掉 unsqueeze 解缩 在第几维增加 变成*1 squeeze用法 c = b.view(1, 1, 1, 2, 3) c.squeeze(0) # ...

  8. Unity进阶之ET网络游戏开发框架 08-深入登录成功消息

    版权申明: 本文原创首发于以下网站: 博客园『优梦创客』的空间:https://www.cnblogs.com/raymondking123 优梦创客的官方博客:https://91make.top ...

  9. 狄利克雷卷积&莫比乌斯反演证明

    狄利克雷卷积简介 卷积这名字听起来挺学究的,今天学了之后发现其实挺朴实hhh. 卷积: "(n)"表示到n的一个范围. 设\(f,g\)是两个数论函数(也就是说,以自然数集为定义域 ...

  10. Spring中jdbcTemplate的用法实例

    一.首先配置JdbcTemplate: 要使用Jdbctemplate 对象来完成jdbc 操作.通常情况下,有三种种方式得到JdbcTemplate 对象.       第一种方式:我们可以在自己定 ...