第一篇:K-近邻分类算法原理分析与代码实现
前言
本文介绍机器学习分类算法中的K-近邻算法并给出伪代码与Python代码实现。
算法原理
首先获取训练集中与目标对象距离最近的k个对象,然后再获取这k个对象的分类标签,求出其中出现频数最大的标签。
而这个标签,就是分类的结果。
伪代码
对训练集做以下操作:
1. 计算训练集中各点与当前点之间的距离(本文采用最经典的欧式距离)
2. 按照距离递增次序对各点排序
3. 选取与当前点距离最小的k个点
4. 确定前k个点所在类别的出现频率
5. 返回前k个点出现频率最高的类别,即为分类结果。
特别说明:该算法中,因为没有训练步骤,因此对它而言训练集也就是数据集。
代码示例
#!/usr/bin/env python # -*- coding:UTF-8 -*- ''' Created on 2016-12-05 @author: fangmeng ''' # 导入numpy数学运算库 import numpy # 导入运算符函数库 import operator # ============================================== # 输入: # 空 # 输出: # group, labels:样本训练集及其对应标签集 # ============================================== def createDataSet(): '创建训练集及其对应标签集并返回' group = numpy.array([[1.0, 1.1], [1.0, 1.0], [0.0, 0.0], [0.0, 0.1]]) labels = ['A', 'A', 'B', 'B'] return group, labels # ============================================== # 输入: # inX:目标向量 # dataSet:训练集 # labels:训练集对应的标签集 # k:算法参数 # 输出: # sortedClassCount[0][0]:目标向量的分类结果 # ============================================== def classify0 (inX, dataSet, labels, k): 'kNN 分类器' #计算目标向量与训练集中所有对象的距离并排序 dataSetSize = dataSet.shape[0] diffMat = numpy.tile(inX, (dataSetSize, 1)) - dataSet sqDiffMat = diffMat ** 2 sqDistances = sqDiffMat.sum(axis=1) distances = sqDistances ** 0.5 sortedDistIndicies = distances.argsort() # 返回数组从小到大的索引值 # 取出与目标向量距离最近的三个 classCount = {} # 该字典存放各种标签及其对应的频数 for i in range(k): # 由前 k 位索引的结果构建字典 voteIlable = labels[sortedDistIndicies[i]] classCount[voteIlable] = classCount.get(voteIlable, 0)+1 # 以各个标签的频率为基准进行排序 sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True) return sortedClassCount[0][0] # 返回出现频率最高的标签 def test(): '分类器测试函数' # 新建训练集及其对应标签集 group, labels = createDataSet() # 输入目标向量并返回分类结果后打印 label = classify0([0.0, 0.0], group, labels, 3) print label if __name__ == '__main__': # 调用测试函数 test()
运行结果
小结
1. 本文简要介绍了机器学习中经典的K-近邻算法,并给出了代码实现。
2. 该算法的缺点有三个:
a. 耗费空间资源大:要保存整个数据集
b. 耗费时间资源大:要对数据集中的每个样本求距离。当样本很多,或者特征信息多的时候,效率是挺坑的。
c. 没有给出数据的基础结构信息。(本身K-近邻算法就没有严格意义上的训练过程)
3. 后面的文章中,将讲解如何将此算法应用于具体项目中。
第一篇:K-近邻分类算法原理分析与代码实现的更多相关文章
- 第七篇:Logistic回归分类算法原理分析与代码实现
前言 本文将介绍机器学习分类算法中的Logistic回归分类算法并给出伪代码,Python代码实现. (说明:从本文开始,将接触到最优化算法相关的学习.旨在将这些最优化的算法用于训练出一个非线性的函数 ...
- Logistic回归分类算法原理分析与代码实现
前言 本文将介绍机器学习分类算法中的Logistic回归分类算法并给出伪代码,Python代码实现. (说明:从本文开始,将接触到最优化算法相关的学习.旨在将这些最优化的算法用于训练出一个非线性的函数 ...
- 第十三篇:K-Means 聚类算法原理分析与代码实现
前言 在前面的文章中,涉及到的机器学习算法均为监督学习算法. 所谓监督学习,就是有训练过程的学习.再确切点,就是有 "分类标签集" 的学习. 现在开始,将进入到非监督学习领域.从经 ...
- K近邻分类算法实现 in Python
K近邻(KNN):分类算法 * KNN是non-parametric分类器(不做分布形式的假设,直接从数据估计概率密度),是memory-based learning. * KNN不适用于高维数据(c ...
- 查看neighbors大小对K近邻分类算法预测准确度和泛化能力的影响
代码: # -*- coding: utf-8 -*- """ Created on Thu Jul 12 09:36:49 2018 @author: zhen &qu ...
- 第十四篇:Apriori 关联分析算法原理分析与代码实现
前言 想必大家都听过数据挖掘领域那个经典的故事 - "啤酒与尿布" 的故事. 那么,具体是怎么从海量销售信息中挖掘出啤酒和尿布之间的关系呢? 这就是关联分析所要完成的任务了. 本文 ...
- Apriori 关联分析算法原理分析与代码实现
前言 想必大家都听过数据挖掘领域那个经典的故事 - "啤酒与尿布" 的故事. 那么,具体是怎么从海量销售信息中挖掘出啤酒和尿布之间的关系呢? 这就是关联分析所要完成的任务了. 本文 ...
- K-Means 聚类算法原理分析与代码实现
前言 在前面的文章中,涉及到的机器学习算法均为监督学习算法. 所谓监督学习,就是有训练过程的学习.再确切点,就是有 "分类标签集" 的学习. 现在开始,将进入到非监督学习领域.从经 ...
- K邻近分类算法
# -*- coding: utf-8 -*- """ Created on Thu Jun 28 17:16:19 2018 @author: zhen "& ...
随机推荐
- Magento 2.0 安装
环境: 直接升到最新版PHP5.6.x 刚才开MAC OS PHP 5.5 CENTOS PHP 5.5 composer install 依懒包错误.反复安装组件.还是不行.后来决定重新编释最 ...
- JavaIO流——File类
1.掌握File 类的作用 2.可以使用File 类中的方法对文件进行操作 所有的 io 操作都保存在 java.io 包中. 构造方法:public File (String pathname) 直 ...
- html5桌面通知,notification的使用,右下角出现通知框
1先判断浏览器是否支持:window.Notification 2判断浏览器是否开启提示的权限:Notification.permission === 'granted'(如果不允许则设置为允许:No ...
- arp欺骗
arp欺骗原理 某机器A要向主机B发送报文,会查询本地的ARP缓存表,找到B的IP地址对应的MAC地址后,就会进行数据传输.如果未找到,则广播A一个ARP请求报文(携带主机A的IP地址Ia——物理地址 ...
- JSP HTML区别
1.最简单的区别就是,HTML能直接打开,jsp只能发布到Tomact等服务器上才能打开2.定义上HTML页面是静态页面可以直接运行,JSP页面是动态页它运行时需要转换成servlet.3.他们的表头 ...
- MFC 如何改变对话框按钮上的文字
原文地址:http://blog.163.com/wenxianliang08@126/blog/static/8358326320110300643282/ 什么是标记菜单 如何标记菜单 如何 ...
- 使用单调队列优化的 O(nm) 多重背包算法
我搜索了一下,找到了一篇很好的博客,讲的挺详细:链接. 解析 多重背包的最原始的状态转移方程: 令 c[i] = min(num[i], j / v[i]) f[i][j] = max(f[i-1][ ...
- IllegalArgumentException: Does not contain a valid host:port authority: master:8031
java.lang.IllegalArgumentException: Does not contain a valid host:port authority: master:8031 (confi ...
- poj2228
这显然是一道环形dp的题目 处理环形我们都是要转化为线性来做 一般有这么两种方法处理 复制一段到最后 (比如说noip的能量项链) 考查环形对dp的影响然后分类讨论(比如bzoj1040) 这道题我们 ...
- Poetize6: Acting Cute
3042: Acting Cute Time Limit: 10 Sec Memory Limit: 128 MBSubmit: 59 Solved: 36[Submit][Status] Des ...