k近邻(KNN)复习总结

摘要：

　　1.算法概述

　　2.算法推导

　　3.算法特性及优缺点

　　4.注意事项

　　5.实现和具体例子

　　6.适用场合
内容：

1.算法概述

　　K近邻算法是一种基本分类和回归方法；分类时，根据其K个最近邻的训练实例的类别，通过多数表决等方式进行预测；k近邻法实际上利用训练数据集对特征向量空间进行划分，并作为其分类的"模型"（Cover和Hart 在1968）--参考自《统计学习方法》

　　回归是根据k个最近邻预测值计算的平均值--参考自scikit-learn官网

2.算法推导

2.1 kNN三要素

　　k值的选择：当k值较小时，预测结果对近邻的实例点非常敏感，容易发生过拟合；如果k值过大模型会倾向大类，容易欠拟合；通常k是不大于20的整数（参考《机器学习实战》）

　　距离度量：不同距离度量所确定的最近邻点是不同的

　　分类决策规则：多数表决（majority voting）规则是在损失函数是0-1损失函数时的经验风险最小化

2.2 KD树：解决对k近邻进行快速搜索的一种二叉树，构造kd树相当于不断用垂直于坐标轴的超平面对特征空间进行划分，最终构成一系列的K维超矩阵区域；每一个节点对应于一个k维超矩形区域。一般情况下顺序选择坐标轴及坐标轴的中位数（下图中取的最中间两个数较大的一个数）进行切分。kd树是平衡的但效率未必最优--参考自《统计学习方法》

KD树只在小于等于20维的数据集上可以快速搜索，但是当维数增长时效率降低　　

如下图对T = {(2,3),(5,4),(9,6),(4,7),(8,1),(7,2)}建立kd树的结果：

2.3　ball tree:解决高维空间下kd树失效的一种树形结构；Ball树根据质心C和半径r对数据进行递归的划分，每一个数据点都会被划分到一个特定的质心C和半径r的的超球体里面，在搜索的时候，候选的点会使用|x+y| <= |x| + |y|进行筛选（papers:“Five balltree construction algorithms”）

　　如下图是显示了一个2维平面包含16个观测实例的图（参考自）：

3.算法特性及优缺点

　　优点：精度高，对异常值不敏感

　　缺点：k值敏感，空间复杂度高（需要保存全部数据）,时间复杂度高（平均O(logM)，M是训练集样本数）

4.注意事项

　　归一化：基于距离的函数，要进行归一化；否则可能造成距离计算失效

5.实现和具体例子

　　构建KD树并使用KD树进行最近邻搜索（《统计学习方法》算法3.2和3.3）

　　机器学习实战中的提高约会网站配对指数和手写识别的例子（numpy实现，未使用KD树）

　　scikit-learn使用KNN进行分类的例子（分类决策上可以加大邻近点的权重)；

　　ball tree 实现的例子（有时间研究下）

6.适用场合

　　是否支持大规模数据：单机下时间和空间消耗大，不过可以通过分布式解决（github上找到的一个spark knn实现，有时间研究下）

　　特征维度

　　是否有 Online 算法:有

　　特征处理：支持数值型数据，类别型类型需要进行0-1编码

k近邻(KNN)复习总结的更多相关文章

机器学习经典算法具体解释及Python实现--K近邻(KNN)算法
(一)KNN依旧是一种监督学习算法 KNN(K Nearest Neighbors,K近邻 )算法是机器学习全部算法中理论最简单.最好理解的.KNN是一种基于实例的学习,通过计算新数据与训练数据特征值 ...
机器学习-K近邻(KNN)算法详解
一.KNN算法描述 KNN(K Near Neighbor):找到k个最近的邻居,即每个样本都可以用它最接近的这k个邻居中所占数量最多的类别来代表.KNN算法属于有监督学习方式的分类算法,所谓K近 ...
k近邻 KNN
KNN是通过测量对象的不同特征值之间的距离进行分类.它的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别,其中K通常是不大于20 ...
1.K近邻算法
(一)K近邻算法基础 K近邻(KNN)算法优点思想极度简单应用数学知识少(近乎为0) 效果好可以解释机器学习算法使用过程中的很多细节问题更完整的刻画机器学习应用的流程图解K近邻算法上图是以 ...
一看就懂的K近邻算法(KNN)，K-D树，并实现手写数字识别！
1. 什么是KNN 1.1 KNN的通俗解释何谓K近邻算法,即K-Nearest Neighbor algorithm,简称KNN算法,单从名字来猜想,可以简单粗暴的认为是:K个最近的邻居,当K=1 ...
K近邻法(KNN)原理小结
K近邻法(k-nearst neighbors,KNN)是一种很基本的机器学习方法了,在我们平常的生活中也会不自主的应用.比如,我们判断一个人的人品,只需要观察他来往最密切的几个人的人品好坏就可以得出 ...
k近邻算法(knn)的c语言实现
最近在看knn算法,顺便敲敲代码. knn属于数据挖掘的分类算法.基本思想是在距离空间里,如果一个样本的最接近的k个邻居里,绝大多数属于某个类别,则该样本也属于这个类别.俗话叫,"随大流&q ...
基本分类方法——KNN(K近邻)算法
在这篇文章 http://www.cnblogs.com/charlesblc/p/6193867.html 讲SVM的过程中,提到了KNN算法.有点熟悉,上网一查,居然就是K近邻算法,机器学习的入门 ...
机器学习之K近邻算法（KNN）
机器学习之K近邻算法(KNN) 标签: python 算法 KNN 机械学习苛求真理的欲望让我想要了解算法的本质,于是我开始了机械学习的算法之旅 from numpy import * import ...

随机推荐

运用泛型，冒泡排序实现JDK引用类型数组的排序
public class Utils { public static <T extends Comparable<T>> void sortList(List<T> ...
python 爬虫（三）
爬遍整个域名六度空间理论:任何两个陌生人之间所间隔的人不会超过六个,也就是说最多通过五个人你可以认识任何一个陌生人.通过维基百科我们能够通过连接从一个人连接到任何一个他想连接到的人. 1. 获 ...
oracle（sql）基础篇系列（四）——数字字典、索引、序列、三范式
数字字典表 --查看当前用户下面有哪些张表 select * from user_tables; select table_name from user_tables; --查看当前用户下面有 ...
Objective-C开发编码规范【转载】
概要 Objective-C是一门面向对象的动态编程语言,主要用于编写iOS和Mac应用程序.关于Objective-C的编码规范,苹果和谷歌都已经有很好的总结: Apple Coding Guide ...
java基础-泛型3
浏览以下内容前,请点击并阅读声明 8 类型擦除为实现泛型,java编译器进行如下操作进行类型擦除: 如果类型参数有限制则替换为限制的类型,如果没有则替换为Object类,变成普通的类,接口和方法. ...
【转】《从入门到精通云服务器》第七讲—负载均衡和CDN技术
在IDC知识中,我们常常会遇上负载均衡与CDN的概念而不知所云.第一讲[什么是云计算], 我们提到过负载均衡,仅给大家留下了印象.这次我们将深入浅出的讲讲到底什么是负载均衡与CDN技术.---互联网数 ...
CodeSimth-.NetFrameworkDataProvider可能没有安装。解决方法
原文地址:http://www.haogongju.net/art/2561889 1.下载System.Data.SQLite驱动:注意:根据自己的CPU选择是32位还是64位的驱动.建议选择4.0 ...
cocospods 最新安装教程
Terminator 终端原来安装 cocoa pods 终端命令 :sudo gem install cocoapods #已经无效系统更新后的 cocoa pods 终端命令 : sudo ...
angluar去掉url中#
众所周知,angular项目中路由机制会在地址栏加一个#来实现各个页面的切换,虽然url中有个#号也无伤大雅,但每次看到多一个这个东西总是不舒服(我不是强迫证啊),趁着项目间隙还是决定把它去掉. 去谷 ...
xcode8控制台输出很多日志
解决方法:command + shift + <,在环境变量里添加图中字段就行了.

k近邻(KNN)复习总结

k近邻(KNN)复习总结的更多相关文章

随机推荐

热门专题