《统计学习方法》笔记（3）：k近邻

k近邻（KNN）是相对基本的机器学习方法，特点是不需要建立模型，而是直接根据训练样本的数据对测试样本进行分类。

1、k近邻的算法？

算法对测试样本进行分类的一般过程如下：

1）根据给定的k值，搜索与测试样本距离最近的k个训练样本；

2）统计k个样本对应的每种分类数量；

3）根据每种分类的数量投票决定样本点所属分类，票数多者得。

例如：对于二分类，采用k=5的k近邻算法进行分类：距离样本点最近的5个点中，属于类0的样本数量为2，属于类1的样本数量为3，最终判定样本点属于类1。

2、k近邻的三要素？

k值、距离计算方法和投票规则是共同决定k近邻算法的三要素。

1）k值前面算法中已经介绍过了，是人为设定的值；根据这个设定的k值，选定距离样本点最近的训练样本。

2）距离计算方法一般采用欧氏距离，也可采用更加一般的Lp距离。举例来说：向量x1=(1,2)和x2=(3,4)均为2维特征向量，欧氏距离为 $\sqrt{((1-3)^2+(2-4)^2 )}$ ，Lp距离为 $\sqrt[p]{((1-3)^p+(2-4)^p )}$
，欧氏距离是Lp距离中P=2的特例。

3）投票规则一般采用票数多者得的原则。

3、快速对样本进行分类的方法？

k近邻算法的核心是快速的搜索到距离最近的样本点。对于样本量N很大的数据集，如果采用线性搜索方法，因为需要遍历样本中的每一个点，速度会非常慢。

为此常采用kd树结构来存储原始数据，kd树其实是二叉搜索树，对于树中的每一个节点，其左子节点（left节点）都小于自身，右子节点（right节点）都大于自身。采用该数据结构进行样本搜索时，每次可以排除掉剩余节点中半数（并非严格的半数）的节点，速度会快得多，时间复杂度是O(logN)。

《统计学习方法》笔记（3）：k近邻的更多相关文章

统计学习方法三：K近邻
一.什么是K近邻? K近邻是一种基本的分类和回归方法. 在分类时,对新的实例,根据其K个最近邻的训练实例的类别,通过多数表决权等方式预测其类别. 通俗的讲,找K个和其关系最近的邻居,哪个类别的邻居多, ...
统计学习笔记之k近邻法
1.kNN算法的思想:给定一个训练数据集,对新的输入实例,在训练集中找到与该实例最近邻的k个实例,这k个实例的多数属于某类,就把输入实例分为这个类. 2.算法 (1)根据给定的距离度量,在训练集T中找 ...
《统计学习方法》笔记三 k近邻法
本系列笔记内容参考来源为李航<统计学习方法> k近邻是一种基本分类与回归方法,书中只讨论分类情况.输入为实例的特征向量,输出为实例的类别.k值的选择.距离度量及分类决策规则是k近邻法的三个 ...
统计学习方法笔记 -- KNN
K近邻法(K-nearest neighbor,k-NN),这里只讨论基于knn的分类问题,1968年由Cover和Hart提出,属于判别模型 K近邻法不具有显式的学习过程,算法比较简单,每次分类都是 ...
统计学习方法笔记（KNN）
k近邻法(k-nearest neighbor,k-NN) 输入:实例的特征向量,对应于特征空间的点:输出:实例的类别,可以取多类. 分类时,根据其k个最近邻的训练实例的类别,通过多数表决等方式进行预 ...
统计学习方法笔记--EM算法--三硬币例子补充
本文,意在说明<统计学习方法>第九章EM算法的三硬币例子,公式(9.5-9.6如何而来) 下面是(公式9.5-9.8)的说明, 本人水平有限,怀着分享学习的态度发表此文,欢迎大家批评,交流 ...
李航-统计学习方法-笔记-3：KNN
KNN算法基本模型:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例.这k个实例的多数属于某个类,就把输入实例分为这个类. KNN没有显式的学习过程. KNN使用的模型 ...
统计学习方法笔记 Logistic regression
logistic distribution 设X是连续随机变量,X服从逻辑斯谛分布是指X具有下列分布函数和密度函数: 式中,μ为位置参数,γ>0为形状参数. 密度函数是脉冲函数分布函数是一条S ...
统计学习方法笔记 -- Boosting方法
AdaBoost算法基本思想是,对于一个复杂的问题,单独用一个分类算法判断比较困难,那么我们就用一组分类器来进行综合判断,得到结果,"三个臭皮匠顶一个诸葛亮" 专业的说法, 强可 ...

随机推荐

Centos7 JDK安装过程中解决java -version 报错： bash: /home/jdk1.8.0_161/bin/java: Permission denied
1.执行Linux命令 -----vim /etc/profile 编辑profile 文件,在里面添加: #set java enviroment JAVA_HOME=/opt/JavaHome ...
cf-914D-线段树
http://codeforces.com/contest/914/problem/D 题目大意是给出一个数列,进行两种操作,一个是将位置i的数置为x,另一个操作是询问[l,r]内的数的gcd是不是x ...
nyoj-1015-二分图判定
二部图时间限制:1000 ms | 内存限制:65535 KB 难度:1 描述二部图又叫二分图,我们不是求它的二分图最大匹配,也不是完美匹配,也不是多重匹配,而是证明一个图是不是二部图.证 ...
webpack配置路径及hash版本号，利用html-webpack-plugin自动生成html模板
在项目中,因为需要经常更新文件,但是浏览器缓存问题导致js文件不是最新的,所有想办法添加hash值. 并配置webpack打包文件配置路径: 配置webpack打包文件路径,及非入口 chunk文件: ...
atom - Emmet插件使用，代码快速填写
参考转载:http://www.hangge.com/blog/cache/detail_1537.html 用法: 输入:ul>li*6 接着按:tab键常用语法: 1.后代>: ...
Visual Studio编译时报错“函数名：重定义；不同的基类型”
错误原因: 方法在还未声明的地方就使用了.由于使用的地方与定义的地方都是在同一个.c文件中,所以没有报未声明的错误. 解决方法: 把实现放到使用的前面,或者在include语句和宏定义后面加上函数声明 ...
Mac重要目录
App最喜欢的几个目录 Mac和Windows操作系统有一个很大的不同,大部分App是没有安装程序的,一般下载下来就是一个dmg文件,解开之后直接将App拖到应用程序目录下就可以了,所以给人感觉卸载也 ...
MSSQL优化（TUNING & OPTMIZATION & 优化）之——计划重用（plan reusing）
Oracle中,为了减少系统内的硬解析,从而节省系统资源,有绑定变量.计划共享(通过cursor_sharing参数)等一系列措施.那么,SQL Server作为三大商业关系库之一,是否也存在这样的机 ...
Spring之缓存注解@Cacheable
https://www.cnblogs.com/fashflying/p/6908028.html https://blog.csdn.net/syani/article/details/522399 ...
顺序容器----顺序容器操作，vector对象如何增长，额外的string操作，容器适配器
一.顺序容器操作 1.向顺序容器添加元素向顺序容器(array除外)添加元素的操作: 操作说明 c.push_back(t) 在c的尾部创建一个值为t的元素.返回void c.emplace_ba ...

《统计学习方法》笔记（3）：k近邻

《统计学习方法》笔记（3）：k近邻的更多相关文章

随机推荐

热门专题