统计学习方法三 kNN

KNN

(一）KNN概念：

　　K近邻算法是一种回归和分类算法，这主要讨论其分类概念：

K近邻模型三要素：

1，距离：

2，K值的选择：

　　　　K值选择过小：模型过复杂，近似误差减小，估计误差上升，出现过拟合

　　　　K值选择过大：模型过于简单，预测能力弱

　　　　K值的选择：可以通过交叉验证来确定，k一般取一个较小的值

3，分类决策规则：

（二），kd树

　1，构造kd树

2，kd树最近邻搜索策略

一个复杂点了例子如查找点为（2，4.5）。

1、同样先进行二叉查找，先从（7,2）查找到（5,4）节点，在进行查找时是由y = 4为分割超平面的，由于查找点为y值为4.5，因此进入右子空间查找到（4,7），形成搜索路径<（7,2），（5,4），（4,7）>，

2、取（4,7）为当前最近邻点，计算其与目标查找点的距离为3.202。然后回溯到（5,4），计算其与查找点之间的距离为3.041。

（（4,7）与目标查找点的距离为3.202，而（5,4）与查找点之间的距离为3.041，所以（5,4）为查询点的最近点；）

3、以（2，4.5）为圆心，以3.041为半径作圆，如图4所示。可见该圆和y = 4超平面交割，所以需要进入（5,4）左子空间进行查找。此时需将（2,3）节点加入搜索路径中得<（7,2），（2,3）>。

4、回溯至（2,3）叶子节点，（2,3）距离（2,4.5）比（5,4）要近，所以最近邻点更新为（2，3），最近距离更新为1.5。

5、回溯至（7,2），以（2,4.5）为圆心1.5为半径作圆，并不和x = 7分割超平面交割，如图5所示。

至此，搜索路径回溯完。返回最近邻点（2,3），最近距离1.5。

（三）总结：

个人体会：knn:输入训练数据，通过训练数据构建一个kd树，测试时，将数据插入kd树中，然后根据指定的距离测试方法选择最近的K个值，再根据决策规则选择测试数据所属的分类（关键是构建kd树（选中位数原则）和kd树查找），感觉适合特征是连续的数据

参考网址：

　　　　http://blog.csdn.net/losteng/article/details/50893739　　　　　　

　　　　http://www.cnblogs.com/hemiy/p/6155425.html

　　　　http://www.cnblogs.com/chaosimple/p/4153167.html

统计学习方法三 kNN的更多相关文章

统计学习方法：KNN
作者:桂. 时间:2017-04-19 21:20:09 链接:http://www.cnblogs.com/xingshansi/p/6736385.html 声明:欢迎被转载,不过记得注明出处哦 ...
统计学习方法笔记 -- KNN
K近邻法(K-nearest neighbor,k-NN),这里只讨论基于knn的分类问题,1968年由Cover和Hart提出,属于判别模型 K近邻法不具有显式的学习过程,算法比较简单,每次分类都是 ...
统计学习方法三：K近邻
一.什么是K近邻? K近邻是一种基本的分类和回归方法. 在分类时,对新的实例,根据其K个最近邻的训练实例的类别,通过多数表决权等方式预测其类别. 通俗的讲,找K个和其关系最近的邻居,哪个类别的邻居多, ...
李航《统计学习方法》CH01
CH01 统计学方法概论前言章节目录统计学习监督学习基本概念问题的形式化统计学习三要素模型策略算法模型评估与模型选择训练误差与测试误差过拟合与模型选择正则化与交叉验证正则 ...
统计学习方法笔记--EM算法--三硬币例子补充
本文,意在说明<统计学习方法>第九章EM算法的三硬币例子,公式(9.5-9.6如何而来) 下面是(公式9.5-9.8)的说明, 本人水平有限,怀着分享学习的态度发表此文,欢迎大家批评,交流 ...
《统计学习方法》笔记三 k近邻法
本系列笔记内容参考来源为李航<统计学习方法> k近邻是一种基本分类与回归方法,书中只讨论分类情况.输入为实例的特征向量,输出为实例的类别.k值的选择.距离度量及分类决策规则是k近邻法的三个 ...
统计学习方法与Python实现（三）——朴素贝叶斯法
统计学习方法与Python实现(三)——朴素贝叶斯法 iwehdio的博客园:https://www.cnblogs.com/iwehdio/ 1.定义朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设 ...
统计学习方法学习（四）--KNN及kd树的java实现
K近邻法 1基本概念 K近邻法,是一种基本分类和回归规则.根据已有的训练数据集(含有标签),对于新的实例,根据其最近的k个近邻的类别,通过多数表决的方式进行预测. 2模型相关 2.1 距离的度量方式 ...
统计学习方法ｃ++实现之二　k近邻法
统计学习方法c++实现之二 k近邻算法前言 k近邻算法可以说概念上很简单,即:"给定一个训练数据集,对新的输入实例,在训练数据集中找到与这个实例最邻近的k个实例,这k个实例的多数属于某个类 ...

随机推荐

NancyFx 2.0的开源框架的使用-AspnetBootstrapping
新建一个空的Web项目AspnetBootstrappingDemo 然后添加NuGet组件 Nancy Nancy.Hosting.Aspnet Nancy.ViewEngines.Razor 继续 ...
Ionic集成ArcGIS JavaScript API.md
1. Ionic同原生ArcGIS JavaScript API结合 1.1. 安装esri-loader 在工程目录下命令行安装: npm install angular2-esri-loader ...
java虚拟机内存分配
【CSS Cookbook】笔记摘要（二）
页面元素使用text-align性质可以居中显示块级元素中的文字.把margin-left和margin-right设为auto时,该元素则会相对于父元素居中显示.但是现在流行的一些较低版本的浏览 ...
java 上传2（使用java组件fileupload和uploadify）
项目关键包和插件
cuda学习2-block与thread数量的选取
由上一节可知,在main函数中,cuda程序的并行能力是在add<<<N,1>>>( dev_a, dev_b, dev_c )函数中体现的,这里面设置的是由N个b ...
HBuilder 安装使用教程
前段时间朋友让我帮忙打包一个 IPA 文件(使用 HTML5 开发的 Web 应用),了解到 HBuilder 这款 H5 开发神器.之前一直使用 WebStorm 开发 H5,闲来无事也学习下 HB ...
总结scala(一)
由于笔记太多,分为了几部分,进入我的博客,查看其它的笔记 scala:面向对象,函数式编程一.声明变量 1.变量的类型 Byte,Char,Short,Int,Long,Float,Double,B ...
EF通用数据层封装类（支持读写分离，一主多从）
浅谈orm 记得四年前在学校第一次接触到 Ling to Sql,那时候瞬间发现不用手写sql语句是多么的方便,后面慢慢的接触了许多orm框架,像 EF,Dapper,Hibernate,Servic ...
【JAVAEE学习笔记】hibernate02：实体规则、对象状态、缓存、事务、批量查询和实现客户列表显示
一.hibernate中的实体规则实体类创建的注意事项 1.持久化类提供无参数构造 2.成员变量私有,提供共有get/set方法访问.需提供属性 3.持久化类中的属性,应尽量使用包装类型 4.持久化 ...

统计学习方法 三 kNN

统计学习方法 三 kNN的更多相关文章

随机推荐

热门专题

统计学习方法三 kNN

统计学习方法三 kNN的更多相关文章