OpenCV——KNN分类算法 <摘>

KNN近邻分类法（k-Nearest Neighbor）是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。

这个算法首先贮藏所有的训练样本，然后通过分析（包括选举，计算加权和等方式）一个新样本周围K个最近邻以给出该样本的相应值。这种方法有时候被称作“基于样本的学习”，即为了预测，我们对于给定的输入搜索最近的已知其相应的特征向量。

简单说来就是从训练样本中找出K个与其最相近的样本，然后看这K个样本中哪个类别的样本多，则待判定的值（或说抽样）就属于这个类别。

有两类不同的样本数据，分别用蓝色的小正方形和红色的小三角形表示，而图正中间的那个绿色的圆所标示的数据则是待分类的数据。也就是说，现在，我们不知道中间那个绿色的数据是从属于哪一类（蓝色小正方形or红色小三角形），下面，我们就要解决这个问题：给这个绿色的圆分类。

判别上图中那个绿色的圆是属于哪一类数据就从它的邻居下手。但一次性看多少个邻居呢？从上图中，你还能看到：

如果K=3，绿色圆点的最近的3个邻居是2个红色小三角形和1个蓝色小正方形，少数从属于多数，基于统计的方法，判定绿色的这个待分类点属于红色的三角形一类。
如果K=5，绿色圆点的最近的5个邻居是2个红色三角形和3个蓝色的正方形，还是少数从属于多数，基于统计的方法，判定绿色的这个待分类点属于蓝色的正方形一类。

于此我们看到，当无法判定当前待分类点是从属于已知分类中的哪一类时，我们可以依据统计学的理论看它所处的位置特征，衡量它周围邻居的权重，而把它归为(或分配)到权重更大的那一类。这就是K近邻算法的核心思想。

KNN算法的步骤

计算已知类别数据集中每个点与当前点的距离；
选取与当前点距离最小的K个点；
统计前K个点中每个类别的样本出现的频率；
返回前K个点出现频率最高的类别作为当前点的预测分类。

训练KNN模型

bool CvKNearest::train( const CvMat* _train_data, const CvMat* _responses,const CvMat* _sample_idx=,

                                    bool is_regression=false, int _max_k=, bool _update_base=false );

这个类的方法训练K近邻模型。

它遵循一个一般训练方法约定的限制：只支持CV_ROW_SAMPLE数据格式，输入向量必须都是有序的，而输出可以是无序的(当is_regression=false)，可以是有序的（is_regression = true）。并且变量子集和省略度量是不被支持的。

参数_max_k 指定了最大邻居的个数，它将被传给方法find_nearest。

参数 _update_base 指定模型是由原来的数据训练(_update_base=false)，还是被新训练数据更新后再训练(_update_base=true）。在后一种情况下_max_k 不能大于原值, 否则它会被忽略。

寻找输入向量的最近邻

float CvKNearest::find_nearest( const CvMat* _samples, int k, CvMat* results=, const float** neighbors=,

                                CvMat* neighbor_responses=, CvMat* dist= ) const;

参数说明：

samples为样本数*特征数的浮点矩阵；
K为寻找最近点的个数；results与预测结果；
neibhbors为k*样本数的指针数组（输入为const，实在不知为何如此设计）；
neighborResponse为样本数*k的每个样本K个近邻的输出值；
dist为样本数*k的每个样本K个近邻的距离。

对每个输入向量（表示为matrix_sample的每一行），该方法找到k（k≤get_max_k() ）个最近邻。在回归中，预测结果将是指定向量的近邻的响应的均值。在分类中，类别将由投票决定。

对传统分类和回归预测来说，该方法可以有选择的返回近邻向量本身的指针(neighbors, array of k*_samples->rows pointers)，它们相对应的输出值(neighbor_responses, a vector of k*_samples->rows elements) ，和输入向量与近邻之间的距离(dist, also a vector of k*_samples->rows elements)。

对每个输入向量来说，近邻将按照它们到该向量的距离排序。

对单个输入向量，所有的输出矩阵是可选的，而且预测值将由该方法返回。

一般的分类模型建立的步骤，分类一般分为两种：

决策树归纳（消极学习法）：先根据训练集构造出分类模型，根据分类模型对测试集分类。

消极学习法在提供训练元组时只做少量工作，而在分类或预测时做更多的工作。KNN就是一种简单的消极学习分类方法，它开始并不建立模型，而只是对于给定的训练实例点和输入实例点，基于给定的邻居度量方式以及结合经验选取合适的k值，计算并且查找出给定输入实例点的ｋ个最近邻训练实例点，然后基于某种给定的策略，利用这ｋ个训练实例点的类来预测输入实例点的类别。

基于实例的方法：推迟建模，当给定训练元组时，简单地存储训练数据（或稍加处理），一直等到给定一个测试元组。

OpenCV——KNN分类算法 <摘>的更多相关文章

knn分类算法学习
K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一.该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的 ...
KNN分类算法实现手写数字识别
需求: 利用一个手写数字“先验数据”集,使用knn算法来实现对手写数字的自动识别: 先验数据(训练数据)集: ♦数据维度比较大,样本数比较多. ♦ 数据集包括数字0-9的手写体. ♦每个数字大约有20 ...
KNN分类算法及python代码实现
KNN分类算法(先验数据中就有类别之分,未知的数据会被归类为之前类别中的某一类!) 1.KNN介绍 K最近邻(k-Nearest Neighbor,KNN)分类算法是最简单的机器学习算法. 机器学习, ...
机器学习---K最近邻(k-Nearest Neighbour，KNN)分类算法
K最近邻(k-Nearest Neighbour,KNN)分类算法 1.K最近邻(k-Nearest Neighbour,KNN) K最近邻(k-Nearest Neighbour,KNN)分类算法, ...
后端程序员之路 12、K最近邻(k-Nearest Neighbour，KNN)分类算法
K最近邻(k-Nearest Neighbour,KNN)分类算法,是最简单的机器学习算法之一.由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重 ...
在Ignite中使用k-最近邻(k-NN)分类算法
在本系列前面的文章中,简单介绍了一下Ignite的线性回归算法,下面会尝试另一个机器学习算法,即k-最近邻(k-NN)分类.该算法基于对象k个最近邻中最常见的类来对对象进行分类,可用于确定类成员的关系 ...
KNN分类算法--python实现
一.kNN算法分析 K最近邻(k-Nearest Neighbor,KNN)分类算法可以说是最简单的机器学习算法了.它采用测量不同特征值之间的距离方法进行分类.它的思想很简单:如果一个样本在特征空间中 ...
KNN分类算法
K邻近算法.K最近邻算法.KNN算法(k-Nearest Neighbour algorithm):是数据挖掘分类技术中最简单的方法之一 KNN的工作原理所谓K最近邻,就是k个最近的邻居的意思,说的 ...
KNN分类算法补充
KNN补充: 1.K值设定为多大? k太小,分类结果易受噪声点影响:k太大,近邻中又可能包含太多的其它类别的点. (对距离加权,可以降低k值设定的影响) k值通常是采用交叉检验来确定(以k=1为基准) ...

随机推荐

HDU 5044 离线LCA算法
昨天写了HDU 3966 ,本来这道题是很好解得,结果我想用离线LCA 耍一把,结果发现离线LCA 没理解透,错了好多遍,终得AC ,这题比起 HDU 3966要简单,因为他不用动态查询.但是我还是错 ...
CF 8D Two Friends 【二分+三分】
三个地点构成一个三角形. 判断一下两个人能否一起到shop然后回家,如果不能: 两个人一定在三角形内部某一点分开,假设沿着直线走,可以将问题简化. 三分从电影院出来时候的角度,在对应的直线上二分出一个 ...
CSS注意事项
1.定义样式不能就加:隔开当有定义的css样式并没有起作用的时候看看定义该样式前边有没有加“;”的如 p{};div{}
搭建hbase-0.94.26集群环境
先安装hadoop1.2.1,见http://blog.csdn.net/jediael_lu/article/details/38926477 1.配置hbase-site.xml <prop ...
使用ES6进行开发的思考
ECMAScript6已经于近日进入了RC阶段,而早在其处于社区讨论时,我就开始一直在尝试使用ES6进行开发的方案.在Babel推出后,基于ES6的开发也有了具体可执行的解决方案,无论是Build还是 ...
如何在word中写出赏心悦目的代码
短学期的VHDL终于结束了,虽然代码并不是很难,但是框框条条的规矩很多,也算折腾了一会,最后要写一个技术手册,结题报告类似物.考虑到word毕竟套主题比较方便,所以也就没有用LaTeX写,但是很快就发 ...
C++ builder 生成以管理员身份运行的exe
转自:http://bbs.csdn.net/topics/310225109#post-312177603 ,稍微做了一点修改创建一个文本文件,命名为123.manifest,内容如下: < ...
STL中istream_iterator和ostream_iterator的基本用法
标准程序库定义有供输入及输出用的iostream iterator类,称为istream_iterator和ostream_iterator,分别支持单一型别的元素读取和写入.使用这两个iterato ...
【LeetCode练习题】Recover Binary Search Tree
Recover Binary Search Tree Two elements of a binary search tree (BST) are swapped by mistake. Recove ...
ubuntu14.04 安装 StudioZend12
到官网下载:http://www.zend.com/en/products/studio/downloadsLinux-64位:http://downloads.zend.com/studio-ecl ...

OpenCV——KNN分类算法 <摘>

KNN算法的步骤

OpenCV——KNN分类算法 <摘>的更多相关文章

随机推荐

热门专题