学习OpenCV——KNN算法
转自:http://blog.csdn.net/lyflower/article/details/1728642
文本分类中KNN算法,该方法的思路非常简单直观:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。因此,采用这种方法可以较好地避免样本的不平衡问题。另外,由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说, KNN方法较其他方法更为适合。
该方法的不足之处是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。目前常用的解决方法是事先对已知样本点进行剪辑,事先去除对分类作用不大的样本。另外还有一种Reverse KNN法,能降低KNN算法的计算复杂度,提高分类的效率。
该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。
k近邻分类器具有良好的文本分类效果,对仿真实验结果的统计分析表明:作为文本分类器,k近邻仅次于支持向量机,明显优于线性最小二乘拟合、朴素贝叶斯和神经网络。
重点:
1:特征降维(一般用CHI方法)
2:截尾算法(三种截尾算法)
3:降低计算量
演示代码:
- #include "ml.h"
- #include "highgui.h"
- int main( int argc, char** argv )
- {
- const int K = 10;
- int i, j, k, accuracy;
- float response;
- int train_sample_count = 100;
- CvRNG rng_state = cvRNG(-1);//初始化随机数生成器状态
- CvMat* trainData = cvCreateMat( train_sample_count, 2, CV_32FC1 );
- CvMat* trainClasses = cvCreateMat( train_sample_count, 1, CV_32FC1 );
- IplImage* img = cvCreateImage( cvSize( 500, 500 ), 8, 3 );
- float _sample[2];
- CvMat sample = cvMat( 1, 2, CV_32FC1, _sample );
- cvZero( img );
- CvMat trainData1, trainData2, trainClasses1, trainClasses2;
- // form the training samples
- cvGetRows( trainData, &trainData1, 0, train_sample_count/2 ); //返回数组的一行或在一定跨度内的行
- cvRandArr( &rng_state, &trainData1, CV_RAND_NORMAL, cvScalar(200,200), cvScalar(50,50) ); //用随机数填充数组并更新 RNG 状态
- cvGetRows( trainData, &trainData2, train_sample_count/2, train_sample_count );
- cvRandArr( &rng_state, &trainData2, CV_RAND_NORMAL, cvScalar(300,300), cvScalar(50,50) );
- cvGetRows( trainClasses, &trainClasses1, 0, train_sample_count/2 );
- cvSet( &trainClasses1, cvScalar(1) );
- cvGetRows( trainClasses, &trainClasses2, train_sample_count/2, train_sample_count );
- cvSet( &trainClasses2, cvScalar(2) );
- // learn classifier
- CvKNearest knn( trainData, trainClasses, 0, false, K );
- CvMat* nearests = cvCreateMat( 1, K, CV_32FC1);
- for( i = 0; i < img->height; i++ )
- {
- for( j = 0; j < img->width; j++ )
- {
- sample.data.fl[0] = (float)j;
- sample.data.fl[1] = (float)i;
- // estimates the response and get the neighbors' labels
- response = knn.find_nearest(&sample,K,0,0,nearests,0);
- // compute the number of neighbors representing the majority
- for( k = 0, accuracy = 0; k < K; k++ )
- {
- if( nearests->data.fl[k] == response)
- accuracy++;
- }
- // highlight the pixel depending on the accuracy (or confidence)
- cvSet2D( img, i, j, response == 1 ?
- (accuracy > 5 ? CV_RGB(180,0,0) : CV_RGB(180,120,0)) :
- (accuracy > 5 ? CV_RGB(0,180,0) : CV_RGB(120,120,0)) );
- }
- }
- // display the original training samples
- for( i = 0; i < train_sample_count/2; i++ )
- {
- CvPoint pt;
- pt.x = cvRound(trainData1.data.fl[i*2]);
- pt.y = cvRound(trainData1.data.fl[i*2+1]);
- cvCircle( img, pt, 2, CV_RGB(255,0,0), CV_FILLED );
- pt.x = cvRound(trainData2.data.fl[i*2]);
- pt.y = cvRound(trainData2.data.fl[i*2+1]);
- cvCircle( img, pt, 2, CV_RGB(0,255,0), CV_FILLED );
- }
- cvNamedWindow( "classifier result", 1 );
- cvShowImage( "classifier result", img );
- cvWaitKey(0);
- cvReleaseMat( &trainClasses );
- cvReleaseMat( &trainData );
- return 0;
- }
详细说明:http://www.cnblogs.com/xiangshancuizhu/archive/2011/08/06/2129355.html
改进的KNN:http://www.cnblogs.com/xiangshancuizhu/archive/2011/11/11/2245373.html
from: http://blog.csdn.net/yangtrees/article/details/7482890
学习OpenCV——KNN算法的更多相关文章
- 【StatLearn】统计学习中knn算法实验(2)
接着统计学习中knn算法实验(1)的内容 Problem: Explore the data before classification using summary statistics or vis ...
- 【StatLearn】统计学习中knn算法的实验(1)
Problem: Develop a k-NN classifier with Euclidean distance and simple voting Perform 5-fold cross va ...
- Machine Learning In Action 第二章学习笔记: kNN算法
本文主要记录<Machine Learning In Action>中第二章的内容.书中以两个具体实例来介绍kNN(k nearest neighbors),分别是: 约会对象预测 手写数 ...
- Opencv学习之路—Opencv下基于HOG特征的KNN算法分类训练
在计算机视觉研究当中,HOG算法和LBP算法算是基础算法,但是却十分重要.后期很多图像特征提取的算法都是基于HOG和LBP,所以了解和掌握HOG,是学习计算机视觉的前提和基础. HOG算法的原理很多资 ...
- OpenCV实现KNN算法
原文 OpenCV实现KNN算法 K Nearest Neighbors 这个算法首先贮藏所有的训练样本,然后通过分析(包括选举,计算加权和等方式)一个新样本周围K个最近邻以给出该样本的相应值.这种方 ...
- OpenCV——KNN分类算法 <摘>
KNN近邻分类法(k-Nearest Neighbor)是一个理论上比较成熟的方法,也是最简单的机器学习算法之一. 这个算法首先贮藏所有的训练样本,然后通过分析(包括选举,计算加权和等方式)一个新样本 ...
- 【转载】K-NN算法 学习总结
声明:作者:会心一击 出处:http://www.cnblogs.com/lijingchn/ 本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接, ...
- OpenCV学习(9) 分水岭算法(3)
本教程我学习一下opencv中分水岭算法的具体实现方式. 原始图像和Mark图像,它们的大小都是32*32,分水岭算法的结果是得到两个连通域的轮廓图. 原始图像:(原始图像必须是3通道图像) Mark ...
- K-NN算法 学习总结
1. K-NN算法简介 K-NN算法 ( K Nearest Neighbor, K近邻算法 ), 是机器学习中的一个经典算法, 比较简单且容易理解. K-NN算法通过计算新数据与训练数据特征值之间的 ...
随机推荐
- [Cocos2d-x For WP8]Layer 层
层(CCLayer) 从概念上说,层就是场景里的背景. CCLayer同样是CCNode的子类,通常用addChild方法添加子节点.CCLayer对象定义了可描绘的区域,定义了描绘的规则.C ...
- Codeforces Beta Round #3
A题,水题,还是无法1Y. B题,题意是类似背包的问题,在v的容量下,有1重量和2重量的,如果达到价值最大. 贪心,写的很恶心.看着数据过了. 奇数的时候,先选一个1.之后然后1+1 和 2 比较就行 ...
- NOI模拟赛Day3
终于A题啦鼓掌~开心~ 开考看完题后,觉得第二题很好捏(傻叉上线 搞到十一点准备弃疗了然后突然发现我会做第一题 于是瞎码了码,就去准备饭票了... 好了,停止扯淡(就我一个我妹子每天不说话好难受QAQ ...
- Infragistics公司的UltraWebGrid控件在显示的时候报“theForm” 未定义错误的解决。
在项目中使用了Infragistics公司的UltraWebGrid控件,浏览器中报错,“theForm” 未定义,并且造成客户端js,滚动条,失效.最后查官网论坛找到问题.需要把web.config ...
- C#字符串处理(String与StringBuilder)
首先介绍一下常用的几个功能:Compare(str1,str2)——比较两个字符串str1,str2的大小,如果大于返回正数,等于返回0,小于返回负数!IndexOf——定位字符串中第一次出现某个给定 ...
- javascrit2.0完全参考手册(第二版) 第1章第2节:javascript的历史和使用
javascript曾经带给人许多误解,例如如果你不了解它的历史,那么你可能困惑它和java有什么关系,其实它们一点关系都没有.网景公司1995年在Navigator 2.0 中引入这门语言时它叫Li ...
- select()函数 timval问题
如果select调用中设置了等待时间,那么每次调用时都需要重新对这个时间赋值.例如: struct timval tv; while(1) { ........; tv.tv_sec = 2; ...
- [zt]OpenCV2.1.0的安装
下载和安装 OpenCV 2.1.0 2.添加库文件:打开VS 2008,选择菜单:Tools->options->Projects and Solutions >VC++ Dire ...
- for嵌套:1.兔子生兔子问题 2.打印菱形 3.求100以内质数的和
1.兔子生兔子问题 方法一: 方法二: 2.打印菱形 3.求100以内质数的和
- HTML第二节课
表单 <form id="" name="" method="post/get" action=""> &l ...