基于opencv的手写数字字符识别

摘要

本程序主要参照论文，《基于OpenCV的脱机手写字符识别技术》实现了，对于手写阿拉伯数字的识别工作。识别工作分为三大步骤：预处理，特征提取，分类识别。预处理过程主要找到图像的ROI部分子图像并进行大小的归一化处理，特征提取将图像转化为特征向量，分类识别采用k-近邻分类方法进行分类处理，最后根据分类结果完成识别工作。

程序采用Microsoft Visual Studio 2010与OpenCV2.4.4在Windows 7-64位旗舰版系统下开发完成。并在Windows xp-32位系统下测试可用。

主流程图：

细化流程图：

1. 预处理

预处理的过程就是找到图像的ROI区域的过程，如下图所示：

首先找到数字的边界框，然后大小归一化数字图片，主要流程如下图所示：

主要代码：

IplImagepreprocessing(IplImage*imgSrc,intnew_width,intnew_height)

{

IplImage* result;

IplImage* scaledResult;

CvMat data;

CvMat dataA;

CvRect
bb;//bounding box

CvRect
bba;//boundinb box maintain aspect ratio

//Find bounding box找到边界框

bb=findBB(imgSrc);

cvGetSubRect(imgSrc, &data,cvRect(bb.x,bb.y,bb.width,bb.height));

int size=(bb.width>bb.height)?bb.width:bb.height;

result=cvCreateImage(
cvSize( size, size ), 8, 1 );

cvSet(result,CV_RGB(255,255,255),NULL);

//将图像放中间，大小归一化

int x=(int)floor((float)(size-bb.width)/2.0f);

int y=(int)floor((float)(size-bb.height)/2.0f);

cvGetSubRect(result, &dataA,cvRect(x,y,bb.width,bb.height));

cvCopy(&data, &dataA,NULL);

//Scale result

scaledResult=cvCreateImage(
cvSize( new_width,
new_height ), 8, 1 );

cvResize(result,
scaledResult, CV_INTER_NN);

//Return processed data

return *scaledResult;//直接返回处理后的图片

}

2. 特征提取

在拿到ROI图像减少了信息量之后，就可以直接用图片作为向量矩阵作为输入:

voidbasicOCR::getData()

{

IplImage* src_image;

IplImage prs_image;

CvMat row,data;

char file[255];

int i,j;

for(i =0; i<classes;i++)//总共10个数字

{

for(
j = 0; j<train_samples;j++)//每个数字50个样本

{

//加载所有的样本pbm格式图像作为训练

if(j<10)

sprintf(file,"%s%d/%d0%d.pbm",file_path,i,i
, j);

else

sprintf(file,"%s%d/%d%d.pbm",file_path,i,i
, j);

src_image =
cvLoadImage(file,0);

if(!src_image)

{

printf("Error: Cant load image %s\n",file);

//exit(-1);

}

//process file

prs_image =
preprocessing(src_image,size,size);

//生成训练矩阵，每个图像作为一个向量

cvGetRow(trainClasses, &row,i*train_samples
+j);

cvSet(&row,
cvRealScalar(i));

//Set data

cvGetRow(trainData, &row,i*train_samples
+j);

IplImage*
img = cvCreateImage(
cvSize( size,
size ),

IPL_DEPTH_32F, 1 );

//转换换 8 bits image to 32位浮点数图片取值区间为[0,1]

//scale = 0.0039215 = 1/255;

cvConvertScale(&prs_image,img, 0.0039215, 0);

cvGetSubRect(img, &data,cvRect(0,0,size,size));

CvMat
row_header, *row1;

//convert data matrix sizexsize to vecor

row1 =
cvReshape( &data, &row_header, 0, 1 );

cvCopy(row1, &row,NULL);

}

3. 分类识别

识别方法采用knn近邻分类法。这个算法首先贮藏所有的训练样本，然后通过分析（包括选举，计算加权和等方式）一个新样本周围K个最近邻以给出该样本的相应值。这种方法有时候被称作“基于样本的学习”，即为了预测，我们对于给定的输入搜索最近的已知其相应的特征向量。

K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 KNN方法虽然从原理上也依赖于极限定理，但在类别决策时，只与极少量的相邻样本有关。由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合。

识别工作主要有以下几个步骤：

1. 初始化机器学习算法，及其训练

knn=new CvKNearest( trainData, trainClasses, 0, false, K );

因为trainData, trainClasses数据已得到。训练在CvKNearest算法初始化中已经完成

2. 识别

获取识别测试的数据，testData

result=knn->find_nearest(testData,K,0,0,nearest,0);

result为返回的识别的结果

4. 实验结果

在knn参数k=5，子图像向量大小选取128*128像素，训练样本50副图片，测试样本50副图片，系统误识率为7.4%。对于用户手写阿拉伯数字2的识别结果为2，识别比较准确。

5. 未来的工作

本程序主要参照网上的一些实例完成了部署跟实验工作，虽然仅仅完成了手写阿拉伯数字的识别工作，但是字符识别的一些原理工作都是相同的，未来能够从一下几个方面进行提高：

1. 提高程序的识别准确率，从一些文献实现的结果来看，简单的模型结合大量的训练样本，往往效果比复杂的模型结合少量训练样本实现的效果好。

2. 扩展程序的功能，从实现简单的字符到最终实现识别手写汉字等。

3. 提高识别速度，改进算法为并行算法，实现如联机在线识别等。

6.主要参考文献：

http://blog.csdn.net/jackmacro/article/details/7026211

http://blog.damiles.com/2008/11/basic-ocr-in-opencv/

http://blog.csdn.net/zhubenfulovepoem/article/details/6803150

http://blog.csdn.net/firehood_/article/details/8433077

http://blog.csdn.net/viewcode/article/details/7943341

7.项目打包下载

http://download.csdn.net/detail/wangyaninglm/6631953

8.手写字符识别的复杂版本，这个增加了一些OpenGL技术，程序比较复杂

http://blog.csdn.net/wangyaninglm/article/details/41848019

基于opencv的手写数字字符识别的更多相关文章

基于opencv的手写数字识别（MFC,HOG,SVM）
参考了秋风细雨的文章:http://blog.csdn.net/candyforever/article/details/8564746 花了点时间编写出了程序,先看看效果吧. 识别效果大概都能正确. ...
学习OpenCV——SVM 手写数字检测
转自http://blog.csdn.net/firefight/article/details/6452188 是MNIST手写数字图片库:http://code.google.com/p/supp ...
OpenCV手写数字字符识别(基于k近邻算法)
摘要本程序主要参照论文,<基于OpenCV的脱机手写字符识别技术>实现了,对于手写阿拉伯数字的识别工作.识别工作分为三大步骤:预处理,特征提取,分类识别.预处理过程主要找到图像的ROI部 ...
基于TensorFlow解决手写数字识别的Softmax方法、多层卷积网络方法和前馈神经网络方法
一.基于TensorFlow的softmax回归模型解决手写字母识别问题详细步骤如下: 1.加载MNIST数据: input_data.read_data_sets('MNIST_data',one ...
keras基于卷积网络手写数字识别
import time import keras from keras.utils import np_utils start = time.time() (x_train, y_train), (x ...
OpenCV+TensorFlow图片手写数字识别(附源码)
初次接触TensorFlow,而手写数字训练识别是其最基本的入门教程,网上关于训练的教程很多,但是模型的测试大多都是官方提供的一些素材,能不能自己随便写一串数字让机器识别出来呢?纸上得来终觉浅,带着这 ...
基于OpenCV的KNN算法实现手写数字识别
基于OpenCV的KNN算法实现手写数字识别一.数据预处理 # 导入所需模块 import cv2 import numpy as np import matplotlib.pyplot as pl ...
手写数字识别 ----在已经训练好的数据上根据28*28的图片获取识别概率（基于Tensorflow,Python）
通过: 手写数字识别 ----卷积神经网络模型官方案例详解(基于Tensorflow,Python) 手写数字识别 ----Softmax回归模型官方案例详解(基于Tensorflow,Pytho ...
基于tensorflow的MNIST手写数字识别（二）--入门篇
http://www.jianshu.com/p/4195577585e6 基于tensorflow的MNIST手写字识别(一)--白话卷积神经网络模型基于tensorflow的MNIST手写数字识 ...

随机推荐

QMutex“A mutex must be unlocked in the same thread that locked it”解决（在run里创建对象是不二法宝）
多线程时出现如下警告信息: A mutex must be unlocked in the same thread that locked it: 原因可能有二: 1.创建QMutex不在当前线程: ...
C/S和B/S交互
近期一直在做C/S的项目,每天都超忙,抽个时间写篇博客,之前一直做C/S项目就是各种窗口.各种控件,拖来拖去,然后点进去写方法,做BS的时候呢,由于一直使用的是mvc,所以就是常常手写代码.或者拖引用 ...
bzoj3275: Number(最小割)
3275: Number 题目:传送门题解: 双倍经验@bzoj3158 代码: #include<cstdio> #include<cstring> #include< ...
仿写从iOS8开始支持的UIAlertController：BGAAlertController-Android
工作以来公司UI设计师出的Android效果图都是iOS风格的UIAlertView和UIActionSheet,新项目还是用原来那一套,不想重复造轮子,所以仿写了从iOS8开始支持的UIAlertC ...
CoreData 从入门到精通（一）数据模型 + CoreData 栈的创建
CoreData 是 Cocoa 平台上用来管理模型层数据和数据持久化的一个框架,说简单点,就是一个数据库存储框架.CoreData 里相关的概念比较多,而且初始化也非常繁琐,所以对初学者的学习还是有 ...
DNS Tunnel判定方法
DNS Tunnel判定方法: 1.查询DNS请求的域名是否存在备案: 2.查询DNS请求的域名情报信息(以及域名的alex排名): 3.查看相同主域名下子域名编码格式及长度:(存在Base32和Ba ...
[jzoj 6087] [GDOI2019模拟2019.3.26] 获取名额解题报告 (泰勒展开+RMQ+精度)
题目链接: https://jzoj.net/senior/#main/show/6087 题目: 题解: 只需要统计$\prod_{i=l}^r (1-\frac{a_i}{x})$ =$exp(\ ...
ing在写作中到底怎么用
改关静留的作业中我还得改英文摘要.于是有个地方用了ing.顺便查了一下. http://www.yygrammar.com/Article/201408/3677.html -ing分词用作状语时有九 ...
servlet中Cookie的编码问题
a.什么是Cookie的编码问题? Cookie只能存放合法的ascii字符,如果是非asicc字符(比如中文), 需要转换成合法的ascii字符的形式. b.如何处理? ...
React项目构建（利用webpack打包）
引言最近React作为当前最为火热的前端框架.最近也相继而出来相关ES7的新语法. 当然,在使用React开发web项目的时候,不得不提到的就是与之配套的相应的打包技术,之前上文已经简单的提到Rea ...

基于opencv的手写数字字符识别

基于opencv的手写数字字符识别的更多相关文章

随机推荐

热门专题