光学字符识别OCR-2

灰度聚类

接着我们就对图像的色彩进行聚类。聚类的有两个事实依据：
1.灰度分辨率肉眼的灰度分辨率大概为40，因此对于像素值254和255，在我们肉眼看来都只是白色；
2.设计原则根据我们一般的审美原则，在考虑海报设计、服装搭配等搭配的时候，一般要求在服装、海报等颜色搭配不超过三种颜色。

更通俗地说，虽然灰度图片色阶范围是[0, 255]，但我们能感觉到的整体的色调一般不多，因此，可以将相近的色阶归为一类，从而减少颜色分布，有效地降低噪音。

事实上，聚类是根据图像的特点自适应地进行多值化的过程，避免了传统的简单二值化所带来的信息损失。由于我们需要自动地确定聚类数目，因此传统的KMeans等聚类方法被我们抛弃了，而且经过我们测试，诸如MeanShift等可行的聚类方法又存在速度较慢等缺陷。因此，我们自行设计了聚类方法，使用的是“核概率密度估计”的思路，通过求颜色密度极值的方式来聚类。

核密度估计 经过预处理的图像，我们可以对每个色阶的出现次数进行统计，根据色戒，得到如图5的频率分布直方图：

可以看到，色阶的分布形成了几个比较突出的峰，换言之，存在一定的聚类趋势。然而，直方图的统计结果是不连续的，一个平滑的结果更便于我们分析研究，结果也更有说服力。 将统计结果平滑化的方法，就是核密度估计(kernel density estimation)。

核密度估计方法是一种非参数估计方法，由Rosenblatt和Parzen提出，在统计学理论和应用领域均受到高度的重视[2]。当然，也可以简单地将它看成一种函数平滑方式。我们根据大量的数据来估计某个值出现的概率(密度)时，事实上做的是如下估算：

其中K(x)称为核函数。当取为1，且K(x)取

时，就是我们上述的直方图估计。 K(x)这一项的含义很简单，它就是告诉我们在范围h内的都算入到x中去，至于怎么算，由给出。可见，h的选择对结果的影响很大，h我们称之为带宽(bandwidth)，它主要影响结果的平滑性。如果K(x)是离散的，得到的结果还是离散的，但如果K(x)是光滑的，得到的结果也是比较光滑的。一个常用的光滑函数核是高斯核：

所得到的估计也叫高斯核密度估计。在这里，我们使用scott规则自适应地选取，但需要手动指定一个平滑因子，在本文中，我们选取为0。2。对于示例图片，我们得到如图6的红色曲线的结果。

极大极小值分割
从图6中我们进一步可以看出，图像确实存在着聚类趋势。这表现为它有几个明显的极大值和极小值点，这里的极大值点位于x = 10, 57, 97, 123, 154，极小值点位于25, 71, 121, 142。

因此，一个很自然的聚类方法是：有多少个极大值点，就聚为多少类，并且以极小值点作为类别之间的边界。也就是说，对于图3，可以将图像分层5层，逐层处理。分层之后，每一层的形状如下图，其中白色是1，黑色是0。

通过聚类将图像分为5个图层

可见，由于“对比度”和“渐变性”假设，通过聚类确实可以将文字图层通过核密度估计的聚类方法分离开来。而且，通过聚类分层的思路，无需对文字颜色作任何假定，即便是文字颜色跟背景颜色一致时，也可以获得有效检测。

逐层识别
当图像有效地进行分层后，我们就可以根据前面的假设，进一步设计相应的模型，通过逐层处理的方式找出图像中的文字区域。

光学字符识别OCR-2的更多相关文章

光学字符识别OCR
1.功能: 光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程 2.典型应用: 名片扫描 3 ...
6 个优秀的开源 OCR 光学字符识别工具
转自:http://sigvc.org/bbs/thread-870-1-1.html 纸张在许多地方已日益失宠,无纸化办公谈论40多年,办公环境正限制纸山的生成.而过去几年,无纸化办公的概念发生了显 ...
开源OCR光学字符识别
纸张在许多地方已日益失宠,无纸化办公谈论40多年,办公环境正限制纸山的生成.而过去几年,无纸化办公的概念发生了显着的转变.在计算机软件的帮助下,包含大量重要管理数据和资讯的文档可以更方便的以电子形 ...
字符识别OCR研究一（模板匹配&BP神经网络训练）
摘要在MATLAB环境下利用USB摄像头採集字符图像.读取一帧保存为图像.然后对读取保存的字符图像,灰度化.二值化,在此基础上做倾斜矫正.对矫正的图像进行滤波平滑处理,然后对字符区域进行提取切割出 ...
Ocrad.js – JS 实现 OCR 光学字符识别
Ocrad.js 相当于是 Ocrad 项目的纯 JavaScript 版本,使用 Emscripten 自动转换.这是一个简单的 OCR (光学字符识别)程序,可以扫描图像中的文字回文本. 不像 G ...
IT行业新名词--透明手机/OCR(光学字符识别)/夹背电池
透明手机机身设计的一大关键部分是可替换玻璃的使用,利用导电技术,在看不到线路的环境下,让LED发光. 这样的玻璃内含液晶分子,对于内容的显示则是通过电流对分子的刺激来实现.当手机断电后,分子位置会随 ...
非黑即白--谷歌OCR光学字符识别
# coding=utf-8 #非黑即白--谷歌OCR光学字符识别 # 颜色的世界里,非黑即白.computer表示深信不疑. # 今天研究一下OCR光学识别庞大领域中的众多分支里的一个开源项目的一个 ...
OCR技术（光学字符识别）
什么是OCR? OCR英文全称是optical character recognition,中文叫光学字符识别.它是利用光学技术和计算机技术把印在或者写在纸上的文字读取出来,并转换成一种计算机能够接 ...
OCR （Optical Character Recognition，光学字符识别）
OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗.亮的模式确定其形状,然后用字符识别方法将形状翻译 ...
OCR 即光学字符识别
OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗.亮的模式确定其形状,然后用字符识别方法将形状翻译 ...

随机推荐

c#基础值类和引用类型
//值类型:int double char decimal bool enum struct //引用类型:string 数组自定义类集合 object 接口值传递传递的值得本身引用传递传递的 ...
MiniDao分页的坑
//TODO 此处切记不要传(page-1)*rows,MiniDAO底层已经做了此运算,.sql文件中也无需写limit,会自动加上List<BcProjectSampleBackEntity ...
./theHarvester.py -d baidu.com -l 100 -b google
./theHarvester.py -d baidu.com -l 100 -b google
ApexSQL Log中的Redo Script跟原始SQL不一致问题
最近遇到一个误更新数据的问题,使用ApexSQL Log做挖掘事务日志的时候,发现ApexSQL Log生成的Redo Script跟原始SQL是有区别的.它们并不是完全一致的.只是逻辑上等价而已.如 ...
lastlog命令
lastlog——检查某特定用户上次登录的时间命令所在路径:/usr/bin/lastlog 示例1: # lastlog 列出所有用户,并显示用户最后一次登录的时间等信息示例2: # lastl ...
MovieReview—Coco(寻梦环游记)
Dream & Family The protagonist in the movie is hard to choose between family and dream. ...
[uva816]AbbottsRevenge Abbott的复仇(经典迷宫BFS)
这题思路就普通的BFS加上一个维度朝向,主要是要注意输入,输出,以及细节的处理 #include<cstdio> #include<cstring> #include<q ...
【转】json格式化、高亮库jsonFormater
http://leo108.com/pid-1996.asp JsonFormater 基于jQuery的json格式化.高亮库核心代码参考天马行空工作室,本人只做了模块化和一些代码优化. demo ...
CPP-基础：类的静态成员
一静态数据成员: 类体中的数据成员的声明前加上static关键字,该数据成员就成为了该类的静态数据成员.和其他数据成员一样,静态数据成员也遵守public/protected/private访问规 ...
天坑之mysql乱码问题以及mysql重启出现1067的错误解决
相信很多小伙伴都遇到过数据库中文乱码问题,很头疼,明明Navicat上的编码格式都是utf-8是一样的啊? 为什么还是乱码? 原因是Navicat上的数据库编码格式并不是真正的编码格式 ,所以明白了吗 ...

光学字符识别OCR-2

光学字符识别OCR-2的更多相关文章

随机推荐

热门专题