光学字符识别OCR-4

经过第一部分，我们已经较好地提取了图像的文本特征，下面进行文字定位。主要过程分两步：
1、邻近搜索，目的是圈出单行文字；
2、文本切割，目的是将单行文本切割为单字。

邻近搜索

我们可以对提取的特征图进行连通区域搜索，得到的每个连通区域视为一个汉字。这对于大多数汉字来说是适用，但是对于一些比较简单的汉字却不适用，比如“小”、“旦”、“八”、“元”这些字，由于不具有连通性，所以就被分拆开了，如图13。因此，我们需要通过邻近搜索算法，来整合可能成字的区域，得到单行的文本区域。

邻近搜索的目的是进行膨胀，以把可能成字的区域“粘合”起来。如果不进行搜索就膨胀，那么膨胀是各个方向同时进行的，这样有可能把上下行都粘合起来了。因此，我们只允许区域向单一的一个方向膨胀。我们正是要通过搜索邻近区域来确定膨胀方向(上、下、左、右)：

邻近搜索* 从一个连通区域出发，可以找到该连通区域的水平外切矩形，将连通区域扩展到整个矩形。当该区域与最邻近区域的距离小于一定范围时，考虑这个矩形的膨胀，膨胀的方向是最邻近区域的所在方向。

既然涉及到了邻近，那么就需要有距离的概念。下面给出一个比较合理的距离的定义

距离

如上图，通过左上角坐标(x,y)和右下角坐标(z,w)就可以确定一个矩形区域，这里的坐标是以左上角为原点来算的。这个区域的中心是( (x+z)/2, (y+w)/2 )。对于图中的两个区域S和S′，可以计算它们的中心向量差

如果直接使用作为距离是不合理的，因为这里的邻近应该是按边界来算，而不是中心点。因此，需要减去区域的长度：

距离定义为

至于方向，由的幅角进行判断即可。

然而，按照前面的“邻近搜索*”方法，容易把上下两行文字粘合起来，因此，基于我们的横向排版假设，更好的方法是只允许横向膨胀：
邻近搜索 从一个连通区域出发，可以找到该连通区域的水平外切矩形，将连通区域扩展到整个矩形。当该区域与最邻近区域的距离小于一定范围时，考虑这个矩形的膨胀，膨胀的方向是最邻近区域的所在方向，当且仅当所在方向是水平的，才执行膨胀操作。

结果

有了距离之后，我们就可以计算每两个连通区域之间的距离，然后找出最邻近的区域。我们将每个区域向它最邻近的区域所在的方向扩大4分之一，这样邻近的区域就有可能融合为一个新的区域，从而把碎片整合。
实验表明，邻近搜索的思路能够有效地整合文字碎片，结果如图15。

光学字符识别OCR-4的更多相关文章

光学字符识别OCR
1.功能: 光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程 2.典型应用: 名片扫描 3 ...
6 个优秀的开源 OCR 光学字符识别工具
转自:http://sigvc.org/bbs/thread-870-1-1.html 纸张在许多地方已日益失宠,无纸化办公谈论40多年,办公环境正限制纸山的生成.而过去几年,无纸化办公的概念发生了显 ...
开源OCR光学字符识别
纸张在许多地方已日益失宠,无纸化办公谈论40多年,办公环境正限制纸山的生成.而过去几年,无纸化办公的概念发生了显着的转变.在计算机软件的帮助下,包含大量重要管理数据和资讯的文档可以更方便的以电子形 ...
字符识别OCR研究一（模板匹配&BP神经网络训练）
摘要在MATLAB环境下利用USB摄像头採集字符图像.读取一帧保存为图像.然后对读取保存的字符图像,灰度化.二值化,在此基础上做倾斜矫正.对矫正的图像进行滤波平滑处理,然后对字符区域进行提取切割出 ...
Ocrad.js – JS 实现 OCR 光学字符识别
Ocrad.js 相当于是 Ocrad 项目的纯 JavaScript 版本,使用 Emscripten 自动转换.这是一个简单的 OCR (光学字符识别)程序,可以扫描图像中的文字回文本. 不像 G ...
IT行业新名词--透明手机/OCR(光学字符识别)/夹背电池
透明手机机身设计的一大关键部分是可替换玻璃的使用,利用导电技术,在看不到线路的环境下,让LED发光. 这样的玻璃内含液晶分子,对于内容的显示则是通过电流对分子的刺激来实现.当手机断电后,分子位置会随 ...
非黑即白--谷歌OCR光学字符识别
# coding=utf-8 #非黑即白--谷歌OCR光学字符识别 # 颜色的世界里,非黑即白.computer表示深信不疑. # 今天研究一下OCR光学识别庞大领域中的众多分支里的一个开源项目的一个 ...
OCR技术（光学字符识别）
什么是OCR? OCR英文全称是optical character recognition,中文叫光学字符识别.它是利用光学技术和计算机技术把印在或者写在纸上的文字读取出来,并转换成一种计算机能够接 ...
OCR （Optical Character Recognition，光学字符识别）
OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗.亮的模式确定其形状,然后用字符识别方法将形状翻译 ...
OCR 即光学字符识别
OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗.亮的模式确定其形状,然后用字符识别方法将形状翻译 ...

随机推荐

Swing编程概述
Swing作为AWT组件的“强化版”,它的产生主要是为了克服AWT构建的GUI,无法在所有平台都通用的问题.允许编程人员跨平台时指定统一的GUI显示风格也是Swing的最大优势.Swing是AWT的补 ...
SpringBoot：异步开发之异步调用
前言除了异步请求,一般上我们用的比较多的应该是异步调用.通常在开发过程中,会遇到一个方法是和实际业务无关的,没有紧密性的.比如记录日志信息等业务.这个时候正常就是启一个新线程去做一些业务处理,让主线 ...
Android Studio 编译错误 Error:Execution failed for task ':app:buildInfoDebugLoader'.
今天来到打开昨天的项目运行正常,然后改动了一点代码编译报错: Error:Execution failed for task ':app:buildInfoDebugLoader'. > Exc ...
Ruby菜鸟入门指南
写这篇文章的初衷源于我的伙伴们在上手Ruby过程中,表现实在是太让人拙计了.由于项目的急功近利,需要迅速入门Ruby并上手项目.所以很多开发者在实际开发过程中,不熟悉Ruby的表达方式,也会沿用其他语 ...
IT圈网红，抢鲜围观
即将于2017年10月23-26日,在北京举办的微软技术暨生态大会,是微软中国年度最盛大的科技峰会,是微软技术大会与合作伙伴大会的首次联袂,也是聚集众多IT大咖的技术狂欢派对. 无论你想实现现代化工作 ...
Python+selenium之获取请求信息
basicConfig()所捕获的log信息.不过其开启的debug模式只能捕获到客户端像服务器发送的post()请求,而无法获取服务器所返回的应答信息. from random import ran ...
My sql之存储过程+游标
sql 实例如下: /**************定义更改car_station_user_acct_his new_balance old_balance存储过程**************/ cr ...
userBean-作用范围application
package com.java1234.model; public class Student { private String name;private int age; public Strin ...
《毛毛虫组》【Alpha】Scrum meeting 5
第二天日期:2019/6/18 1.1 今日完成任务情况以及遇到的问题. 今日完成任务情况: 出入库货物年统计模块设计及系统的测试运行: (1)对数据库表--tb_InStore和tb_OutSto ...
jquery的正则表达式
正则表达式位置: ^ 开头 $ 结尾次数: * 0或多个 + 1或多个 ? 0或1个 {n} 就是n个 {n,} 至少n个 {n,m} ...

光学字符识别OCR-4

光学字符识别OCR-4的更多相关文章

随机推荐

热门专题