OCR是用来做什么的

OCR（Optical Character Recognition，光学字符识别）是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

一个OCR识别系统，其目的很简单，只是要把影像作一个转换，使影像内的图形继续保存、有表格则表格内资料及影像内的文字，一律变成计算机文字，使能达到影像资料的储存量减少、识别出的文字可再使用及分析，当然也可节省因键盘输入的人力与时间。从影像到结果输出，须经过影像输入、影像前处理、文字特征抽取、比对识别、最后经人工校正将认错的文字更正，将结果输出。

OCR识别技巧

1．分辨率的设置是文字识别的重要前提。一般来讲，扫描仪提供较多的图像信息，识别软件比较容易得出识别结果。但也不是扫描分辨率设得越高识别正确率就越高。选择300dpi或400dpi分辨率，适合大部分文档扫描。注意文字原稿的扫描识别，设置扫描分辨率时千万不要超过扫描仪的光学分辨率，不然会得不偿失。

2．扫描时适当地调整好亮度和对比度值，使扫描文件黑白分明。这对识别率的影响最为关键，扫描亮度和对比度值的设定以观察扫描后的图像中汉字的笔画较细但又不断开为原则。进行识别前，先看看扫描得到的图像中文字质量如何，如果图像存在黑点或黑斑时或文字线条很粗很黑，分不清笔画时，说明亮度值太小了，应该增加亮度值在试试；如果文字线条凹凸不平，有断线甚至图像中汉字轮廓严重残缺时，说明亮度值太大了，应减小亮度后再试试。

3．选好扫描软件。选一款好的适合自己的OCR软件是作好文字识别工作的基础。ABBYY FineReader 12 OCR文字识别软件提供快速、准确、方便的方式来扫描文件、PDF格式、数字或移动电话图像转换成可编辑的格式，与99,8％的识别准确率OCR技术即刻能够识别文本，复制和粘贴，搜索或编辑，转换几乎所有打印的文档类型，包括书籍，杂志上的文章与复杂的布局。
再选一个图像软件，第一，OCR软件不能识别所有的扫描仪；第二，也是最关键的，利用图像软件的扫描接口扫描出来的图像便于处理。

4．在扫描识别报纸或其他半透明文稿时，背面的文字透过纸张混淆文字字形，对识别会造成很大的障碍。遇到该类扫描，只要在扫描原稿的背面附。盖一张黑纸，扫描时，增加扫描对比度，即可减少背面模糊字体的影响，提高识别正确率。

5．一般文本扫描原稿都为黑、白两色原稿，但是在扫描设置时却常将扫描模式设为灰度模式。特别是在原稿质量较差时，使用灰度模式扫描，并在扫描软件处理完后再继续识别，这样会得到较好的识别正确率。

6．遇到图文混排的扫描原稿，首先明确使用的识别软件是否支持自动分析图文这一功能。使用ABBYY FineReader 12就不用担心这个问题，在进行这类扫描识别时，软件会自动计算出文本的内容、位置和先后顺序，文字部分可以按照标示顺序正常识别。

7．在放置扫描原稿时，把扫描的文字材料一定要摆放在扫描起始线正中，以最大限度地减小由于光学透镜导致的失真。同时应保护扫描仪玻璃的干净和不受损害。

8．先“预览”整体版面，选定要扫描的区域，再用“放大预览”工具，选择一小块进行放大显示到全屏幕，观察其文字的对比度，文字的深浅浓度，据情况调整"阀值"的大小，最终要求文字清晰，不浓（文字成团），不淡（文字断笔伐），一般在“阀值”80左右为宜，最后再扫描。

9．如果要扫描印刷质量稍微差一些的文章，比如说报纸，扫描的结果将不会黑白分明，会出现大量的黑点，而且在字体的笔画上也会出现粘连现象。为获得较好的识别结果，必须仔细进行色调调节，反复扫描多次才能获得比较理想的结果。

本文来源于：http://www.abbyychina.com/zhishiku/ocr-jiandanjieshao.html

OCR是用来做什么的的更多相关文章

OCR磁盘的导出和导入、备份和恢复以及移动（ocrconfig命令的应用)
数据库版本:10.2.0.1 一,使用导出.导入进行备份和恢复 Oracle推荐在对集群做调整时,比如增加.删除节点之前,应该对OCR做一个备份,可以使用export 备份到指定文件.如果做了repl ...
使用导入导出进行备份和恢复OCR（10g）
Oracle推荐在对集群调整时,比方添加.删除节点之前,应对OCR进行备份,能够用export备份到指定文件.假设做了replace或者restore等操作,Oracle建议使用cluvfy comp ...
RAC OCR盘故障导致的集群重启恢复
一.事故说明最近出现了一次OCR盘的故障导致Oracle集群件宕机的事故,后以独占模式启动集群,并使用ocr备份恢复了OCR文件以及重新设置了vote disk,然后关闭集群,重启成功. 因此在此处 ...
【强大的PDF格式转换工具】Lighten PDF Converter OCR for Mac 6.2.0
[简介] Lighten PDF Converter OCR 是一款Mac上强大的PDF格式转换工具,可以将PDF文档快速批量的转换为Office (Word, Excel, PowerPoint), ...
Machine Learning第十一周笔记：photo OCR
博客已经迁移至Marcovaldo's blog (http://marcovaldong.github.io/) 刚刚完毕了Cousera上Machine Learning的最后一周课程.这周介绍了 ...
冀永楠：OCR的应用锦集及背后技术
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由云加社区技术沙龙发表于云+社区专栏演讲嘉宾:冀永楠,现为腾讯云大数据AI产品中心高级研究员.负责了腾讯云与华星光电等多个图像AI项 ...
论文阅读（Xiang Bai——【TIP2014】A Unified Framework for Multi-Oriented Text Detection and Recognition）
Xiang Bai--[TIP2014]A Unified Framework for Multi-Oriented Text Detection and Recognition 目录作者和相关链接 ...
Emgu学习手册
作为opencv的c#封装库.emgu可以满足基本的图像处理功能,经过测试,效果还可以,主要用于windows窗体应用程序的开发,或者wpf,你可以用来做ocr,也可以用来做人脸识别或者可以用来做定位 ...
oracle rac理解和用途扩展
Oracle RAC的优势在于利用多个节点(数据库实例)组成一个数据库,这样在保证了数据库高可用性的情况下更充分的利用了多个主机的性能,而且可以通过增加节点进行性能的扩展.实现Oracle RAC需要 ...

随机推荐

mysql 创建存储过程注意
最近在利用navicat创建存储过程时,总是报1064语法错误,而且每次都是指向第一行,百思不得姐,如下图: 后来发现,原来是输入参数没有定义长度导致,所以以后真要注意加上入参长度即可:IN `sT ...
windows-ubuntu环境变量的设置格式的不同
1 在Ubuntu下输出环境变量,比如JAVA_HOME, 使用cat或者echo $JAVA_HOME即可,但是在windows下不可以, windows不支持cat命令,只能使用echo %JA ...
linux 任务调度系统任务调度
linux at 针对运行一次的任务 crontab 控制计划任务的命令 crond系统服务 crond是linux下用来周期性的执行某种任务或等待处理某些事件的一个守护进程, 与windows ...
在config文件输入特殊字符
今天遇到要在config文件中配置一个包含引号,尖括号的特殊字符的问题,config文件不支持转义字符,我开始发动自己的脑子想,想出一个蹩脚的方法,用其他的字符替换比如&,?,!,问题倒是解决 ...
ios学习之关于Certificate、Provisioning Profile、App ID的介绍及其之间的关系
刚接触iOS开发的人难免会对苹果的各种证书.配置文件等不甚了解,可能你按照网上的教程一步一步的成功申请了真机调试,但是还是对其中的缘由一知半解.这篇文章就对Certificate.Provisioni ...
Asp.net操作Excel----NPOI!!!!1
前言 Asp.net操作Excel已经是老生长谈的事情了,可下面我说的这个NPOI操作Excel,应该是最好的方案了,没有之一,使用NPOI能够帮助开发者在没有安装微软Office的情况下读写Off ...
Find Minimum in Rotated Sorted Array II
Follow up for "Find Minimum in Rotated Sorted Array":What if duplicates are allowed? Would ...
dedecms：织梦文章如何添加“自定义属性”标签（sql命令行工具）
dede织梦如何添加“自定义属性”标签“症状” 1.进入后台——系统——SQL命令行工具——运行SQL命令行,添加arcatt表字段: insert into`dede_arcatt`(sortid, ...
JS基础知识（数据类型）
1,关于typeof 因为是弱类型语言,而程序代码中又不得不定义出变量的类型所提供出来的方法. 返回的结果如下图: 如下例子: var test = "123"; va ...
硬盘缓存的最佳方案，DiskLruCache完全解析
收藏自:http://blog.csdn.net/guolin_blog/article/details/28863651

OCR是用来做什么的

OCR是用来做什么的的更多相关文章

随机推荐

热门专题