tesseract-orc 合并识别结果

在实际使用 tesseract-orc 识别库的时候，初次制作的识别库很有可能识别率不太理想，需要后期慢慢补充

本文演示如何将多个修正过的box文件合并成一个识别库。

首先，需要图片样本.tif文件，位置文件.box ,只要有这两个文件在，就可以合并字典

假设已存在如下样品图片和修正过的box文件：

image.font.1.tif image.font.1.box

image.font.2.tif image.font.2.box

image.font.3.fit image.font.3.box

1、先生成相对应的 .tr 文件

tesseract image.font.1.tif image.font.1 nobatch box.train

tesseract image.font.2.tif image.font.2 nobatch box.train

tesseract image.font.3.tif image.font.3 nobatch box.train

2、提取字符

unicharset_extractor image.font.1.box image.font.2.box image.font.3.box

3、生成字体特征文件

新建 font_properties 文件（注意没有后缀名）把所有box文件对应的字体特征都加进去

font 0 0 0 0 0

4、执行如下命令

mftraining -F font -U unicharset image.font.1.tr image.font.2.tr image.font.3.tr

5、聚集所有.tr 文件

cntraining image.font.1.tr image.font.2.tr image.font.3.tr

6、重命名文件

将如下文件重命名，在前面增加字体的名称，这里我使用【CK】

unicharset

inttemp

normproto

pfftable

shapetable ---- 很多教程都漏了这个文件，不改这个文件创建识别库的时候会报错。

重命名后各文件名如下

CK.unicharset

CK.inttemp

CK.normproto

CK.pfftable

CK.shapetable ---- 很多教程都漏了这个文件，不改这个文件创建识别库的时候会报错。

7、合并所有文件生成一个大的字库文件

combine_tessdata CK.

打完收工

tesseract-orc 合并识别结果的更多相关文章

基于Tesseract的OCR识别小程序
一.背景先说下开发背景,今年有次搬家找房子(2020了应该叫去年了),发现每天都要对着各种租房广告打很多电话.(当然网上也找了实地也找),每次基本都是对着墙面看电话号码然后拨打,次数一多就感觉非常麻 ...
tesseract ocr文字识别Android实例程序和训练工具全部源代码
tesseract ocr是一个开源的文字识别引擎,Android系统中也可以使用.可以识别50多种语言,通过自己训练识别库的方式,可以大大提高识别的准确率. 为了节省大家的学习时间,现将自己近期的学 ...
tesseract ocr文字识别
一.环境搭建 (基于VS2010) 1.下载安装 tesseract-ocr-setup-3.02.02.exe 安装包 ,安装时候最好是在FQ的情况下安装.(安装一点要勾选 Tesseract de ...
Android ORC文字识别之识别身份证号等（附源码）
项目地址https://github.com/979451341/OrcTest 我们说说实现这个项目已实现的功能,能够截图手机界面的某一块,将这个某一块图片的Bitmap传给tess-two的代码来 ...
在Mac上 python中使用tesseract OCR (Pytesser) 识别图片中的文字
仓库地址:https://github.com/RobinDavid/Pytesser brew install tesseract sudo pip install opencv-python 安装 ...
关于用tesseract和tesserocr识别图片的一个问题
对于像我这样初学python网络爬虫的freshman来说,软件的准备和环境的配置能让我们崩溃.其中用刚安装好的tesseract和tesserocr库测试识别验证码就是其中一例. 这里我要测试的验证 ...
基于Tesseract的身份证识别Android端应用
以开源的Tesseract为基础,做了一个身份证识别的app. 图片资源是百度找的,而且手机对着电脑屏幕拍照,拍出很多花纹,影响比较大,所以误差不小,实测对着自己身份证拍照会好很多. 效果图: 1.拍 ...
python 使用tesseract进行图片识别
from PIL import Image import pytesseract text = pytesseract.image_to_string(Image.open(r'E:\guo\2432 ...
java使用开源类库Tesseract实现图片识别
Tesseract-OCR支持中文识别,并且开源和提供全套的训练工具,是快速低成本开发的首选. Tess4J则是Tesseract在Java PC上的应用 Tesseract的OCR引擎最先由HP实验 ...

随机推荐

Lumen 设置 timezone 时区
Lumen 设置 timezone 时区 2015-06-19| wid| 后端开发今天用 Lumen 框架写代码时, 也是初次体验 Lumen, 遇到了一个问题, 从数据库里查出的时间比数据库里保 ...
(转)jQuery禁止右键菜单，全选
本文转载自:http://www.cnblogs.com/lucker/archive/2012/09/21/2696464.html $("body").bind("c ...
Redis资料汇总专题
1.Redis是什么? 十五分钟介绍 Redis数据结构 Redis系统性介绍一个很棒的Redis介绍PPT 强烈推荐!非同一般的Redis介绍 Redis之七种武器锋利的Redis redis ...
winform实现word转换为PDF(.doc)
注意:实现word转换为PDF文件,本人安装Office为2013; word以后缀为.doc为例实现文件类型转换,具体方式如下所示: 实现步骤: 1.添加命名空间引用——using Microsof ...
［linux basic 基础］----同步信号量
直接使用一个共享变量,来是两个线程之间进行切换是非常笨拙而且没有效率的:信号量--互斥量--这两者是相互通过对方来实现的:比如,如果想控制某一时刻只有一个线程可以访问一些共享内存,使用互斥量要自然一些 ...
eclipse 每次切换工作空间都要重新配置
首先,导出T1中的配置打开T1,选择file --> Export --> 在弹出框中选择General 下的preference --> next --> 在export p ...
JavaScript如何获得昨天明天等日期
<script type="text/javascript"> function GetDateStr(AddDayCount) { var dd = new Date ...
Scala第二章学习笔记
最基本的练习~: 使用伴生对象: object holder{ class Foo{ private var x = 5} object Foo{def im_in_yr_foo(f: Foo) = ...
Shuffle相关分析
Shuffle描述是一个过程,表现出的是多对多的依赖关系.Shuffle是连接map阶段和Reduce阶段的纽带,每个Reduce Task都会从Map Task产生的数据里读取其中的一片数据.Shu ...
NeHe OpenGL教程第六课：纹理映射
转自[翻译]NeHe OpenGL 教程前言声明,此 NeHe OpenGL教程系列文章由51博客yarin翻译(2010-08-19),本博客为转载并稍加整理与修改.对NeHe的OpenGL管线 ...

tesseract-orc 合并识别结果

tesseract-orc 合并识别结果的更多相关文章

随机推荐

热门专题