Tesseract5.0训练字库，提高OCR特殊场景识别率（一）

0、目标

　很多特殊场景，原生的字库识别率不高，这时候就需要根据需求自己训练字库生成traineddata文件。

一、前期准备工作

　 1.安装jdk 用于运行jTessBoxEditor

　　2.安装jTessBoxEditor 用于调整图片上文字的内容和位置

　　3. 安装tesseract5.0

　　jdk下载地址：https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

jTessBoxEditor下载地址：https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/

　　安装包解压后双击里面的“jTessBoxEditor.jar”，或者双击该目录下的“train.bat”脚本文件，就可以打开该工具了。

二、样本图片准备：（进行训练的样本图片数量越多越好）

三、使用JTBE生成训练样本的合并tif图片

　　1.打开jTessBoxEditor，选择Tools->Merge TIFF，进入训练样本所在文件夹，选中要参与训练的样本图片，可以同时选择多张图片：

　　2.点击打开后，会提示你保存tif的地址，保存在当前路径，文件命名格式为hyfontlab.normal.exp0.tif，格式选择tiff

　　注意：

　　 tif文件命名格式[lang].[fontname].exp[num].tif

　　 lang是语言，fontname是字体，num为自定义数字。

　　比如我们要训练自定义字库 hyfontlab，字体名normal，那么我们把图片文件命名hyfontlab.normal.exp0.tif

四、使用tesseract生成box文件

　　在上一步骤生成的 hyfontlab.normal.exp0.tif 文件所在目录下打开Terminal窗口，执行下面命令,执行完之后会生成hyfontlab.normal.exp0.box文件。box文件是通过原生的tesseract-ocr识别出来的结果和对应坐标。如果我们要训练中文字库的话，记得加 -l chi_sim

tesseract hyfontlab.normal.exp0.tif hyfontlab.normal.exp0 -l chi_sim batch.nochop makebox

五、使用jTBE纠正box文件的错误

　　1.box文件记录了每个字符在图片上的位置和识别出的内容，训练前需要使用jTessBoxEditor调整字符的位置和内容。

　　2.打开jTessBoxEditor点击Box Editor ->Open，打开步骤三中生成的“hyfontlab.normal.exp0.tif”，会自动关联到“hyfontlab.normal.exp0.box”文件，这两文件要求在同一目录下。调整完点击“save”保存修改。

注意：

　　如果中文无法识别，需要在settings里面设置字体为宋体，style为Regular，size可以调到24.

六、生成font_properties文件（此文件没有后缀名）

　　执行命令： echo normal 0 0 0 0 0 > font_properties

　　其中fontname为字体名称，必须与[lang].[fontname].exp[num].box中的名称保持一致。<italic> 、<bold> 、<fixed> 、<serif>、 <fraktur>的取值为1或0，表示字体是否具有这些属性。

七、使用tesseract生成tr训练文件

　　1. 执行命令： tesseract hyfontlab.normal.exp0.tif hyfontlab.normal.exp0 nobatch box.train

2. 执行完之后，会在当前目录生成hyfontlab.normal.exp0.tr文件。

八、生成字符集文件

1.执行命令： unicharset_extractor fst.word.exp0.box

　　2. 执行下面命令：执行完之后会在当前目录生成一个名为“unicharset”的文件。

九、生成shape文件

1.执行命令： shapeclustering -F font_properties -U unicharset -O hyfontlab.unicharset hyfontlab.normal.exp0.tr

　　2.执行完之后，会生成 shapetable 和 hyfontlab.unicharset 两个文件

十、生成聚字符特征文件

1.执行命令： mftraining -F font_properties -U unicharset -O hyfontlab.unicharset hyfontlab.normal.exp0.tr

　　2.会生成 inttemp、pffmtable、shapetable和hyfontlab.unicharset四个文件。

十一、生成字符正常化特征文件

1.执行命令： cntraining hyfontlab.normal.exp0.tr

　　2.会生成 normproto 文件。

十二、文件重命名

　　1.重新命名inttemp、pffmtable、shapetable和normproto这四个文件的名字为[lang].xxx。

　　2.这里修改为 hyfontlab.inttemp、hyfontlab.pffmtable、hyfontlab.shapetable、hyfontlab.normproto

　　3.rename normproto zwp.normproto

十三、合并训练文件

　　1.执行下面命令，会生成hyfontlab.traineddata文件

　　2.执行命令： combine_tessdata hyfontlab.

　　3.Log输出中的Offset 1、3、4、5、13这些项不是-1，表示新的语言包生成成功。

　　4.将生成的“hyfontlab.traineddata”语言包文件复制到Tesseract-OCR 安装目录下的tessdata文件夹中，就可以使用训练生成的语言包进行图像文字识别了。

参考：

　　1、https://www.jianshu.com/p/c8ba23ec672a

　　2、https://www.cnblogs.com/yanjj/p/7998980.html

Tesseract5.0训练字库，提高OCR特殊场景识别率（一）的更多相关文章

Tesseract5.0训练字库，提高OCR特殊场景识别率，合并字库（二）
一.准备工作需要的文件 tif文件和box文件. 如果你打标打好了,但是是分批次打标的,那么可以合并字库,我们最初只需要 tif 和 box 文件,如下: 二.生成对应的 .tr 训练文件根据不同 ...
tesseract-ocr 提高验证码识别率手段之---识别码库训练方法
本文是对tesseract-ocr 使用的进一步技术升级说明,使用默认的识别库识别率比较低怎么办? 不用着急,tesseract-ocr本身的工具中提供了使用你提供的素材进行人工修正以提高识别率的方法 ...
Tesseract-OCR-v5.0中文识别,训练自定义字库,提高图片的识别效果
1,下载安装Tesseract-OCR 安装,链接地址https://digi.bib.uni-mannheim.de/tesseract/ 2,安装成功 tesseract -v 注意:安装后, ...
Tesseract-OCR4.0识别中文与训练字库实例
关于中文的识别,效果比较好而且开源的应该就是Tesseract-OCR了,所以自己亲身试用一下,分享到博客让有同样兴趣的人少走弯路. 文中所用到的身份证图片资源是百度找的,如有侵权可联系我删除. 一. ...
深入学习Tesseract-ocr识别中文并训练字库的方法
上篇文章简单的学习了tesseract-ocr识别图片中的英文(链接地址如下:https://www.cnblogs.com/wj-1314/p/9428909.html),看起来效果还不错,所以这篇 ...
ABBYY FineReader利用模式提高OCR质量
提高OCR质量,除了可以使用ABBYY FineReader 12OCR文字识别软件解决纸质文档的复杂结构未出现在电子文档中,或者未正确检测到区域的问题(详见如何提高ABBYY FineReader ...
利用jTessBoxEditor工具进行Tesseract3.02.02样本训练，提高验证码识别率
1.背景前文已经简要介绍tesseract ocr引擎的安装及基本使用,其中提到使用-l eng参数来限定语言库,可以提高识别准确率及识别效率. 本文将针对某个网站的验证码进行样本训练,形成自己的语 ...
用jTessBoxEditorFX训练字库
软件下载:https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/ 官方字库下载:https://github.com/tesser ...
Tesseract-OCR识别中文与训练字库
转自:https://www.cnblogs.com/lcawen/articles/7040005.html 关于中文的识别,效果比较好而且开源的应该就是Tesseract-OCR了,所以自己亲身试 ...

随机推荐

HTML5初识
HTML:超文本标记语言 HTML文档树结构标签:有一对<>组成的,标签不区分大小写,大多数都是成对出现,有开始标签和结束标签,但也有单个出现的自闭和标签标签属性:以键值对放在标签中, ...
神经网络训练技巧：训练参数初始化、Drop out及Batch Normalization
参数初始化: xavier初始化: https://blog.csdn.net/VictoriaW/article/details/73000632 条件:优秀的初始化应该使得各层的激活值和梯度的方差 ...
“HTTP 错误 404.15 - Not Found 请求筛选模块被配置为拒绝包含的查询字符串过长的请求”之解决办法
今天同事在做通过接口访问数据时,由于提交的一个参数内容比较多,导致测试时报了以下错误. 同时页面又给出了以下提示: 所以最终根据在网上找了相关资料总结出一下解决办法. 1. 在Web.config配置 ...
FAT12 img tool
NJU/2019/OS Description: CODE: Main.cpp: /* @author: Edwin Xu @Date:2019/11/13 @Note: just ASCII */ ...
Django【第3篇】：Django之模板语法
Django框架之第三篇模板语法(重要!!!) 一.什么是模板? 只要是在html里面有模板语法就不是html文件了,这样的文件就叫做模板. 二.模板语法分类一.模板语法之变量:语法为 {{ }}: ...
R语言-三种方法绘制单位圆
与一般开发语言不同,R以数据统计分析和绘图可视化为主要卖点.本文是第一篇博客,解决一个简单的绘图问题,以练手为目的. 以下直接给出三种单位圆的画法: 方法1 f=seq(,*pi,0.001) x=s ...
LeetCode--139--单词拆分(python)
给定一个非空字符串 s 和一个包含非空单词列表的字典 wordDict,判定 s 是否可以被空格拆分为一个或多个在字典中出现的单词. 说明: 拆分时可以重复使用字典中的单词.你可以假设字典中没有重复的 ...
vue父组件更新，子组件也更新的方法
1.父组件使用 Math.ramdom() 2.子组件获取然后监听这个ramdom变化,处理子组件的更新
margin属性以及垂直外边距重叠问题
盒子的margin属性盒子的外边距margin 指的是当前盒子与其他盒子之间的距离,环绕在盒子周围的空白区域,属于不可见的区域,,不会影响到可见框的大小,而是会影响到盒子的位置 ...
SQL Server性能调优--优化建议（二）
序言优化建议库表的合理设计对项目后期的响应时间和吞吐量起到至关重要的地位,它直接影响到了业务所需处理的sql语句的复杂程度,为提高数据库的性能,更多的把逻辑主外键.级联删除.减少check约束.给 ...

Tesseract5.0训练字库，提高OCR特殊场景识别率（一）

Tesseract5.0训练字库，提高OCR特殊场景识别率（一）的更多相关文章

随机推荐

热门专题