OCR2：tesseract字库训练

由于tesseract的中文语言包“chi_sim”对中文字体或者环境比较复杂的图片，识别正确率不高，因此需要针对特定情况用自己的样本进行训练，提高识别率，通过训练，也可以形成自己的语言库。

工具：

Java虚拟机，由于jTessBoxEditor的运行依赖Java运行时环境，所以需要安装Java虚拟机。下载地址：http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
jTessBoxEditor2.0工具，用于调整图片上文字的内容和位置，下载地址：https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/
安装包解压后双击里边的“jTessBoxEditor.jar”，或者双击该目录下的“train.bat”脚本文件，就可以打开该工具了

第一步：合成图片集

打开jTessBoxEditor，选择 Tools->Merge TIFF，进入训练样本所在文件夹，选中要参与训练的样本图片：进行训练的样本图片数量越多越好
点击 “打开” 后弹出保存对话框，选择保存在当前路径下，文件命名为： “demo.test.exp0.tif” ，格式只有一种 “TIFF” 可选。
- tif文面命名格式：[lang].[fontname].exp[num].tif
- lang：是语言，fontname：是字体，num：为自定义数字。
- 比如我们要训练自定义字库 demo，字体名 test，那么我们把图片文件命名为 demo.test.exp0.tif

第二步：生成box文件

在上一步骤生成的 .tif 文件所在目录下打开命令行程序，执行下面命令,执行完之后会生成 .box文件, .BOX文件为Tessercat识别出的文字和其坐标。
命令：tesseract demo.test.exp0.tif demo.test.exp0 -l chi_sim -psm 7 batch.nochop makebox

第三步：矫正.box文件的错误

.box文件记录了每个字符在图片上的位置和识别出的内容，训练前需要使用jTessBoxEditor调整字符的位置和内容。（注：图片dpi > 300 时效果更好）
打开jTessBoxEditor点击Box Editor ->Open，打开步骤2中生成的 .tif，会自动关联到 .box 文件，这两文件要求在同一目录下。调整完点击“save”保存修改。

第四步：生成font_properties文件（该文件没有后缀名）

执行命令，会在当前目录生成font_properties文件，命令：echo test 0 0 0 0 0 >font_properties
执行完成之后，在当前文件夹下生成font_properties文件
也可以手动在该文件夹下建立一个名为 “font_properties” 的文件，这个文件没有后缀名称，输入内容 “font 0 0 0 0 0” ，表示字体 font 的粗体、倾斜等共计5个属性全都设置为0。注意： 这里输入的 “font” 名称必须与 “demo.test.exp0.box” 中两个点号之间的 “test” 名称保持一致。

第五步：生成.tr训练文件

执行生成 demo.test.exp0.tr 文件，命令：tesseract demo.test.exp0.tif demo.test.exp0 nobatch box.train

第六步：生成字符集文件

执行命令，生成一个名为“unicharset”的文件；命令：unicharset_extractor demo.test.exp0.box

第七步：生成shape文件

执行命令，生成 shapetable 和 demo.unicharset 两个文件。命令：shapeclustering -F font_properties -U unicharset -O demo.unicharset demo.test.exp0.tr

第八步：生成聚字符特征文件

执行命令，会生成 inttemp、pffmtable、shapetable和demo.unicharset四个文件。命令：mftraining -F font_properties -U unicharset -O demo.unicharset demo.test.exp0.tr

第九步：生成字符正常化特征文件

执行命令，生成 normproto 文件。命令：cntraining demo.test.exp0.tr

第十步：文件重命名

重新命名inttemp、pffmtable、shapetable和normproto这四个文件的名字为[lang].xxx。这里修改为demo.inttemp、demo.pffmtable、demo.shapetable和demo.normproto

rename normproto demo.normproto

rename inttemp demo.inttemp

rename pffmtable demo.pffmtable

rename shapetable demo.shapetable

rename unicharset demo.unicharset

第十一步：合并训练文件

执行下面命令，会生成demo.traineddata文件。命令：combine_tessdata demo.
将生成的“demo.traineddata”语言包文件复制到Tesseract-OCR 安装目录下的tessdata文件夹中，就可以使用训练生成的语言包进行图像文字识别了。

测试

import pytesseract

from PIL import Image as img

class Languages:

    CHS = 'chi_sim'

    CHT = 'chi_tra'

    ENG = 'eng'

    DM = 'demo'

text = pytesseract.image_to_string(img.open('demo.jpg'), lang=Languages.DM)

print(text)

参考资料：

OCR2：tesseract字库训练的更多相关文章

tesseract 字体训练资料篇
tesseract 字体训练资料篇 1.制作.box档案文件. tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] ...
Tesseract识别图片提取文字&字库训练
文中测试了3.0和4.0两个版本.发现3.0识别效率不准确,需要训练词库.4.0识别效率就比较高了,而且支持结果生成pdf.txt等格式.所以推荐使用4.0版本. 这个工具可以用在爬虫的时候获取验证码 ...
tesseract-ocr字库训练图文讲解
第一步合成图片集你需要把使用jTessBoxEditor工具把你的训练素材及多张图片合并成一张tif格式的图片集第二步生成box文件运行tesseract命令,tesseract mjorc ...
【Tesseract】Tesseract 的训练流程
在泰迪杯A题中,我刚刚接触了Tesseact,其中训练字库中遇到了较多的问题.所以在此记录一下,也当做一个笔记,省得以后忘记. 为了方便 ,将tif命名格式设为[lang].[fontname].ex ...
tesseract ocr训练 pt验证码
识别率有问题A大概率识别为n,因此需要训练,这里讲一下如何训练参考 java代码里边直接使用tess4j,是对tesseract的封装,但是如果要训练,还是需要在进行安装tesseract-ocr ...
Tesseract训练
最近在用Tesseract做一个图片识别的小应用,目标图像只有数字和英文字母,在实际使用过程中发现个别数识别错误,因此不得不研究学习Tesseract的训练. http://www.cnblogs.c ...
tesseract-ocr如何训练Tesseract 4.0
引自:https://blog.csdn.net/huobanjishijian/article/details/76212214 原文:https://github.com/tesseract-oc ...
Tesseract训练中文字体识别
注:目前仅说明windows下的情况前言网上已经有大量的tesseract的识别教程,但是主要有两个缺点: 大多数比较老,有部分内容已经不适用. 大部分只是就英文的训练进行探索,很少针对中文的训练 ...
jTessBoxEditor工具进行Tesseract3.02.02样本训练
1.背景前文已经简要介绍tesseract ocr引擎的安装及基本使用,其中提到使用-l eng参数来限定语言库,可以提高识别准确率及识别效率. 本文将针对某个网站的验证码进行样本训练,形成自己的语 ...

随机推荐

虚拟机中Windows激活「很抱歉，程序无法在非MBR引导分区上进行激活」
虚拟机激活 Windows 出现如下错误提示: 很抱歉,程序无法在非MBR引导分区上进行激活没错,是小马Oem7F7激活工具. 最后使用 KMS 激活成功,下载链接: 链接:https://pan. ...
BZOJ 4826: [Hnoi2017]影魔单调栈+可持久化线段树
Description 影魔,奈文摩尔,据说有着一个诗人的灵魂.事实上,他吞噬的诗人灵魂早已成千上万.千百年来,他收集了各式各样的灵魂,包括诗人.牧师.帝王.乞丐.奴隶.罪人,当然,还有英雄.每一个 ...
BILIBILI之滑块验证
bilibili的滑动验证码图片比较好玩,和前一篇不大一样. 采用canvas方法,分析发现只找到一个图片,不过,可以通过设置display截图方式获得2张图(完整图片,带缺口的图片),取得图片后接下 ...
第02组团队Git现场编程实战
目录 1. 组员职责分工(2分) 2. github 的提交日志截图(1分) 3. 程序运行截图(3分) 4. 程序运行环境(1分) 5. GUI界面(5分) 6. 基础功能实现(10分) 7. 鼓励 ...
ReentrantLock源码简析
概念 ReentrantLock,可重入锁.在多线程中,可以通过加锁保证线程安全. 加锁和解锁加锁: public void lock() { sync.lock(); } 解锁 public vo ...
MOT19数据集百度云盘
图片按视频分的压缩包 [已失效] 链接: https://pan.baidu.com/s/1kNw6yhvqgitNK5N__WOpxw 提取码: yia4 链接: https://pan.baidu ...
[记录]mscorlib recursive resource lookup bug解决方法
[Content]Expression: [mscorlib recursive resource lookup bug]Description: Infinite recursion during ...
linux下安装谷歌拼音输入法
linux下安装谷歌拼音输入法输入以下命令,等待安装完成. sudo apt-get install fcitx 接着输入,完成安装谷歌中文输入法 sudo apt-get install fcit ...
Xamarin.Android 6.0以后开启权限方法
Android 6.0 版本以上一些危险权限只能在运行的时候依次询问用户是否赋予,所以在开发的时候使用 RequestPermissions 方法单独请求所需要的权限. 代码: //开启相机权限 if ...
nginx location指令详解
Nginx的HTTP配置主要包括三个区块,结构如下: http { //这个是协议级别 include mime.types; default_type application/octet-strea ...

OCR2：tesseract字库训练

OCR2：tesseract字库训练的更多相关文章

随机推荐

热门专题