tesseract 中文二次训练

tesseract4.0以上版本可参考 https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract-4.00#tutorial-guide-to-lstmtraining

1. jTessBoxEditor 下载安装： https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/

2. 收集样本图像。(从图片自动生成)

text2image –text=training_text.txt –outputbase=cert.normal.exp0 –font=FreeMono –fonts_dir=/usr/share/fonts/truetype/freefont/

3.合并样本图像。运行jTessBoxEditor工具，在点击菜单栏中Tools--->Merge TIFF。在弹出的对话框中选择样本图像（按Shift选择多张），合并成num.font.exp0.tif文件。

java -jar jTessBoxEditor.jar 

# 或者

mogrify -format tif *.jpg
cat *.tif > cert.normal.exp0.tif

4.生成Box File文件。打开命令行，执行命令：

tesseract cert.normal.exp0.tif cert.normal.exp0 -l chi_sim -psm 6 batch.nochop makebox

5. 打开jTessBoxEditor矫正错误并训练

6. 训练

新建一个font_properties文件，里面内容写入 normal 0 0 0 0 0 表示默认普通字体

tesseract cert.normal.exp0.tif cert.normal.exp0 nobatch box.train

unicharset_extractor cert.normal.exp0.box

shapeclustering -F font_properties -U unicharset cert.normal.exp0.tr

mftraining -F font_properties -U unicharset -O unicharset cert.normal.exp0.tr

cntraining cert.normal.exp0.tr

最后会生成五个文件，把目录下的unicharset、inttemp、pffmtable、shapetable、normproto这五个文件前面都加上cert.

如图：

命令行输入，合并五个文件：

combine_tessdata cert.

参考：

1. http://www.cnblogs.com/wzben/p/5930538.html

2. http://blog.csdn.net/yimingsilence/article/details/51353772

3. https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract-4.00#tutorial-guide-to-lstmtraining

4. http://docs.oracle.com/cd/E56344_01/html/E54075/mogrify-1.html 命令手册

5. http://www.cnblogs.com/robben/p/4315123.html convert mogrify 命令使用

tesseract 中文二次训练的更多相关文章

Tesseract 3.02中文字库训练
Tesseract 3.02中文字库训练下载chi_sim.traindata字库下载tesseract-ocr-setup-3.02.02.exe 下载jTessBoxEditor用于修改box文 ...
tesseract中文语言文件包下载
tesseract中文语言文件包下载 tesseract中文语言文件包下载 tesseract中文语言文件包下载下载地址是:https://github.com/tesseract-ocr/l ...
js生成中文二维码
http://www.cnblogs.com/xcsn/archive/2013/08/14/3258035.html http://www.jb51.net/article/64928.htm 使用 ...
tflearn 中文汉字识别，训练后模型存为pb给TensorFlow使用——模型层次太深，或者太复杂训练时候都不会收敛
tflearn 中文汉字识别,训练后模型存为pb给TensorFlow使用. 数据目录在data,data下放了汉字识别图片: data$ ls0 1 10 11 12 13 14 15 ...
[转]Tesseract 3.02中文字库训练
下载chi_sim.traindata字库下载tesseract-ocr-setup-3.02.02.exe 下载地址:http://code.google.com/p/tesseract-ocr/d ...
LARC Caffe笔记（二）训练自己的img
继看完贺完结!CS231n官方笔记上一次已经成功跑起caffe自带的例程,mnist和cifar10 但是终归用的是里面写好的脚本,于是打算训练自己的img 〇.目标准备好food图片3类(出于 ...
用CNTK搞深度学习（二）训练基于RNN的自然语言模型 ( language model )
前一篇文章用 CNTK 搞深度学习 (一) 入门介绍了用CNTK构建简单前向神经网络的例子.现在假设读者已经懂得了使用CNTK的基本方法.现在我们做一个稍微复杂一点,也是自然语言挖掘中很火 ...
【Unity3D游戏开发】Application.systemLanguage无法区分简体中文和繁体中文 (二六)
游戏发布,语言本地化需要繁体中文和简体中文 iOS8版本之前没问题,iOS9上无法正常识别这两种语言原因是在iOS9上,Unity通过Application.systemLanguage返回的简体中 ...
opencv 人脸识别（二）训练和识别
上一篇中我们对训练数据做了一些预处理,检测出人脸并保存在\pic\color\x文件夹下(x=1,2,3,...类别号),本文做训练和识别.为了识别,首先将人脸训练数据转为灰度.对齐.归一化,再放入 ...

随机推荐

javascrpit的理解
1.什么是Javascrpt? 轻量级 .编程语言 HTML+css -->设计参数的默认值设置函数的闭包: 浏览器加载整个页面的过程浏览器:多线程 1.js引擎 2.UI渲染 3.事件线 ...
{python}完成完整的温度转换程序猜数字游戏（猜价格，猜年龄等）解析身份证号、学号不同片段的含义
完成完整的温度转换程序 while True: a = int(input("如果是华氏转摄氏,请按1\n,如果是摄氏转华氏,请按2\n")) if a==1: h = float ...
Easyui combobox下拉框默认选中第一项
var val = $(#cc).combobox("getData");for (var item in val[0]) { if (item == "gr ...
JQuery中serialize()方法的使用
梯度下降与pytorch
记得在tensorflow的入门里,介绍梯度下降算法的有效性时使用的例子求一个二次曲线的最小值. 这里使用pytorch复现如下: 1.手动计算导数,按照梯度下降计算 import torch #使用 ...
Servlet拓展
一. 概念 1.Servlet(Server Applet)是Java Servlet的简称,称为小服务程序或服务连接器,用Java编写的服务器端程序,主要功能在于交互式地浏览和修改数据, ...
MySQL Innodb Engine -- 文件格式(innodb_file_format)
======================================================== 在InnoDB 1.0.x版本之前,InnoDB 存储引擎提供了 Compact 和 ...
验证远程主机SSH指纹
转自:https://marskid.net/2018/02/05/how-to-verify-ssh-public-key-fingerprint/ 使用SSH进行远程连接新的主机的时候,经常会看到 ...
oracle-gi安装
############################################### 在cs6.5,cs7.2上安装grid11.2.0.1 和database11.2.0.1还是有问题 1 ...
Ubuntu server 运行.net core api 心得
1.安装.net core sdk 在微软.net core 安装页面找到linux 安装,按照步骤安装好 2.安装mysql 参考 Ubuntu安装mysql 3.配置mysql 1.需要将mysq ...

tesseract 中文二次训练

tesseract 中文二次训练的更多相关文章

随机推荐

热门专题