tesserat训练中文备忘录

最近用OCR识别身份证，用的tesseract引擎。但是google自带的中文库是在太慢了，尤其是对于性别、民族这样结果可以穷举的特征信息而言，完全可以自己训练字库。自己训练字库不仅可以提高识别速度，而且可以提高识别精度！

在训练过程中，常见的error有以下几种：

1）index >= 0 && index<size_used_:Error:Assert failed in genericvector.h, line 512

原因：

检查一下训练后type 13的数值。如果为0，说明shapetable没有配置进去。

2）empty page

原因：版面分析没有做好，没有找到字符。最好手动设置以下版面格式。如：

-psm 7 单行模式

-psm 10 单字符模式

3）用的时候找不到语言包

原因：自己训练完的语言数据要放在../tessdata中，因为tesseract源码里把这个文件路径写进环境变量里了！

4）fail to load font_properties

原因：有些教程没有加.txt。需要写成font_properties.txt这样的格式。

------------------------------训练-------------------------------------------------------------------

1、图片命名规则：lang.fond.exp0.jpg

2、生成box文件：

tesseract chi.test.exp0.jpg chi.test.exp0 batch.nochop makebox

3、用jTessBoxEditor校正文字

4、生成tr文件：

tesseract chi.test.exp0.jpg chi.test.exp0 box.train

5、生成unicharset文件：

unicharset_extractor chi.test.exp0.box

6、新建字体特征文件

font_properties不含有BOM头，文件内容格式如<fontname> <italic> <bold> <fixed> <serif> <fraktur>

font_properties 文件内容为test 0 0 0 0 0

7、生成shapetable文件

shapeclustering -F font_properties -U unicharset chi.test.exp0.tr

8、生成chi.unicharset inttemp文件

mftraining -F font_properties -U unicharset -O chi.unicharset chi.test.exp0.tr

9、生成normproto文件

cntraining chi.test.exp0.tr

10、合并文件

在inttemp normproto pffmtable shapetable加上前缀chi.

运行combine_tessdata chi.

tesserat训练中文备忘录的更多相关文章

使用 DL4J 训练中文词向量
目录使用 DL4J 训练中文词向量 1 预处理 2 训练 3 调用附录 - maven 依赖使用 DL4J 训练中文词向量 1 预处理对中文语料的预处理,主要包括:分词.去停用词以及一些根据实 ...
Tesseract训练中文字体识别
注:目前仅说明windows下的情况前言网上已经有大量的tesseract的识别教程,但是主要有两个缺点: 大多数比较老,有部分内容已经不适用. 大部分只是就英文的训练进行探索,很少针对中文的训练 ...
使用word2vec训练中文词向量
https://www.jianshu.com/p/87798bccee48 一.文本处理流程通常我们文本处理流程如下: 1 对文本数据进行预处理:数据预处理,包括简繁体转换,去除xml符号,将单词 ...
word2vec训练中文模型
-- 这篇文章是一个学习.分析的博客 --- 1.准备数据与预处理首先需要一份比较大的中文语料数据,可以考虑中文的维基百科(也可以试试搜狗的新闻语料库).中文维基百科的打包文件地址为 https: ...
Windows下基于python3使用word2vec训练中文维基百科语料(二)
在上一篇对中文维基百科语料处理将其转换成.txt的文本文档的基础上,我们要将为文本转换成向量,首先都要对文本进行预处理步骤四:由于得到的中文维基百科中有许多繁体字,所以我们现在就是将繁体字转换成简体 ...
Windows下基于python3使用word2vec训练中文维基百科语料(一)
在进行自然语言处理之前,首先需要一个语料,这里选择维基百科中文语料,由于维基百科是 .xml.bz2文件,所以要将其转换成.txt文件,下面就是相关步骤: 步骤一:下载维基百科中文语料 https:/ ...
使用Keras训练神经网络备忘录
小书匠深度学习文章太长,放个目录: 1.优化函数的选择 2.损失函数的选择 2.2常用的损失函数 2.2自定义函数 2.1实践 2.2将损失函数自定义为网络层 3.模型的保存 3.1同时保持结构和权 ...
Windows下基于python3使用word2vec训练中文维基百科语料(三)
对前两篇获取到的词向量模型进行使用: 代码如下: import gensim model = gensim.models.Word2Vec.load('wiki.zh.text.model') fla ...
文本分布式表示（二）：用tensorflow和word2vec训练词向量
看了几天word2vec的理论,终于是懂了一些.理论部分我推荐以下几篇教程,有博客也有视频: 1.<word2vec中的数学原理>:http://www.cnblogs.com/pegho ...

随机推荐

MySQL分类表设计--根据ID删除全部子类
在做数据库分类表的时候,通常会有这样的设计:一个字段是ID,另一个字段PID,PID指向自己的上级分类: 这样的设计带来的问题是:我要删除一个类,我希望它的子类全部一起删除: 在不知道分类有多少层级的 ...
[Asp.Net Core] 1. IIS中的 Asp.Net Core 和 dotnet watch
在基于传统的.NET Framework的Asp.Net Mvc的时候,本地开发环境中可以在IIS中建立一个站点,可以直接把站点的目录指向asp.net mvc的项目的根目录.然后build一下就可以 ...
题目八 one + two = 3 soj
读入两个小于100的正整数A和B,计算A+B.需要注意的是:A和B的每一位数字由对应的英文单词给出. 测试输入包含若干测试用例,每个测试用例占一行,格式为"A + B =",相邻两 ...
【译】10个机器学习的JavaScript示例
原文地址:10 Machine Learning Examples in JavaScript 在过去的每一年,用于机器学习(Machine Learning)的库在变得越来越快和易用.一直以来Pyt ...
debounce去弹跳
通过返回闭包,来共用timer定时器,通过定时器的清除和设置来实现每次触发后重新计时. /** * * @param fn {Function} 实际要执行的函数 * @param delay {Nu ...
爬起点小说day03
# 把所有类别的前3页的小说爬取下来 import scrapyfrom scrapy.http import Requestfrom time import sleepfrom qidianNove ...
MySql基础入门-mysql体系结构
mysql体系结构: 由:连接池组件.管理服务和工具组件.sql接口组件.查询分析器组件.优化器组件. 缓冲组件.插件式存储引擎.物理文件组成. mysq ...
Spring Boot应用打包与部署指南
Spring Boot的打包与部署有何特点? Java Web应用在Spring Boot之前,通常是打包成war(Web application ARchive)包,结合Tomcat来完成部署. 对 ...
MYSQL常见运算符和函数
字符函数 (1)CONCAT():字符连接 SELECT CONCAT('IMOOC','-','MySQL');//IMOOC-MySQL SELECT CONCAT (first_name,las ...
《图解Spark：核心技术与案例实战》作者经验谈
1,看您有维护博客,还利用业余时间著书,在技术输出.自我提升以及本职工作的时间利用上您有没有什么心得和大家分享?(也可以包含一些您写书的小故事.)回答:在工作之余能够写博客.著书主要对技术的坚持和热爱 ...

tesserat训练中文备忘录

tesserat训练中文备忘录的更多相关文章

随机推荐

热门专题