Tesseract-OCR 训练教程（一）

实际应用中[font]替换为你自己的字体名，比如newfont、hehe等

1.根据tif生成box文件（位置宽高等信息）
tesseract [font].font.exp0.tif [font].font.exp0 batch.nochop makebox
2.jTessBoxEditor 调整字体参数
3.定义字符配置文件
echo [font] 0 0 0 0 0>font_properties
font 0 0 0 0 0

4.从所有文件中提取字符,生成字符集文件
unicharset_extractor.exe [font].font.exp0.box

5.生成训练文件(.tr)
tesseract mjorcen.normal.exp0.jpg mjorcen.normal.exp0 nobatch box.train
6.生成字体特征文件
mftraining -F font_properties -U unicharset -O [font].unicharset [font].font.exp0.tr

7.聚合tr文件
cntraining.exe [font].font.exp0.tr

8.重命名文件
rename normproto [font].normproto
rename inttemp [font].inttemp
rename pffmtable [font].pffmtable
rename shapetable [font].shapetable

9.合并所有文件，生成一个大的资库文件
combine_tessdata.exe [font].

Tesseract-OCR 训练教程（一）的更多相关文章

tesseract ocr文字识别Android实例程序和训练工具全部源代码
tesseract ocr是一个开源的文字识别引擎,Android系统中也可以使用.可以识别50多种语言,通过自己训练识别库的方式,可以大大提高识别的准确率. 为了节省大家的学习时间,现将自己近期的学 ...
Tesseract——OCR图像识别入门篇
Tesseract——OCR图像识别入门篇最近给了我一个任务,让我研究图像识别,从我们项目的screenshot中识别文字信息,so我开始了学习,与大家分享下. 我看到目前OCR技术有很多,最主要 ...
Tesseract Ocr引擎
Tesseract Ocr引擎 1.Tesseract介绍 tesseract 是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/t ...
开源图片文字识别引擎——Tesseract OCR
Tessseract为一款开源.免费的OCR引擎,能够支持中文十分难得.虽然其识别效果不是很理想,但是对于要求不高的中小型项目来说,已经足够用了. 文字识别可应用于许多领域,如阅读.翻译.文献资料的检 ...
Python下Tesseract Ocr引擎及安装介绍
1.Tesseract介绍 tesseract 是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/tesseract,目前最新的源码 ...
Tesseract OCR使用介绍
#Tesseract OCR使用介绍 ##目录[TOC] ##下载地址及介绍官网介绍:http://code.google.com/p/tesseract-ocr/wiki/TrainingTess ...
selenium使用笔记（二）——Tesseract OCR
在自动化测试过程中我们经常会遇到需要输入验证码的情况,而现在一般以图片验证码居多.通常我们处理这种情况应该用最简单的方式,让开发给个万能验证码或者直接将验证码这个环节跳过.之前在技术交流群里也跟朋友讨 ...
alfresco install in linux, and integrated with tesseract ocr
本文描述在Linux系统上安装Alfresco的步骤: 1. 下载安装文件:alfresco-community-5.0.d-installer-linux-x64.bin 2. 增加执行权限并执行: ...
使用Tesseract OCR识别验证码
1.下载Tessrac OCR,默认安装 2.把验证码code.jpg图片放在D盘 3.打开cmd,进入D盘,输入:tesseract code.jpg result 4.进入D盘,生成了resul ...
Tesseract ocr 3.02学习记录一
光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程.OCR技术非常专业,一般多是印刷.打印行 ...

随机推荐

【TCP/IP详解卷一：协议】第二十一章 TCP的超时与重传
作为TCP的重头戏,本章节涉及了许多关于计算方面的内容,使用了大量的例子来指明一些观点. 我使用的理解方法是:通过别人的博客,以及实例结合进行理解,不然会很吃力. 21.1 引言 reliable T ...
BZOJ 1015: [JSOI2008]星球大战starwar（并查集求连通块+离线处理）
http://www.lydsy.com/JudgeOnline/problem.php?id=1015 题意: 思路:好题啊!!! 这道题目需要离线处理,先把所有要删的点给保存下来,然后逆序加点,这 ...
UVa 127 纸牌游戏（栈）
https://vjudge.net/problem/UVA-127 题意: 按从左至右的顺序发牌,并摆成一行,发牌不要相互重叠.游戏中一旦出现任何一张牌与它左边的第一张或第三张“匹配”,即花色或点数 ...
Linux——文件搜索命令简单笔记
一: 命令名称:which 命令所在路径:/usr/bin/which 执行权限:所有用户功能描述:显示系统命令所在目录范例:$ which ls 还有一个whereeis ls 命令二: 命令 ...
shell 逻辑操作符
Shell还提供了与( -a ).或( -o ).非( ! )三个逻辑操作符用于将测试条件连接起来,其优先级为:"!"最高,"-a"次之,"-o&qu ...
c++ 查找容器中不满足条件的元素，返回iterator（find_if_not）
#include <iostream> // std::cout #include <algorithm> // std::find_if_not #include <a ...
C#学习 day1 c#基础
C#是一门编程语言,为什么我今天开始学C#了,下学期有门C#的课,以及有一个经验丰富的老学长正在做C#项目,由于之前学过C++和C基础,所以,C#的基础部分我查看文档来尝试能否自学归纳,而不是一直依靠 ...
django URL路由基础
URL是Web服务的入口,用户通过浏览器发送过来的任何请求,都是发送到一个指定的URL地址,然后被响应. 在Django项目中编写路由,就是向外暴露我们接收哪些URL的请求,除此之外的任何URL都不被 ...
《剑指offer》第二十三题（链表中环的入口结点）
// 面试题23:链表中环的入口结点 // 题目:一个链表中包含环,如何找出环的入口结点?例如,在图3.8的链表中, // 环的入口结点是结点3. #include <iostream> ...
RabbitMQ入门_11_DLX
参考资料:https://www.rabbitmq.com/dlx.html 队列中的消息可能会成为死信消息(dead lettered).让消息成为死信消息的事件有: 消息被取消确认(nack 或 ...

Tesseract-OCR 训练教程（一）

Tesseract-OCR 训练教程（一）的更多相关文章

随机推荐

热门专题