Tesseract训练
最近在用Tesseract做一个图片识别的小应用,目标图像只有数字和英文字母,在实际使用过程中发现个别数识别错误,因此不得不研究学习Tesseract的训练。
http://www.cnblogs.com/cnlian/p/5765871.html 该链接是重要的参考资料,然则按照文章操作,第二步对box文件进行修正就出现问题:jTessBoxEditor无法正确识别图像。
经过阅读jTessBoxEditor的帮助文档,问题得以解决。其中有一段提到关键点:
You will need to provide the TIFF/Box files as input to the editor. Images to be used in training should be of 300 DPI and 1 bpp (bit per pixel) black&white or 8 bpp grayscale, uncompressed TIFF format;
这段话大意就是要求tiff文件的分辨率为300DPI,1比特黑白图像或8比特的灰度等级,无压缩。用photoshop重新处理图片,成功实现了识别。(这点在上诉的文章没有提及)

然后就可以对图片进行识别的修正了。
其次,box文件调整完后,可以不用编写批处理文件,jTessBoxEditor已经实现了自动化处理:

Tesseract训练的更多相关文章
- Tesseract训练中文字体识别
		注:目前仅说明windows下的情况 前言 网上已经有大量的tesseract的识别教程,但是主要有两个缺点: 大多数比较老,有部分内容已经不适用. 大部分只是就英文的训练进行探索,很少针对中文的训练 ... 
- Tesseract训练笔记
		[参考] http://www.cnblogs.com/samlin/p/Tesseract-OCR.html https://code.google.com/p/tesseract-ocr/wiki ... 
- tesseract 训练
		下载chi_sim.traindata字库下载tesseract-ocr-setup-3.02.02.exe 下载地址:http://code.google.com/p/tesseract-ocr/d ... 
- tesseract训练手写体
		前面的步骤都一样,从第4步开始 4.使用tesseract生成.box文件: tesseract eng.handwriting.exp0.tif eng.handwriting.exp0 -l en ... 
- tesseract系列(3) -- tesseract训练
		tessract的训练有个工具叫 jTessBoxEditor 1.jTessBoxEditor是用java写的,首先要装java的环境 jdk-8u191-windows-x64.exe 这个我想从 ... 
- 用Tesseract训练验证码遇到的问题
		1.准备验证码图片 import os from urllib.request import urlretrieve urlPath='http://www.189.cn/portal/captcha ... 
- tesseract系列(4) -- tesseract训练问题总结
		1. 每次训练模型删除目录下,上述重复的名字 2. 生成inttemp.pffmtable文件的时候,如果下述命令(1)不行的话,或者报错,使用命令(2) (1)mftraining -F font_ ... 
- tesseract-ocr如何训练Tesseract 4.0
		引自:https://blog.csdn.net/huobanjishijian/article/details/76212214 原文:https://github.com/tesseract-oc ... 
- 孤荷凌寒自学python第八十四天搭建jTessBoxEditor来训练tesseract模块
		孤荷凌寒自学python第八十四天搭建jTessBoxEditor来训练tesseract模块 (完整学习过程屏幕记录视频地址在文末) 由于本身tesseract模块针对普通的验证码图片的识别率并不高 ... 
随机推荐
- OO第三次博客总结
			一. 规格发展历史 从20世纪60年代开始,就存在着许多不同的形式规格说明语言和软件开发方法.在形式规格说明领域一些最主要的发展过程列举如下: 1969-1972 C.A.R Hoare撰写了&quo ... 
- 局部变量,全局变量初始值问题----C与指针练习题4.14.1
			全局变量初始化0 局部变量初始化是随机值 如下面一段代码,全局变量,将src复制n个字符到dst #include<stdio.h> void copy_n(char dst[],char ... 
- windows云服务器发布项目
			1.tomcat安装版安装,把server.xml中”localhost“改为自己的域名.启动tomcat的时候就通过外网访问到云服务器的tomcat主页. 2.上述实现的前提是已经对域名进行解析:域 ... 
- LeetCode 922. Sort Array By Parity II  C++ 解题报告
			922. Sort Array By Parity II 题目描述 Given an array A of non-negative integers, half of the integers in ... 
- 安装FireEye渗透测试套件commando-vm
			前两天FireEye开源了套他们自己的渗透测试工具,玩了下,这里简单讲一下我安装的过程. 1.首先是虚拟机,在virtualbox或者vmware中安装一个新的Windows系统,win7或者win1 ... 
- robotframework之去除空格、去掉前面的0、增加空格换行符的方法,两个字符之间的拼接
			1.去除空格 A)若需要去除两个拼接字符之间的空格,可以使用robotframework中的关键词Catenate,需要注意的是SEPARATOR=一定需要大写 B)若在一个字符串中存在空格,且需要去 ... 
- js转盘游戏
			1----- @-webkit-keyframes spin { 0% { -webkit-transform: rotate(0deg); -ms-transform: rotate(0deg) ... 
- SpringMVC和Struts2区别比较
			区别1: Struts2 的核心是基于一个Filter即StrutsPreparedAndExcuteFilterSpringMvc的核心是基于一个Servlet即DispatcherServlet( ... 
- Cross Platform Note: STD C++ Preprocessor directives & pre-defined macros
			ref: http://www.cplusplus.com/doc/tutorial/preprocessor/ concolusion: directives: #define #undef #in ... 
- Windows10 小闹钟
			Windows 10 自带小闹钟功能,便于我们进行时间管理,到点提醒. 尤其作为IT的工作者,首先要保证身体的健康,要定好休息的时间,哪怕5分钟,也能让人满血复活. 其次,便于我们将各种优先级的事务进 ... 
