Python3.x：pytesseract识别率提高（样本训练）

1，下载并安装3.05版本的tesseract

　地址：https://sourceforge.net/projects/tesseract-ocr/

2，如果你的训练素材是很多张非tif格式的图片，首先要做的事情就是将这么图片合并（个人觉得素材越多，基本每个字母和数字都覆盖了训练出来的识别率比较好）

　下载这个工具：VietOCR.NET-3.3.zip

　地址：http://sourceforge.net/projects/vietocr/files/latest/download?source=files

　首先进行jpg,gif,bmp到tif的转换，这个用自带的画图就可以。然后使用VietOCR.NET-3.3进行多张 tif的merge。

3，Make Box Files。在orderNo.tif所在的目录下打开一个命令行，输入

　C:\Program Files\Tesseract-OCR>tesseract.exe lang.jhy.exp8.TIF lang.jhy.exp8 batch.nochop makebox

4，使用jTessBoxEditor打开orderNo.tif文件，需要记住的是第2步生成的orderNo.box要和这个orderNo.tif文件同在一个目录下。逐个校正文字，后保存。

　下载jTessBoxEditor工具进行每个自的纠正（注意有nextpage逐页进行纠正）

　地址：http://sourceforge.net/projects/vietocr/files/

5，Run Tesseract for Training。输入命令：

　C:\Program Files\Tesseract-OCR>tesseract.exe lang.jhy.exp8.TIF lang.jhy.exp8 nob

　atch box.train

6，Compute the Character Set。输入命令：

　C:\Program Files\Tesseract-OCR>unicharset_extractor.exe lang.jhy.exp8.box

　Extracting unicharset from lang.jhy.exp8.box

　Wrote unicharset file ./unicharset.

7，新建文件“font_properties”。如果是3.01版本，那么需要在目录下新建一个名字为“font_properties”的文件，并且输入文本:（这里的jhy就是lang.jhy.exp8的中间字段）

　jhy 1 0 0 1 0

8，Clustering。输入命令：

　C:\Program Files\Tesseract-OCR>cntraining.exe lang.jhy.exp8.tr

　Reading lang.jhy.exp8.tr ...

　Clustering ...

　Writing normproto ...

9，此时，在目录下应该生成若干个文件了，把unicharset, inttemp, normproto, pfftable这几个文件加上前缀“selfverify.”。然后输入命令：

必须确定的是1、3、4、5、13行的数据不是-1，那么一个新的字典就算生成了。

此时目录下“selfverify.traineddata”的文件拷贝到tesseract程序目录下的“tessdata”目录。

以后就可以使用该该字典来识别了，例如：

tesseract.exe test.jpg out –l selfverify

Python3.x：pytesseract识别率提高（样本训练）的更多相关文章

pytesseract 识别率低提升方法
pytesseract 识别率低提升方法一.跟换识别语言包下载地址https://github.com/tesseract-ocr/tessdata 二.修改图片的灰度 from PIL impo ...
tesseract-ocr 提高验证码识别率手段之---识别码库训练方法
本文是对tesseract-ocr 使用的进一步技术升级说明,使用默认的识别库识别率比较低怎么办? 不用着急,tesseract-ocr本身的工具中提供了使用你提供的素材进行人工修正以提高识别率的方法 ...
Tesseract-OCR 字符识别---样本训练 [转]
Tesseract是一个开源的OCR(Optical Character Recognition,光学字符识别)引擎,可以识别多种格式的图像文件并将其转换成文本,目前已支持60多种语言(包括中文). ...
Tesseract-OCR 字符识别---样本训练
Tesseract是一个开源的OCR(Optical Character Recognition,光学字符识别)引擎,可以识别多种格式的图像文件并将其转换成文本,目前已支持60多种语言(包括中文). ...
转 Tesseract-OCR 字符识别---样本训练
转自:http://blog.csdn.net/feihu521a/article/details/8433077 Tesseract是一个开源的OCR(Optical Character Recog ...
利用jTessBoxEditor工具进行Tesseract3.02.02样本训练，提高验证码识别率
1.背景前文已经简要介绍tesseract ocr引擎的安装及基本使用,其中提到使用-l eng参数来限定语言库,可以提高识别准确率及识别效率. 本文将针对某个网站的验证码进行样本训练,形成自己的语 ...
Tesseract5.0训练字库，提高OCR特殊场景识别率（一）
0.目标很多特殊场景,原生的字库识别率不高,这时候就需要根据需求自己训练字库生成traineddata文件. 一.前期准备工作 1.安装jdk 用于运行jTessBoxEditor 2.安装jT ...
Tika结合Tesseract-OCR 实现光学汉字识别（简体、宋体的识别率百分之百）—附Java源码、测试数据和训练集下载地址
OCR(Optical character recognition) —— 光学字符识别,是图像处理的一个重要分支,中文的识别具有一定挑战性,特别是手写体和草书的识别,是重要和热门的科学研究方向.可 ...
Android Zxing 转换竖屏扫描且提高识别率
最近的一个Android需要用到扫码功能,用的是Zxing开源库.Zxing的集成就不说了,但是Zxing默认的是横屏扫码,在实际生产中并不适用,需要改为竖屏扫描. 转竖屏步骤: 1>. And ...

随机推荐

[Web] 如何实现Web服务器和应用服务器的负载均衡？
本文对Web服务器和应用服务器的负载均衡进行说明. 在负载均衡的思路下,多台服务器为对称方式,每台服务器都具有同等的地位,可以单独对外提供服务而无须其他服务器的辅助.通过负载分担技术,将外部发送来的请 ...
【黑金原创教程】【Modelsim】【第四章】激励文本就是仿真环境
声明:本文为黑金动力社区(http://www.heijin.org)原创教程,如需转载请注明出处,谢谢! 黑金动力社区2013年原创教程连载计划: http://www.cnblogs.com/ ...
【BZOJ1857】[Scoi2010]传送带三分套三分
[BZOJ1857][Scoi2010]传送带 Description 在一个2维平面上有两条传送带,每一条传送带可以看成是一条线段.两条传送带分别为线段AB和线段CD.lxhgww在AB上的移动速度 ...
Maven的安装配置及初次创建项目与java单元测试工具JUnit
Maven 安装 1.把maven安装包解压到某个位置 2.配置M2_HOME环境变量指向这个位置 3.在path环境变量中添加;%M2_HOME%\bin 配置镜像国内的阿里云镜 ...
1. Action 实现 ModelDriven 接口后的运行流程
1). 先会执行 ModelDrivenInterceptor 的 intercept 方法. public String intercept(ActionInvocation invocation) ...
Zabbix监控web,MySQL,TCP状态，Nginx
接上篇Zabbix使用SMTP发送邮件报警并且制定报警内容 Zabbix怎么设置声音告警 web监控在zabbix server选择web 创建一个监控web的场景添加后这里有数字1 查看假如在 ...
plsql连接其他服务器的oracle
plsql除了连接本地的oracle还需要连接其他服务器上的oracle时 1.下载安装oracleClient:2.在oracleClient安装目录下:例如:D:/instantclient_11 ...
java讲讲几种常见的排序算法（二）
java讲讲几种常见的排序算法(二) 目录 java讲讲几种常见的排序算法(一) java讲讲几种常见的排序算法(二) 堆排序思路:构建一个小顶堆,小顶堆就是棵二叉树,他的左右孩子均大于他的根节点( ...
HDU2855—Fibonacci Check-up
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=2855 题目意思:求一个式子g[n]=∑C(n,k)*f[k],n很大,很明显是一个矩阵快速幂.可以打表 ...
ASP.NET Identity 2集成到MVC5项目--笔记01
Identiry2是微软推出的Identity的升级版本,较之上一个版本更加易于扩展,总之更好用.如果需要具体细节.网上具体参考Identity2源代码下载参考文章在项目中,是不太想直接把这一堆堆 ...

Python3.x：pytesseract识别率提高（样本训练）

Python3.x：pytesseract识别率提高（样本训练）

Python3.x：pytesseract识别率提高（样本训练）的更多相关文章

随机推荐

热门专题