Tesseract-OCR的简单使用与训练

　　最近看到某个网站提交数据要提交验证码，用tesseract自带的识别，

　　识别出来是什么鬼，0-9识别成了什么玩意！

　　so决定自己训练下tesseract...

1.准备工作（安装工具环境）

1.下载安装tesseract-ocr-setup-3.02.02.exe安装包 http://www.pc0359.cn/downinfo/55218.html

　　2.安装jTessBoxEditor

　　　　下载jTessBoxEditor，地址https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/；解压后得到jTessBoxEditor，由于这是由Java开发的，所以我们应该确保在运行jTessBoxEditor前先安装JRE（Java Runtime Environment，Java运行环境）。

　　3.安装Java环境：http://mydown.yesky.com/pcsoft/33490441.html

2.准备训练图片，可以多张图片，我们可以用画图工具绘制样本文件，数量越多越好

　　准备图片如下

3.Merge样本文件

　　打开jTessBoxEditor，ctrl+m 选择所有样本图片，并将合并文件保存为 bm.font.exp0.tif

4.生成BOX文件

　　打开命令行并切换至bm.font.exp0.tif所在目录，

　　输入如下命令，生成文件名为bm.font.exp0.box

tesseract bm.font.exp0.tif bm.font.exp0 batch.nochop makebox

　　此时文件夹下会多出一个bm.font.exp0.box文件

5.定义字符配置文件

　　在目标文件夹内生成一个名为font_properties的文本文件，内容为

font 0 0 0 0 0

　　【语法】：<fontname> <italic> <bold> <fixed> <serif> <fraktur>

　　fontname为字体名称，italic为斜体，bold为黑体字，fixed为默认字体，serif为衬线字体，fraktur德文黑字体，1和0代表有和无，精细区分时可使用，如果是txt文件记得把.txt后缀去掉。

6.字符矫正

　　打开jTessBoxEditor，BOX Editor -> Open，打开bm.font.exp0.tif；

7.生成字符特征文件

tesseract.exe bm.font.exp0.tif bm.font.exp0 nobatch box.train

　　这一步将生成两个文件，bm.font.exp0.tr（特征文件）和bm.font.exp0.txt文件

8.计算字符集（unicharset）　

unicharset_extractor.exe bm.font.exp0.box

　　这一步产生字符集文件unicharset

9.聚集字符特征（inttemp、pffmtable、normproto）　

mftraining -F font_properties -U unicharset -O bm.unicharset bm.font.exp0.tr

　　根据上一步产生的字符集文件unicharset，来生成当前新语言的字符集文件mfunicharset。同时还会产生图形原型文件inttemp和每个字符所对应的字符特征数文件pffmtable。附带还会产生Microfeat文件，但是这个文件没啥用。

10.接下来产生字符形状正常化特征文件normproto

cntraining.exe bm.font.exp0.tr

11.重命名打包文件

　　将如下四个文件加上bm.前缀
　　normproto bm.normproto

　　inttemp bm.inttemp

　　pffmtable bm.pffmtable

　　shapetable bm.shapetable

12.合并训练文件（*.traineddata)　

combine_tessdata.exe bm.

　　生成bm.traineddata文件，

　　将这个文件复制到Tesseract-OCR\tessdata文件夹下然后用训练过的字库在识别下　

tesseract beiming.png output_2 -l bm

　　识别完全正确，细心的人会发现，最后一句指令，我们使用了指令[-l bm]而不是[-l eng]。这说明，最后一次转换我们使用的是新生成的bm语言的匹配库而不是默认的eng语言匹配库

python pytesseract使用

import pytesseract

from PIL import Image

# pytesseract.pytesseract.tesseract_cmd='D:\Program Files\python\Tesseract-OCR\\tesseract.exe'

def getyzm():

    image1 = Image.open('yzm.jpg')

    w,h = image1.size

    #创建新图片

    image2 = Image.new("RGB",(w+10,h+6),(255,255,255))

    #两张图片相加： 我这里的图片不是标准的图片格式所以需要盖在新图片上

    image2.paste(image1,(5,3))

    # image2.save("yzm.png")

    result = pytesseract.image_to_string(image2,lang="num")

    return result

print(getyzm())

Tesseract-ocr视觉学习-验证码识别及python import pytesseract使用的更多相关文章

蓝奏云数值验证码识别，python调用虹鱼图灵识别插件，超高正确率
识别验证码一直是本人想要做的事情,一直在接触按键精灵,了解到有一个虹鱼图灵识别插件专门做验证码和图像识别,原理就是图片处理和制作字库识别,制作字库我一直觉得很麻烦,工程量太大.不管怎样,它能用能达到我 ...
Java使用Java OCR API进行验证码识别
Maven坐标:  <dependen ...
tesseract ocr训练 pt验证码
识别率有问题A大概率识别为n,因此需要训练,这里讲一下如何训练参考 java代码里边直接使用tess4j,是对tesseract的封装,但是如果要训练,还是需要在进行安装tesseract-ocr ...
基于pyteseract google ocr的图形验证码识别
先灰化图片,把图片二值化,利用pytesseract包的pytesseract.image_to_string转换出文字.
python验证码识别接口及识别思路代码
1,验证码识别接口代码 import json import base64 import requests def shibie(): data = {} path = "./img/&qu ...
第三百四十三节，Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别
第三百四十三节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别第一步.首先下载,大神者也的倒立文字验证码识别程序下载地址:https://gith ...
二十二 Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别
第一步.首先下载,大神者也的倒立文字验证码识别程序下载地址:https://github.com/muchrooms/zheye 注意:此程序依赖以下模块包 Keras==2.0.1 Pillow= ...
使用Python基于OpenCV的验证码识别
Blog:https://blog.csdn.net/qq_40962368/article/details/89312429(Verification_Code_Identification) 步骤 ...
Python&selenium&tesseract自动化测试随机码、验证码（Captcha）的OCR识别解决方案参考
在自动化测试或者安全渗透测试中,Captcha验证码的问题经常困扰我们,还好现在OCR和AI逐渐发展起来,在这块解决上越来越支撑到位. 我推荐的几种方式,一种是对于简单的验证码,用开源的一些OCR图片 ...

随机推荐

bash:haoop:command not found
今天重新搭建了一个3节点的Hadoop集群,想着在上面测试一个MapReduce实例,然后就出现了以下错误: [hadoop@master hadoop-]$ hadoop -bash: hadoop ...
合理设置apache httpd的最大连接数--linux
手头有一个网站在线人数增多,访问时很慢.初步认为是服务器资源不足了,但经反复测试,一旦连接上,不断点击同一个页面上不同的链接,都能迅速打开,这种现象就是说明apache最大连接数已经满了,新的访客只能 ...
Kettle-Data Integration 简介
Pentaho系列产品介绍 Pentaho公司下面有一堆关于数据处理(数据整合.数据挖掘.报表等)的开源项目即社区版,入口网站: http://community.pentaho.com/ 数据整 ...
经典SQL语句集锦(收藏版)
文章来源:http://www.cnblogs.com/herbert/archive/2010/07/02/1770062.html SQL分类: DDL—数据定义语言(CREATE,ALTER,D ...
字符串实现Base64加密/解密
有时候需要对字符串进行加密,不以明文显示,可以使用此方法,比如对URL的参数加密 using System; using System.Collections.Generic; using Syste ...
[Freemarker] 在Java中简单实现对Freemarker的引用
Demo目录结构 ├─src │ ├─main │ │ ├─java │ │ │ └─demo │ │ │ └─freemarker │ │ │ ├─main │ │ │ │ Test.java │ ...
js中的位运算符，按位操作符
按位操作符(Bitwise operators) 将其操作数(operands)当作32位的比特序列(由0和1组成),而不是十进制.十六进制或八进制数值.例如,十进制数9,用二进制表示则为1001.按 ...
网页title旁边的小图片
网页title旁边的小图片设置,图片格式必须是.ico <link rel="icon" href="img/logo.ico" type="i ...
rem 适配屏幕大小
window.onresize=function(){ var html=document.getElementsByTagName("html")[0]; var width=w ...
jquery初始
今天我们来学习Jquery的一些基本知识,jquery相对来说还是比较重要的,所以还是要好好学习的. 首先要了解什么是jQuery? l类似于python里面的模块,可以看成是一种库或者插件. 在学习 ...

Tesseract-ocr视觉学习-验证码识别及python import pytesseract使用

Tesseract-OCR的简单使用与训练

1.准备工作（安装工具环境）

2.准备训练图片，可以多张图片，我们可以用画图工具绘制样本文件，数量越多越好

3.Merge样本文件

4.生成BOX文件

5.定义字符配置文件

6.字符矫正

7.生成字符特征文件

8.计算字符集（unicharset）

9.聚集字符特征（inttemp、pffmtable、normproto）

10.接下来产生字符形状正常化特征文件normproto

11.重命名打包文件

12.合并训练文件（*.traineddata)

python pytesseract使用

Tesseract-ocr视觉学习-验证码识别及python import pytesseract使用的更多相关文章

随机推荐

热门专题

　　Tesseract-OCR的简单使用与训练

8.计算字符集（unicharset）　

9.聚集字符特征（inttemp、pffmtable、normproto）　

12.合并训练文件（*.traineddata)