Tesseract-OCR的简单使用与训练

  最近看到某个网站提交数据要提交验证码,用tesseract自带的识别,

  

  识别出来是什么鬼,0-9识别成了什么玩意!

  

  so决定自己训练下tesseract...

1.准备工作(安装工具环境)

1.下载安装tesseract-ocr-setup-3.02.02.exe安装包   http://www.pc0359.cn/downinfo/55218.html

  2.安装jTessBoxEditor

    下载jTessBoxEditor,地址https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/;解压后得到jTessBoxEditor,由于这是由Java开发的,所以我们应该确保在运行jTessBoxEditor前先安装JRE(Java Runtime Environment,Java运行环境)。

  3.安装Java环境:http://mydown.yesky.com/pcsoft/33490441.html

2.准备训练图片,可以多张图片,我们可以用画图工具绘制样本文件,数量越多越好

  准备图片如下

  

3.Merge样本文件

  打开jTessBoxEditor,ctrl+m 选择所有样本图片,并将合并文件保存为 bm.font.exp0.tif

  

4.生成BOX文件

  打开命令行并切换至bm.font.exp0.tif所在目录,

  

  输入如下命令,生成文件名为bm.font.exp0.box

tesseract bm.font.exp0.tif bm.font.exp0 batch.nochop makebox

  此时文件夹下会多出一个bm.font.exp0.box文件

5.定义字符配置文件

  在目标文件夹内生成一个名为font_properties的文本文件,内容为

font 0 0 0 0 0 

  【语法】:<fontname> <italic> <bold> <fixed> <serif> <fraktur>

  fontname为字体名称,italic为斜体,bold为黑体字,fixed为默认字体,serif为衬线字体,fraktur德文黑字体,1和0代表有和无,精细区分时可使用,如果是txt文件记得把.txt后缀去掉。

  

6.字符矫正

  打开jTessBoxEditor,BOX Editor -> Open,打开bm.font.exp0.tif;

  

7.生成字符特征文件

tesseract.exe bm.font.exp0.tif bm.font.exp0 nobatch box.train

  

  这一步将生成两个文件,bm.font.exp0.tr(特征文件)和bm.font.exp0.txt文件

8.计算字符集(unicharset) 

unicharset_extractor.exe bm.font.exp0.box

  

  这一步产生字符集文件unicharset

9.聚集字符特征(inttemp、pffmtable、normproto) 

mftraining -F font_properties -U unicharset -O bm.unicharset bm.font.exp0.tr

  

  根据上一步产生的字符集文件unicharset,来生成当前新语言的字符集文件mfunicharset。同时还会产生图形原型文件inttemp和每个字符所对应的字符特征数文件pffmtable。附带还会产生Microfeat文件,但是这个文件没啥用。

  

10.接下来产生字符形状正常化特征文件normproto

cntraining.exe bm.font.exp0.tr

11.重命名打包文件

  将如下四个文件加上bm.前缀
  normproto bm.normproto
  inttemp bm.inttemp
  pffmtable bm.pffmtable
  shapetable bm.shapetable   

  

12.合并训练文件(*.traineddata) 

combine_tessdata.exe bm.

  

  生成bm.traineddata文件,

  

  将这个文件复制到Tesseract-OCR\tessdata文件夹下然后用训练过的字库在识别下 

  

tesseract beiming.png output_2 -l bm

  

  识别完全正确,细心的人会发现,最后一句指令,我们使用了指令[-l bm]而不是[-l eng]。这说明,最后一次转换我们使用的是新生成的bm语言的匹配库而不是默认的eng语言匹配库

python pytesseract使用

  

import pytesseract
from PIL import Image
# pytesseract.pytesseract.tesseract_cmd='D:\Program Files\python\Tesseract-OCR\\tesseract.exe'
def getyzm():
image1 = Image.open('yzm.jpg')
w,h = image1.size
#创建新图片
image2 = Image.new("RGB",(w+10,h+6),(255,255,255))
#两张图片相加: 我这里的图片不是标准的图片格式所以需要盖在新图片上
image2.paste(image1,(5,3))
# image2.save("yzm.png")
result = pytesseract.image_to_string(image2,lang="num")
return result print(getyzm())

  

Tesseract-ocr视觉学习-验证码识别及python import pytesseract使用的更多相关文章

  1. 蓝奏云数值验证码识别,python调用虹鱼图灵识别插件,超高正确率

    识别验证码一直是本人想要做的事情,一直在接触按键精灵,了解到有一个虹鱼图灵识别插件专门做验证码和图像识别,原理就是图片处理和制作字库识别,制作字库我一直觉得很麻烦,工程量太大.不管怎样,它能用能达到我 ...

  2. Java使用Java OCR API进行验证码识别

    Maven坐标: <!-- https://mvnrepository.com/artifact/com.asprise.ocr/java-ocr-api --> <dependen ...

  3. tesseract ocr训练 pt验证码

    识别率有问题A大概率识别为n,因此需要训练,这里讲一下 如何训练 参考 java代码里边直接使用tess4j,是对tesseract的封装,但是如果要训练,还是需要在进行安装tesseract-ocr ...

  4. 基于pyteseract google ocr的图形验证码识别

    先灰化图片,把图片二值化,利用pytesseract包的pytesseract.image_to_string转换出文字.

  5. python验证码识别接口及识别思路代码

    1,验证码识别接口代码 import json import base64 import requests def shibie(): data = {} path = "./img/&qu ...

  6. 第三百四十三节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别

    第三百四十三节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别 第一步.首先下载,大神者也的倒立文字验证码识别程序 下载地址:https://gith ...

  7. 二十二 Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别

    第一步.首先下载,大神者也的倒立文字验证码识别程序 下载地址:https://github.com/muchrooms/zheye 注意:此程序依赖以下模块包 Keras==2.0.1 Pillow= ...

  8. 使用Python基于OpenCV的验证码识别

    Blog:https://blog.csdn.net/qq_40962368/article/details/89312429(Verification_Code_Identification) 步骤 ...

  9. Python&selenium&tesseract自动化测试随机码、验证码(Captcha)的OCR识别解决方案参考

    在自动化测试或者安全渗透测试中,Captcha验证码的问题经常困扰我们,还好现在OCR和AI逐渐发展起来,在这块解决上越来越支撑到位. 我推荐的几种方式,一种是对于简单的验证码,用开源的一些OCR图片 ...

随机推荐

  1. selenium常用方法,简版介绍

    WebElement 接口共计16个------------接口 代表一个HTML元素.通常,所有与页面交互有关的有趣操作都将通过此界面执行. void clear() void click() We ...

  2. ASP.NET MVC CheckBoxFor为什么会生成hidden input控件

    自己开发的公众号,可以领取淘宝内部优惠券 @Html.CheckBoxFor(m => m.Bool) 使用CheckBoxFor方法得到的html代码会是下面这个样子 <input ch ...

  3. Javascript Events

    事件通常与函数配合使用,这样就可以通过发生的事件来驱动函数执行. 事件句柄 html4.0的新特性之一是有能力使html事件触发浏览器中的动作action,比如当用户点击某个html元素时启动一段Ja ...

  4. oracle 查询之前的表数据

    SELECT * FROM Student  AS OF TIMESTAMP SYSDATE - 3/1440 对SQL的解释说明: SYSDATE :当前时间 1440 :24h*60m=1440m ...

  5. C#中描述mssql中DateTime的最小值、最大值

    首先引用System.Data.SqlTypes 最小值:SqlDateTime.MinValue.Value 最大值:SqlDateTime.MaxValue.Value

  6. 【extjs6学习笔记】1.16 初始: 关于主题

    打开app.json,里面有主题设置 主题说明 theme-base 这个包是所有其他主题的基础主题,是唯一没有父主题的主题. 它包含Ext JS组件和布局正常工作绝对必需的最低限度的一组CSS规则. ...

  7. C++ vector类详解

    转自http://blog.csdn.net/whz_zb/article/details/6827999 vector简介 vector是STL中最常见的容器,它是一种顺序容器,支持随机访问.vec ...

  8. 查看SAP CRM和C4C的UI technical信息

    CRM 比如我们想看Quantity这个字段到底是绑在哪个模型上,选中该字段按F2: 就能知道是绑在Context node BTADMINI的QUANTITY字段上. C4C 同理,使用debugM ...

  9. Android(java)学习笔记93:为什么局部内部类只能访问外部类中的 final型的常量

    为什么匿名内部类参数必须为final类型: 1)  从程序设计语言的理论上:局部内部类(即:定义在方法中的内部类),由于本身就是在方法内部(可出现在形式参数定义处或者方法体处),因而访问方法中的局部变 ...

  10. 在RichTextBox控件中显示RTF格式文件

    实现效果: 知识运用:    RichTextBox控件的LoadFile方法 //将文件内容加载到RichTextBox控件中 public void LoadFile(string path,Ri ...