##前言
其实就是用到tesseract-ocr这个引擎来识别,只不过我们需要做一些在此之前的工作
将图片用pillow进行初步处理,将图片中的验证码显示的清晰一些,关于这些教程可以查看我的另一篇文章(现在还没写)
然后用tesseract-ocr将处理完的图片进行识别,当然不训练tesseract-ocr是不行的,还需要对其进行训练,后面我会说明怎么训练

windows 平台

1.安装

######安装tesseract-ocr
地址: 点我点我!
注意:如果你要识别中文的需要在安装时把中文包勾选上
######安装python第三方库
我这里用的是python3,python3怎么安装我就不多说了。
安装必要的 python第三方库:

pip install Pillow pytesseract -i https://mirrors.aliyun.com/pypi/simple/

Pillow是一个python图像处理的第三方库
pytesseract 我的理解是调用刚才安装的tesseract-ocr的一个接口吧
######安装训练矫正的工具(jTessBoxEditorFX)
地址:点我点我!

2.编写python处理图片函数

######二值化

from PIL import Image
from pytesseract import *
im = Image.open('1.jpg') #用pil打开这个图片 im = im.convert('L')
im = im.point(lambda x: 0 if x<100 else x>=100, '1') # 二值化 100为分割灰度的点(阀值),二值化就是将图片的颜色转换成非黑即白的图片
im.show() #查看图片

图片资源

经过上述处理应该这样的生成图片

如果显示的图片中线没有去掉,可以调整阀值来去掉线
######去除噪点
把图片中的黑点去掉

def getPixel(image,x,y):
L = image.getpixel((x,y)) #获取当前像素点的像素
if L == 0: #判读此像素点是否为黑,因为如果是白的就没必要处理了
nearDots = 0 #初始化记录周围有没有黑像素数量的值
#判断周围像素点
if L - image.getpixel((x - 1,y - 1)):
nearDots += 1
if L - image.getpixel((x - 1,y)):
nearDots += 1
if L - image.getpixel((x - 1,y + 1)):
nearDots += 1
if L - image.getpixel((x,y - 1)):
nearDots += 1
if L - image.getpixel((x,y + 1)):
nearDots += 1
if L - image.getpixel((x + 1,y - 1)):
nearDots += 1
if L - image.getpixel((x + 1,y)):
nearDots += 1
if L - image.getpixel((x + 1,y + 1)):
nearDots += 1
if nearDots ==8: #这里如果周围八个全是白点那么就返回一个白点,实现去黑点的操作
return 1
#这里主要是有俩个黑点连在一起,所有周围会有七个黑点扩大范围进一步判断
elif nearDots ==7:
nearDots = 0
if L - image.getpixel((x - 2,y - 2)):
nearDots += 1
if L - image.getpixel((x - 2,y)):
nearDots += 1
if L - image.getpixel((x - 2,y + 2)):
nearDots += 1
if L - image.getpixel((x,y - 2)):
nearDots += 1
if L - image.getpixel((x,y + 2)):
nearDots += 1
if L - image.getpixel((x + 2,y - 2)):
nearDots += 1
if L - image.getpixel((x + 2,y)):
nearDots += 1
if L - image.getpixel((x + 2,y + 2)):
nearDots += 1
if nearDots == 8:
return 1 #返回白点
else:
return 0 #返回黑点
else:
return 1 def clearNoise(image):
draw = ImageDraw.Draw(image)
#循环遍历每个像素点
for x in range(0,image.size[0]):
for y in range(0,image.size[1]):
color = getPixel(image,x,y)
draw.point((x,y),color) #将上一步处理完成的im对象传给clearNoise()函数
im = clearNoise(im)
im.show()

代码挺简单的应该可以看懂
不出意外的话处理完成的图片变成这样:

处理到这一步就已经可以了,当然你也可以进行进一步处理,例如局部放大
######调用 tesseract-ocr识别图片
在上面的代码中加入

# lang只用哪个库来识别 默认有个eng库,config 指代识别单行还是多行-psm 7只的是单行
result = pytesseract.image_to_string(im,lang='eng',config="-psm 7")
print(result)

不出意外的话识别结果应该是:o 3 o 4
但是我图像都已经处理到这一步了,怎么还识别出错??
答:因为你没有训练!

3.训练tesseract-ocr

######合成tif文件
打开安装的 Jtessboxedit ,点击tools——Merge TiFF然后选中经过处理的验证码图片(因为最终识别的是经过python处理完的,所以也拿处理完成的验证码来训练在原函数中加入im.save(保存路径)即可保存),随便找到另一个地方生成tif,命名为num.font.exp0.tif保存
注意:这里的文件名不是瞎起的,文件名有要求的,取和我相同的名字就行了,因为后面运行的命令都是依靠这个文件名的
######生成box文件
生成好后,进入tif文件所在的文件夹
运行命令

tesseract num.font.exp0.tif num.font.exp0 -psm 7 batch.nochop makebox

在文件夹就会生成一个 .box的文件
######训练
然后在jtessboxedit中Box Editor选项卡中点击open按钮打开上一步生成的tif文件

如果位置不对就调整x y,w,h的值,字符不对就修改字符,这里我把俩个o修改成0
然后save
######生成训练的库文件
进入到tif和box所在的文件夹
运行以下命令

tesseract.exe num.font.exp0.tif num.font.exp0 -psm 7 nobatch box.train
unicharset_extractor.exe num.font.exp0.box
echo font 0 0 0 0 0 > font_properties.txt
mftraining -F font_properties.txt -U unicharset -O num.unicharset num.font.exp0.tr
cntraining.exe num.font.exp0.tr
rename normproto num.normproto
rename inttemp num.inttemp
rename pffmtable num.pffmtable
rename shapetable num.shapetable
combine_tessdata.exe num.

把生成的num.traineddata这个文件拷贝到 你的C:\Program Files (x86)\Tesseract-OCR\tessdata下,大工告成!

4.用训练好的库来识别python处理后的图片

只需修改一下代码即可

asd = pytesseract.image_to_string(image,lang='num',config="-psm 7")#将eng修改为你训练好的库,也就是num

备注: 评论有几个人问我代码,相关代码已经上次到CSDN了(资源名称为 python验证码识别), 原本我想上传到github, 但是我觉得我的github不能放这种半成品的代码, 所以很抱歉, 现在属于审核中, 后期审核通过我会把地址放上的

tesseract-orc训练 结合python3图像识别验证码的更多相关文章

  1. python 简单图像识别--验证码

    python  简单图像识别--验证码 记录下,准备工作安装过程很是麻烦. 首先库:pytesseract,image,tesseract,PIL windows安装PIL,直接exe进行安装更方便( ...

  2. Python3 识别验证码(opencv-python)

    Python3 识别验证码(opencv-python) 一.准备工作 使用opencv做图像处理,所以需要安装下面两个库: pip3 install opencv-python pip3 insta ...

  3. tesseract 字体训练资料篇

    tesseract 字体训练资料篇 1.制作.box档案文件. tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] ...

  4. tesseract ocr训练 pt验证码

    识别率有问题A大概率识别为n,因此需要训练,这里讲一下 如何训练 参考 java代码里边直接使用tess4j,是对tesseract的封装,但是如果要训练,还是需要在进行安装tesseract-ocr ...

  5. tesseract图像识别验证码:安装使用和避免坑

    安装使用 https://blog.csdn.net/kk185800961/article/details/78747595 避免的坑 http://www.mamicode.com/info-de ...

  6. python图像识别--验证码

    1.pip3 install pyocr 2.pip3 install pillow or easy_install Pillow 3.安装tesseract-ocr:http://jaist.dl. ...

  7. 【Tesseract】Tesseract 的训练流程

    在泰迪杯A题中,我刚刚接触了Tesseact,其中训练字库中遇到了较多的问题.所以在此记录一下,也当做一个笔记,省得以后忘记. 为了方便 ,将tif命名格式设为[lang].[fontname].ex ...

  8. python3图像识别库安装与使用

    pytesseract库的安装 因为用的win10,就直说windows上面的安装了.其实就是pip安装就完事了. $ pip install pytesseract 安装了这个还不算完,得安装Tes ...

  9. Python3 简单验证码识别思路及实例

    1.介绍 在爬虫中经常会遇到验证码识别的问题,现在的验证码大多分计算验证码.滑块验证码.识图验证码.语音验证码等四种.本文就是识图验证码,识别的是简单的验证码,要想让识别率更高, 识别的更加准确就需要 ...

  10. OCR2:tesseract字库训练

    由于tesseract的中文语言包“chi_sim”对中文字体或者环境比较复杂的图片,识别正确率不高,因此需要针对特定情况用自己的样本进行训练,提高识别率,通过训练,也可以形成自己的语言库. 工具: ...

随机推荐

  1. RabbitMQ之消息模式简单易懂,超详细分享~~~

    前言 上一篇对RabbitMQ的流程和相关的理论进行初步的概述,如果小伙伴之前对消息队列不是很了解,那么在看理论时会有些困惑,这里以消息模式为切入点,结合理论细节和代码实践的方式一起来学习. 正文 常 ...

  2. 利用rpmbuild 打包可执行文件和链接库生成rpm 包

    Background: Background: 遇到一个打包可执行程序和链接库生成rpm 包的需求,查遍了很多网站的资料,现在整理下解决方案. 前期参考的是这篇帖子: https://codeante ...

  3. 一门能让你五分钟学会的语言-Brainfuck

    看到标题,不出意外的话,你肯定开始骂我了:**标题党,什么编程语言五分钟就能学会? 其实我本来也是不相信的,但是学过了才知道这是真的. 1.Brainfuck 看到这个小标题,不要误会,我没有骂人. ...

  4. Redis基本数据结构ZipList

    为什么要有ziplist 有两点原因: 普通的双向链表,会有两个指针,在存储数据很小的情况下,我们存储的实际数据的大小可能还没有指针占用的内存大,是不是有点得不偿失?而且Redis是基于内存的,而且是 ...

  5. k8s 中 Pod 的控制器

    k8s 中 Pod 的控制器 前言 Replication Controller ReplicaSet Deployment 更新 Deployment 回滚 deployment StatefulS ...

  6. 220726 T2 Multisets (思维)

    题目描述 我们说一个可重集 AA 比可重集 BB 小,当且仅当对于两个可重集中出现次数不同的最小元素 xx ,元素 xx 在 AA 中出现次数更多. 例如,可重集 {1,2,3}1,2,3 就比可重集 ...

  7. 220514 T2 画画 (二维差分)

    首先我们需要特判只涂了一种颜色的情况: (1)k=1,此时答案就是1:(2)k>1,涂的这种颜色肯定不能是第一个,答案是k-1; 对于其他正常情况,我们对于每个颜色找到一个最小的矩形(这个矩形内 ...

  8. .NET MAUI 社区工具包 1.3版本发布

    2022 年 10 月 4 日,微软发布了 .NET MAUI 社区工具包的 1.3 版,具体参见微软官方博客:https://devblogs.microsoft.com/dotnet/announ ...

  9. Linux Block模块之IO合并代码解析

    1 IO路径 从内核角度看,进程产生的IO路径主要有三条: 缓存IO:系统绝大部分IO走的这种形式,充分利用文件系统层的page cache所带来的优势.应用程序产生的IO经系统调用落入page ca ...

  10. MybatisPlus生成主键策略方法

    MybatisPlus生成主键策略方法 全局id生成策略[因为是全局id所以不推荐] SpringBoot集成Mybatis-Plus 在yaml配置文件中添加MP配置 mybatis-plus: g ...