python-i春秋验证码识别
python+机器学习+验证码识别+源码
简单介绍
最近在写某网站的自动注册,在注册的过程中遇到一些问题,如js的执行、验证码的识别等等,今天给大家如何用python通过机器学习的方式实现验证码的识别,这次以i春秋验证码为例进行识别,尽可能的用简单的方式给大家讲解。
使用技术
- [x] python 2.7 32 位 所需的库 PIL sklearn numpy pandas matplotlib
- [x] 数字图像处理基础(中值滤波等)
- [x] 机器学习KNN算法
获取验证码
headers={
"Cookie":"XXXXXXXXXXXXXX",
"Referer":"https://user.ichunqiu.com/register/index",
"Upgrade-Insecure-Requests":"1",
"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"
}
简单写一下下载验证码的代码
url="https://user.ichunqiu.com/login/verify_image?d=1523697519026"
for i in range(0,51):
with open("./pic/{}.png".format(i),"wb") as f:
print("{} pic downloading...".format(i))
f.write(requests.get(url,headers=headers).content)
在pic目录下获得50张验证码照片了
验证码处理
ok!既然获取到验证码了,肯定要对验证码进行一定程度的处理!

像上图这样的二维码,怎么做训练么?!最起码要给它去掉脸上的雀斑(点点),修复脸上的刀疤(条纹),怎么办呢?难道要寄出神器PS?不存在的,兄die! 我们要做的是批量处理,用ps一张张的人工处理,很明显不符合懒人的风格,怎么办?
下面肯定是祭出数字图像处理了,有些同学看到这里就发怵,没关系,这里没有什么技术难度的!相信我,也相信自己。我突然,发现我有给人灌鸡汤的天赋!下面正式开始讲解!
1.首先,观察原图像(t2.png)!即
是不是发现它的色彩十分多呀!在数字图像领域中,我们一般研究灰度图像,那么?问题来了什么是灰度图像呢?简单地说,整幅图片都是灰色的!原图片经过灰度处理是这样的。
是不是都是灰色的呢?但是我们得到的灰度图,有些地方比较浅,有些地方颜色比较深,这是为什么呢?下面是重点内容,都给我听好啦!图像在计算机中是用<u>矩阵</u>进行存储的,可能,你不知道矩阵是什么东西。那少年我推荐你一本《工程数学 线性代数 》看完一遍保你收获颇丰!当然啦,实在不想看,可以去百度百科呀,矩阵定义,怎么样我贴心吧?!矩阵中每一个数代表着一个像素!数值的大小反映在图像中就是图像的深浅!值越大,颜色越深! 这就说明了,灰度图中颜色深浅的问题,好吧!道理我都懂,怎么转化成灰度图呢?代码如下:
# encoding=utf-8from PIL import Image,ImageFilterimport matplotlib.pyplot as pltimport numpy asnpimport pandas as pdimport matplotlib.cm as cm# 导入相应的库img=Image.open(“t2.png”)# 载入t2.pngim=img.convert(“L”)# 这里重点!img图像转化为灰度图像im、plt.subplot(4,2,1)# 关于plt这个用法在网上有很多教程,我在这里就不一一赘述了plt.imshow(np.array(im),cmap=cm.gray)
2.现在我们得到灰度图像:

观察发现,验证码都是深颜色的,要不把浅颜色的“雀斑”去掉,怎么去掉呢?肯定在矩阵中找一个值(一般称之为阈值),小于这个值的数都变成零(白色),大于这个数的值都变成最大值(黑),咦!灰度图像变成了黑白图像!怎么找这个阈值呢?一般用矩阵的平均数或者中位数,纳尼?什么是中位数,找一个小学课本翻一番。好!那我们分别取平均数和中位数,做一下处理看一下效果!
平均数效果如下:

中位数效果如下:

那么肯定是用平均数做呀!代码如下!
# encoding=utf-8from PIL import Image,ImageFilterimport matplotlib.pyplot as pltimport numpy asnpimport pandas as pdimport matplotlib.cm ascmimg=Image.open(“t2.png”)im=img.convert(“L”)#plt.imshow(img)im_z=np.array(im)# im转化为im_z矩阵print(im_z.mean())# im_z的平均值print(np.median(im_z))# im_z的中位数plt.subplot(4,2,1)plt.imshow(np.array(im),cmap=cm.gray)plt.subplot(4,2,2)plt.imshow(img)im_b=im.point(lambda i:i>197,mode=’1′)# 用im_z的平均值197转化为黑白图像im_bplt.subplot(4,2,3)plt.imshow(im_b)# 显示im_bim_a=im.point(lambda i:i>220,mode=’1′)# 用im_z的平均值220转化为黑白图像im_aplt.subplot(4,2,4)plt.imshow(im_a)# 显示im_a
3.得到黑白图像了,可还是有“雀斑”怎么办,用上神奇的中值滤波啦!中值滤波定义,一般都是在灰度图上进行中值滤波,我也是突然想看一下,在黑白图像的处理结果怎么样(当然,这里的中值只能是零或一啦),结果还不错!

在这里要说的是,中值滤波这个概念,比较容易理解,我这个小菜鸡,概括的不怎么样!只能委屈大家看一下优秀的博客啦。处理代码如下
# encoding=utf-8from PIL import Image,ImageFilterimport matplotlib.pyplot as pltimport numpy asnpimport pandas as pdimport matplotlib.cm ascmimg=Image.open(“t2.png”)im=img.convert(“L”)#plt.imshow(img)im_z=np.array(im)print(im_z.mean())print(np.median(im_z))plt.subplot(4,2,1)plt.imshow(np.array(im),cmap=cm.gray)plt.subplot(4,2,2)plt.imshow(img)im_b=im.point(lambdai:i>197,mode=’1′)plt.subplot(4,2,3)plt.imshow(im_b)im_a=im.point(lambdai:i>220,mode=’1′)plt.subplot(4,2,4)plt.imshow(im_a)”’#################下面是核心代码###############”’im_f=im_b.filter(ImageFilter.MedianFilter(size=3))# 用 im_b图像进行中值滤波,掩模用的3×3的模板plt.subplot(4,2,5)plt.imshow(im_f)# 显示 im_fplt.show()
4.得到干净的验证码,这样就结束了么?no!no!no! 紧接接着,要把单个的字符分割出来!怎么分割来?下面我会给出代码,在代码中给出解释
# encoding=utf-8from PIL import Image,ImageFilterimport matplotlib.pyplot as pltimport numpy asnpimport pandas as pdimport matplotlib.cm ascmimg=Image.open(“t2.png”)im=img.convert(“L”)#plt.imshow(img)im_z=np.array(im)print(im_z.mean())print(np.median(im_z))plt.subplot(4,2,1)plt.imshow(np.array(im),cmap=cm.gray)plt.subplot(4,2,2)plt.imshow(img)im_b=im.point(lambdai:i>197,mode=’1′)plt.subplot(4,2,3)plt.imshow(im_b)im_a=im.point(lambdai:i>220,mode=’1′)plt.subplot(4,2,4)plt.imshow(im_a)im_f=im_b.filter(ImageFilter.MedianFilter(size=3))plt.subplot(4,2,5)plt.imshow(im_f)plt.show()”’##########下面是核心代码###############”’im=im_fprint(im.size)a = np.array(im)# im转化为a矩阵pd.DataFrame(a.sum(axis=0)).plot.line() # 画出每列的像素累计值plt.imshow(a,cmap=‘gray’) # 画出图像split_lines = [7,25,44,60,78]# 经过调整过的分割线的合理间距vlines = [plt.axvline(i, color='r') for i insplit_lines] # 画出分割线plt.show()
得到图像如下

啧啧啧!我都有点佩服我自己呢!下面要把字符一个个的分割出来!同时要把上边和下边的黑线去掉!
怎么办呢?talk is cheap,show my code!
# encoding=utf-8from PIL import Image,ImageFilterimport matplotlib.pyplot as pltimport numpy asnpimport pandas as pdimport matplotlib.cm ascmimg=Image.open(“t2.png”)im=img.convert(“L”)#plt.imshow(img)im_z=np.array(im)print(im_z.mean())print(np.median(im_z))plt.subplot(4,2,1)plt.imshow(np.array(im),cmap=cm.gray)plt.subplot(4,2,2)plt.imshow(img)im_b=im.point(lambdai:i>197,mode=’1′)plt.subplot(4,2,3)plt.imshow(im_b)im_a=im.point(lambdai:i>220,mode=’1′)plt.subplot(4,2,4)plt.imshow(im_a)im_f=im_b.filter(ImageFilter.MedianFilter(size=3))plt.subplot(4,2,5)plt.imshow(im_f)plt.show()im=im_fprint(im.size)a = np.array(im)pd.DataFrame(a.sum(axis=0)).plot.line() # 画出每列的像素累计值plt.imshow(a,cmap=‘gray’) # 画出图像split_lines = [7,25,44,60,78]vlines = [plt.axvline(i, color='r') for i in split_lines] # 画出分割线plt.show()#im.crop()”’#################核心代码##########################”’y_min=5y_max=35#设置获取图像的高和宽ims=[]c=1forx_min,x_max in zip(split_lines[:-1],split_lines[1:]): im.crop([x_min,y_min,x_max,y_max] ).save(str(c)+‘.png’) # crop()函数是截取指定图像! # save保存图像! c=c+1for i in range(1,5): file_name=“{}.png”.format(i) plt.subplot(4,2,i) im=Image.open(file_name).convert(“1″) #im=img.filter(ImageFilter.MedianFilter(size=3)) plt.imshow(im) # 显示截取的图像!plt.show()
得到的图像结果如下!

5.还记得咱们在第一步中获取的50张图片么?没错!把他们都分割出来吧!整理一下代码!
# encoding=utf-8
from sklearn.neighbors import KNeighborsClassifier as KNN
from sklearn.externals import joblib
from PIL import Image,ImageFilter
import numpy as np
def imgprocess(name):
# 图片分割成单个字符!
path="./pic/{}.png".format(str(name))
img=Image.open(path).convert("L")
th=np.array(img).mean()
im_b = img.point(lambda i: i > th, mode='1')
im_f= im_b.filter(ImageFilter.MedianFilter(size=3))
split_lines = [7, 25, 43, 61, 79]
y_min = 5
y_max = 35
ims = []
c = 1
for x_min, x_max in zip(split_lines[:-1], split_lines[1:]):
im_f.crop([x_min, y_min, x_max, y_max]).save('./pic2later/{}-{}.png'.format(str(name),str(c)))
c = c + 1
for i in range(1,51):
print("process {} pic".format(i))
imgprocess(i)
机器学习之KNN
1.关于knn算法呢,我以前做过一些笔记,我po上去了
链接: https://pan.baidu.com/s/1g0_fRLf4iRwefeP5ZoGwJA 密码: gizr
大家记得看一下!
2.相应的代码及注解
# encoding=utf-8
from sklearn.neighbors import KNeighborsClassifier as KNN
from sklearn.externals import joblib
from PIL import Image,ImageFilter
import numpy as np
def imgprocess(name):
path="./pic/{}.png".format(str(name))
img=Image.open(path).convert("L")
th=np.array(img).mean()
im_b = img.point(lambda i: i > th, mode='1')
im_f= im_b.filter(ImageFilter.MedianFilter(size=3))
split_lines = [7, 25, 43, 61, 79]
y_min = 5
y_max = 35
ims = []
c = 1
for x_min, x_max in zip(split_lines[:-1], split_lines[1:]):
im_f.crop([x_min, y_min, x_max, y_max]).save('./pic2later/{}-{}.png'.format(str(name),str(c)))
c = c + 1
for i in range(1,51):
print("process {} pic".format(i))
imgprocess(i)
'''
###########下面是核心代码#####################
'''
def Y():
# 获取字符的值!这些验证码是我一个一个肉眼写出来的!
with open("./pic/reslut.txt") as f:
Y=list(f.read().replace("\n",""))
return Y
def getX():
# 获取X的值!
path="./pic2later/{}-{}.png"
X=[]
for i in range(1,51):
for c in range(1,5):
img=Image.open(path.format(str(i),str(c)))
ls = np.array(img).tolist()
xx = []
for l in ls:
for x in l:
xx.append(x)
X.append(xx)
return X
def train():
# 用knn模型进行训练
knn = KNN()
knn.fit(getX(), Y())
joblib.dump(knn,"./model.pkl")
# 保存结果!
train()
写到这里了,干脆把预测代码也写一下吧!跟训练代码差不多!
# encoding=utf8
from sklearn.neighbors import KNeighborsClassifier as KNN
from sklearn.externals import joblib
from PIL import Image,ImageFilter
import numpy as np
MODEL_PATH="./model.pkl"
def getX(file_name):
X=[]
img=Image.open(file_name).convert("L")
th=np.array(img).mean()
im_b = img.point(lambda i: i > th, mode='1')
im_f = im_b.filter(ImageFilter.MedianFilter(size=3))
split_lines = [7, 25, 43, 61, 79]
y_min = 5
y_max = 35
for x_min, x_max in zip(split_lines[:-1], split_lines[1:]):
ls=np.array(im_f.crop([x_min, y_min, x_max, y_max])).tolist()
xx=[]
for l in ls:
for x in l:
xx.append(x)
X.append(xx)
return X
def predict(file_path):
# 预测
knn=joblib.load(MODEL_PATH)
X=getX(file_path)
Y=knn.predict(X)
return "".join(Y)
print(predict("./pic/1.png"))
总结
1.预测结果可能不准确,原因是因为只有50张验证码进行训练
2.懒得对它进行评估了,你们随意就好
3.验证码识别的一般套路: 灰度化、图像处理、二值化、选算法、训练、评估调整参数、预测,当然,我在这里二值化与处理的顺序换了一下,灵活处理哈!
代码:
在下载代码之前先说几句!自己先运行一下train()函数重新生成model.pkl,在进行预测!至于为什么,32 位与 64 位是不兼容的!最后!厚着脸皮!腆着脸!说要!要点赞!要回复哟!嘤嘤嘤! 有什么问题可以,在评论区提问哟!
链接:https://pan.baidu.com/s/1Ym7oc1Iryy8o63c6O9Jkfw
密码在这里!密码在这里!密码在这里!密码在这里!密码在这里!
https://bbs.ichunqiu.com/thread-38774-1-1.html?from=bkyl
python-i春秋验证码识别的更多相关文章
- Python 代码实现验证码识别
Python 代码实现验证码识别 测试开发社区 1周前 源 / j_hao104 一.探讨 识别图形验证码可以说是做爬虫的必修课,涉及到计算机图形学,机器学习,机器视觉,人工智能等等高深领域…… ...
- 基于SVM的python简单实现验证码识别
验证码识别是一个适合入门机器学习的项目,之前用knn 做过一个很简单的,这次用svm来实现.svm直接用了开源的库libsvm.验证码选的比较简单,代码也写得略乱,大家看看就好. 1. 爬取验证码图片 ...
- 字符识别Python实现 图片验证码识别
字符型图片验证码识别完整过程及Python实现 1 摘要 验证码是目前互联网上非常常见也是非常重要的一个事物,充当着很多系统的 防火墙 功能,但是随时OCR技术的发展,验证码暴露出来的安全问题也越 ...
- Python实现各类验证码识别
项目地址: https://github.com/kerlomz/captcha_trainer 编译版下载地址: https://github.com/kerlomz/captcha_trainer ...
- Python中机器学习-验证码识别-粗略总结
#验证码识别# 解决办法:将验证码切割成单个字符训练 遇到问题:验证码字符大小不一或重叠 对上述问题的解决:通过CNN(卷积神经网络)直接就是端到端不分割的识别方式 处理验证码:将图片二值化 输入验证 ...
- Python图像处理之验证码识别
在上一篇博客Python图像处理之图片文字识别(OCR)中我们介绍了在Python中如何利用Tesseract软件来识别图片中的英文与中文,本文将具体介绍如何在Python中利用Tesseract ...
- python实现中文验证码识别方法(亲测通过)
验证码截图如下: # coding:utf-8from PIL import Image,ImageEnhanceimport pytesseract#上面都是导包,只需要下面这一行就能实现图片文字识 ...
- python tesseract-ocr 基础验证码识别功能(Windows)
一.环境 windows 7 x64 Python 3 + 二.安装 1.tesseract-ocr安装 http://digi.bib.uni-mannheim.de/tesseract/ 2.py ...
- Python实现图片验证码识别
转载地址:https://blog.csdn.net/EB_NUM/article/details/77060009 具体想要实现上面的代码需要安装两个包和一个引擎 在安装之前需要先安装好Python ...
随机推荐
- 计算器的改良(NOIP2000)
题目链接:计算器的改良 这道题,不是很难,但代码也短不到哪去. 我们这里决定采取边读入边计算的方法,因为题目没有明确说式子有多长. 我们需要计算什么? 我们需要知道等号两边未知数的系数和常数项即可. ...
- LCA(最近公共祖先)模板
Tarjan版本 /* gyt Live up to every day */ #pragma comment(linker,"/STACK:1024000000,1024000000&qu ...
- MySQL查找SQL耗时瓶颈 SHOW profiles
http://blog.csdn.net/k_scott/article/details/8804384 1.首先查看是否开启profiling功能 SHOW VARIABLES LIKE '%pro ...
- kbmmw 中简单返回 extjs 数据JSON
以前,我们通过自己写json 来返回数据表的内容.在delphi 10.2.2中,官方自带了一个FDBatchMoveJSONWriter1 来直接处理数据库内容.把结果推送到浏览器客户端. 今天我们 ...
- 核心一:DI
1.DI:中文名称:依赖注入 2.英文名称:(Dependency Injection) 3.DI是什么?? 3.1 DI和IoC是一样的 3.2 当一个类(A)中需要依赖另一类(B)对象时,把B赋值 ...
- vue-cli引入mui的步骤
不用npm安装了 1.mui官方GitHub下载mui所需文件 https://github.com/dcloudio/mui 把下载来的dist文件夹整个复制到static文件夹中 2.在index ...
- App测试基本流程详解(汇总整理)
前言 看过许多大神对APP测试的理解,博主总结了一下我们平时测试APP应该注意的一些测试点并结合大神的理解,总结出这篇文章. 一.测试周期 测试周期一般为两周,根据项目情况以及版本质量可适当缩短或延长 ...
- Win7 VS2015环境编译NanoVG
书接上回,Cairo编译好使用后,发现简单的每帧画100条随机线段就卡得不行,装了个gooreplacer( http://liujiacai.net/gooreplacer/ )上stackover ...
- GreenPlum 初始化配置报错:gpadmin-[ERROR]:-[Errno 12] Cannot allocate memory
报错原因:可能swap太小或者没有交换分区 解决方法: (1)查看swap:swapon -s (2)如果什么都没有显示,说明你没有任何可用的swap,此时你可以添加1GB的swap: dd if=/ ...
- s5-1 CPU调度
基本概念 通过多道程序设计得到 CPU 的最高利用率 (CPU-- I/O 脉冲周期 - - 进程的执行包括进程在 CPU 上执行和等待 I/O ) 进程的执行以 CPU 脉冲开始,其后跟着 I/O ...