python 验证码识别示例(二) 复杂验证码识别
在这篇博文中手把手教你如何去分割验证,然后进行识别。
一:下载验证码
验证码分析,图片上有折线,验证码有数字,有英文字母大小写,分类的时候需要更多的样本,验证码的字母是彩色的,图片上有雪花等噪点,因此识别改验证码难度较大
二:二值化和降噪:
三: 切割:
四:分类:
五: 测试识别率
六:总结:
综合识别率在70%左右,对于这个识别率我觉得还是挺高的,因为这个验证码的识别难度还是很大
代码:
一. 下载图片:
#-*-coding:utf-8-*-
import requests def spider():
url = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"
for i in range(1, 101):
print("正在下载的张数是:",i)
with open("./1__get_image/{}.png".format(i), "wb") as f:
f.write(requests.get(url).content)
spider()
二: 验证码二值化和降噪:
#-*-coding:utf-8-*-
# coding:utf-8
import sys, os
from PIL import Image, ImageDraw # 二值数组
t2val = {} def twoValue(image, G):
for y in range(0, image.size[1]):
for x in range(0, image.size[0]):
g = image.getpixel((x, y))
if g > G:
t2val[(x, y)] = 1
else:
t2val[(x, y)] = 0 # 根据一个点A的RGB值,与周围的8个点的RBG值比较,设定一个值N(0 <N <8),当A的RGB值与周围8个点的RGB相等数小于N时,此点为噪点
# G: Integer 图像二值化阀值
# N: Integer 降噪率 0 <N <8
# Z: Integer 降噪次数
# 输出
# 0:降噪成功
# 1:降噪失败
def clearNoise(image, N, Z):
for i in range(0, Z):
t2val[(0, 0)] = 1
t2val[(image.size[0] - 1, image.size[1] - 1)] = 1 for x in range(1, image.size[0] - 1):
for y in range(1, image.size[1] - 1):
nearDots = 0
L = t2val[(x, y)]
if L == t2val[(x - 1, y - 1)]:
nearDots += 1
if L == t2val[(x - 1, y)]:
nearDots += 1
if L == t2val[(x - 1, y + 1)]:
nearDots += 1
if L == t2val[(x, y - 1)]:
nearDots += 1
if L == t2val[(x, y + 1)]:
nearDots += 1
if L == t2val[(x + 1, y - 1)]:
nearDots += 1
if L == t2val[(x + 1, y)]:
nearDots += 1
if L == t2val[(x + 1, y + 1)]:
nearDots += 1 if nearDots < N:
t2val[(x, y)] = 1 def saveImage(filename, size):
image = Image.new("", size)
draw = ImageDraw.Draw(image) for x in range(0, size[0]):
for y in range(0, size[1]):
draw.point((x, y), t2val[(x, y)]) image.save(filename) for i in range(1, 101): path = "1__get_image/" + str(i) + ".png"
image = Image.open(path) image = image.convert('L')
twoValue(image, 198)
clearNoise(image, 3, 1)
path1 = "2__erzhihua_jiangzao/" + str(i) + ".jpg"
saveImage(path1, image.size)
三: 切割验证码:
#-*-coding:utf-8-*- from PIL import Image def smartSliceImg(img, outDir, ii,count=4, p_w=3):
'''
:param img:
:param outDir:
:param count: 图片中有多少个图片
:param p_w: 对切割地方多少像素内进行判断
:return:
'''
w, h = img.size
pixdata = img.load()
eachWidth = int(w / count)
beforeX = 0
for i in range(count): allBCount = []
nextXOri = (i + 1) * eachWidth for x in range(nextXOri - p_w, nextXOri + p_w):
if x >= w:
x = w - 1
if x < 0:
x = 0
b_count = 0
for y in range(h):
if pixdata[x, y] == 0:
b_count += 1
allBCount.append({'x_pos': x, 'count': b_count})
sort = sorted(allBCount, key=lambda e: e.get('count')) nextX = sort[0]['x_pos']
box = (beforeX, 0, nextX, h)
img.crop(box).save(outDir + str(ii) + "_" + str(i) + ".png")
beforeX = nextX for ii in range(1, 101):
path = "2__erzhihua_jiangzao/" + str(ii) + ".jpg"
img = Image.open(path)
outDir = '3__qiege/'
smartSliceImg(img, outDir, ii,count=4, p_w=3)
四: 训练:
#-*-coding:utf-8-*- import numpy as np
import os
import time from PIL import Image
from sklearn.externals import joblib
from sklearn.neighbors import KNeighborsClassifier def load_dataset():
X = []
y = []
for i in "23456789ABVDEFGHKMNPRSTUVWXYZ":
target_path = "fenlei/" + i
print(target_path)
for title in os.listdir(target_path):
pix = np.asarray(Image.open(os.path.join(target_path, title)).convert('L'))
X.append(pix.reshape(25 * 30))
y.append(target_path.split('/')[-1]) X = np.asarray(X)
y = np.asarray(y)
return X, y def check_everyone(model):
pre_list = []
y_list = []
for i in "23456789ABCDEFGHKMNPRSTUVWXYZ":
part_path = "part/" + i
for title in os.listdir(part_path):
pix = np.asarray(Image.open(os.path.join(part_path, title)).convert('L'))
pix = pix.reshape(25 * 30)
pre_list.append(pix)
y_list.append(part_path.split('/')[-1])
pre_list = np.asarray(pre_list)
y_list = np.asarray(y_list) result_list = model.predict(pre_list)
acc = 0
for i in result_list == y_list:
print(result_list,y_list,) if i == np.bool(True):
acc += 1
print(acc, acc / len(result_list)) X, y = load_dataset()
knn = KNeighborsClassifier()
knn.fit(X, y)
joblib.dump(knn, 'yipai.model')
check_everyone(knn)
五:模型测试:
# -*- coding: utf-8 -*- import numpy as np
from PIL import Image
from sklearn.externals import joblib
import os target_path = "1__get_image/"
source_result = []
for title in os.listdir(target_path):
source_result.append(title.replace('.png','')) def predict(model):
predict_result = []
for q in range(1,101):
pre_list = []
y_list = []
for i in range(0,4):
part_path = "part1/" + str(q) + "_" + str(i) + ".png"
# print(part_path)
pix = np.asarray(Image.open(os.path.join(part_path)))
pix = pix.reshape(25 * 30)
pre_list.append(pix)
y_list.append(part_path.split('/')[-1])
pre_list = np.asarray(pre_list)
y_list = np.asarray(y_list) result_list = model.predict(pre_list)
print(result_list,q) predict_result.append(str(result_list[0] + result_list[1] + result_list[2] + result_list[3])) return predict_result model = joblib.load('yipai.model')
predict_result = predict(model)
# print(source_result)
# print(predict_result)
python 验证码识别示例(二) 复杂验证码识别的更多相关文章
- 有关python下二维码识别用法及识别率对比分析
最近项目中用到二维码图片识别,在python下二维码识别,目前主要有三个模块:zbar .zbarlight.zxing. 1.三个模块的用法: #-*-coding=utf-8-*- import ...
- Python 爬虫入门(四)—— 验证码上篇(主要讲述验证码验证流程,不含破解验证码)
本篇主要讲述验证码的验证流程,包括如何验证码的实现.如何获取验证码.识别验证码(这篇是人来识别,机器识别放在下篇).发送验证码.同样以一个例子来说明.目标网址 http://icp.alexa.cn/ ...
- 基于opencv3.0和下的条形码与二维码识别
其中对条码与二维码的识别分为以下4个步骤 1. 利用opencv和Zbar(或者Zxing)对标准的条形码图片(即没有多余背景干扰,且图片没有倾斜)进行解码,将解码信息显示出来,并与原始信息对比. 2 ...
- [opencv]二维码识别开发流程及问题复盘总结
项目复盘总结 开发需求: 在桌面机器人(向下俯视)摄像头拍摄到的图像中做条形码识别与二维码识别. 条形码在图像固定位置,二维码做成卡片的形式在固定区域内随意摆放. 开发环境及相关库:ubuntu 18 ...
- Delphi百度文字识别【支持通用文字识别、身份证识别、银行卡识别、驾驶证识别、行驶证识别、车牌识别等功能】
作者QQ:(648437169) 点击下载➨Delphi百度文字识别 百度api文档 [Delphi百度文字识别]支持 通用文字识别.通用文字识别(高精度版).通用文字识别(含位置信 ...
- python 验证码识别示例(一) 某个网站验证码识别
某个招聘网站的验证码识别,过程如下 一: 原始验证码: 二: 首先对验证码进行分析,该验证码的数字颜色有变化,这个就是识别这个验证码遇到的比较难的问题,解决方法是使用PIL 中的 getpixel ...
- Python+Request库+第三方平台实现验证码识别示例
1.登录时经常的出现验证码,此次结合Python+Request+第三方验证码识别平台(超级鹰识别平台) 2.首先到超级鹰平台下载对应语言的识别码封装,超级鹰平台:http://www.chaojiy ...
- python 验证码识别示例(五) 简单验证码识别
今天介绍一个简单验证的识别. 主要是标准的格式,没有扭曲和变现.就用 pytesseract 去识别一下. 验证码地址:http://wscx.gjxfj.gov.cn/zfp/webroot/xfs ...
- 开发工具类API调用的代码示例合集:六位图片验证码生成、四位图片验证码生成、简单验证码识别等
以下示例代码适用于 www.apishop.net 网站下的API,使用本文提及的接口调用代码示例前,您需要先申请相应的API服务. 六位图片验证码生成:包括纯数字.小写字母.大写字母.大小写混合.数 ...
随机推荐
- 利用svg描边+css3实现边框逐渐消失小动画
首先简单的描述一下svg中两个属性: stroke-dasharray:表示每个虚线的长短. stroke-dashoffset:表示首个虚线的偏移量. 当两者都特别大的时候就会消失掉 直接上代码: ...
- Unity容器中AOP应用示例程序
转发请注明出处:https://www.cnblogs.com/zhiyong-ITNote/p/9127001.html 实在没有找到Unity容器的AOP应用程序示例的说明,在微软官网找到了教程( ...
- Alpha(5/10)
鐵鍋燉腯鱻 项目:小鱼记账 团队成员 项目燃尽图 冲刺情况描述 站立式会议照片 各成员情况 团队成员 学号 姓名 git地址 博客地址 031602240 许郁杨 (组长) https://githu ...
- Java笔记(十六)并发容器
并发容器 一.写时复制的List和Set CopyOnWrite即写时复制,或称写时拷贝,是解决并发问题的一种重要思路. 一)CopyOnWriteArrayList 该类实现了List接口,它的用法 ...
- 使用VSFTPD传输文件
使用VSFTPD传输文件 一.文件传输协议 FTP(File Transfer Protocol)是一种在互联网进行文件传输的协议,基于B/S模式,默认使用20.21端口,其中20端口(数据端口)用于 ...
- Tomcat安装与环境变量的配置
Tomacat的下载 去Tomcat官网下载,我使用的是apache-tomcat-7.0.78的版本. 安装 下载完成之后,我们解压缩到相应的目录.这里我解压缩到d盘下面 1.然后去配置系统的环 ...
- 转 U-BOOT之stage1
前言 本文主要是基于大家比较熟悉的 s3c2410 ,对移植 u-boot 时 stage1 过程进行一个分析,网上关于之方面的资料很多,但是几乎都只是对代码作注解,容易让人产生知其一不知其二的感觉, ...
- 2017中国无人机公开赛 总决赛 CDR Final 竞赛规则
2017中国无人机公开赛总决赛 CDR Final竞赛规则 V2 二〇一七年八月(修订) 一. 竞赛项目描述(一) 无人机绕标竞速赛(专业组)飞行员通过佩戴眼镜或显示屏采用第一视角飞行,使用无线电遥控 ...
- docker -v挂载
docker run -d -p 3306:3306 -v /var/lib/mydata:/var/lib/mysql my_sql docker exec -it mys_sql /bin/ba ...
- linux重新设置密码,亲试成功
1:进入/etc/my.cnf 在[mysqld]下添加一行skip-grant-tables 2:保存配置文件后,输入whereis systemctl(提示redirecting to 某个目录下 ...