python 验证码识别示例（二）复杂验证码识别

　　在这篇博文中手把手教你如何去分割验证，然后进行识别。

一：下载验证码

　　验证码分析，图片上有折线，验证码有数字，有英文字母大小写，分类的时候需要更多的样本，验证码的字母是彩色的，图片上有雪花等噪点，因此识别改验证码难度较大

二：二值化和降噪：

　三：切割：

四：分类：

五：测试识别率

六：总结：

　　综合识别率在70%左右，对于这个识别率我觉得还是挺高的，因为这个验证码的识别难度还是很大

代码：

一. 下载图片：

#-*-coding:utf-8-*-

import requests

def spider():

    url = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

    for i in range(1, 101):

        print("正在下载的张数是：",i)

        with open("./1__get_image/{}.png".format(i), "wb") as f:

            f.write(requests.get(url).content)

spider()

二：验证码二值化和降噪：

#-*-coding:utf-8-*-

# coding:utf-8

import sys, os

from PIL import Image, ImageDraw

# 二值数组

t2val = {}

def twoValue(image, G):

    for y in range(0, image.size[1]):

        for x in range(0, image.size[0]):

            g = image.getpixel((x, y))

            if g > G:

                t2val[(x, y)] = 1

            else:

                t2val[(x, y)] = 0

# 根据一个点A的RGB值，与周围的8个点的RBG值比较，设定一个值N（0 <N <8），当A的RGB值与周围8个点的RGB相等数小于N时，此点为噪点

# G: Integer 图像二值化阀值

# N: Integer 降噪率 0 <N <8

# Z: Integer 降噪次数

# 输出

#  0：降噪成功

#  1：降噪失败

def clearNoise(image, N, Z):

    for i in range(0, Z):

        t2val[(0, 0)] = 1

        t2val[(image.size[0] - 1, image.size[1] - 1)] = 1

        for x in range(1, image.size[0] - 1):

            for y in range(1, image.size[1] - 1):

                nearDots = 0

                L = t2val[(x, y)]

                if L == t2val[(x - 1, y - 1)]:

                    nearDots += 1

                if L == t2val[(x - 1, y)]:

                    nearDots += 1

                if L == t2val[(x - 1, y + 1)]:

                    nearDots += 1

                if L == t2val[(x, y - 1)]:

                    nearDots += 1

                if L == t2val[(x, y + 1)]:

                    nearDots += 1

                if L == t2val[(x + 1, y - 1)]:

                    nearDots += 1

                if L == t2val[(x + 1, y)]:

                    nearDots += 1

                if L == t2val[(x + 1, y + 1)]:

                    nearDots += 1

                if nearDots < N:

                    t2val[(x, y)] = 1

def saveImage(filename, size):

    image = Image.new("", size)

    draw = ImageDraw.Draw(image)

    for x in range(0, size[0]):

        for y in range(0, size[1]):

            draw.point((x, y), t2val[(x, y)])

    image.save(filename)

for i in range(1, 101):

    path = "1__get_image/" + str(i) +  ".png"

    image = Image.open(path)

    image = image.convert('L')

    twoValue(image, 198)

    clearNoise(image, 3, 1)

    path1 = "2__erzhihua_jiangzao/" + str(i) + ".jpg"

    saveImage(path1, image.size)

三：切割验证码：

#-*-coding:utf-8-*-

from PIL import Image

def smartSliceImg(img, outDir, ii,count=4, p_w=3):

    '''

    :param img:

    :param outDir:

    :param count: 图片中有多少个图片

    :param p_w: 对切割地方多少像素内进行判断

    :return:

    '''

    w, h = img.size

    pixdata = img.load()

    eachWidth = int(w / count)

    beforeX = 0

    for i in range(count):

        allBCount = []

        nextXOri = (i + 1) * eachWidth

        for x in range(nextXOri - p_w, nextXOri + p_w):

            if x >= w:

                x = w - 1

            if x < 0:

                x = 0

            b_count = 0

            for y in range(h):

                if pixdata[x, y] == 0:

                    b_count += 1

            allBCount.append({'x_pos': x, 'count': b_count})

        sort = sorted(allBCount, key=lambda e: e.get('count'))

        nextX = sort[0]['x_pos']

        box = (beforeX, 0, nextX, h)

        img.crop(box).save(outDir + str(ii) + "_" + str(i) + ".png")

        beforeX = nextX

for ii in  range(1, 101):

    path = "2__erzhihua_jiangzao/" + str(ii) + ".jpg"

    img = Image.open(path)

    outDir = '3__qiege/'

    smartSliceImg(img, outDir, ii,count=4, p_w=3)

四：训练：

#-*-coding:utf-8-*-

import numpy as np

import os

import time

from PIL import Image

from sklearn.externals import joblib

from sklearn.neighbors import KNeighborsClassifier

def load_dataset():

    X = []

    y = []

    for i in "23456789ABVDEFGHKMNPRSTUVWXYZ":

        target_path = "fenlei/" + i

        print(target_path)

        for title in os.listdir(target_path):

            pix = np.asarray(Image.open(os.path.join(target_path, title)).convert('L'))

            X.append(pix.reshape(25 * 30))

            y.append(target_path.split('/')[-1])

    X = np.asarray(X)

    y = np.asarray(y)

    return X, y

def check_everyone(model):

    pre_list = []

    y_list = []

    for i in "23456789ABCDEFGHKMNPRSTUVWXYZ":

        part_path = "part/" + i

        for title in os.listdir(part_path):

            pix = np.asarray(Image.open(os.path.join(part_path, title)).convert('L'))

            pix = pix.reshape(25 * 30)

            pre_list.append(pix)

            y_list.append(part_path.split('/')[-1])

    pre_list = np.asarray(pre_list)

    y_list = np.asarray(y_list)

    result_list = model.predict(pre_list)

    acc = 0

    for i in result_list == y_list:

        print(result_list,y_list,)

        if i == np.bool(True):

            acc += 1

    print(acc, acc / len(result_list))

X, y = load_dataset()

knn = KNeighborsClassifier()

knn.fit(X, y)

joblib.dump(knn, 'yipai.model')

check_everyone(knn)

五：模型测试：

# -*- coding: utf-8 -*-

import numpy as np

from PIL import Image

from sklearn.externals import joblib

import os

target_path = "1__get_image/"

source_result = []

for title in os.listdir(target_path):

    source_result.append(title.replace('.png',''))

def predict(model):

    predict_result = []

    for q in range(1,101):

        pre_list = []

        y_list = []

        for i in range(0,4):

            part_path = "part1/" + str(q) + "_" + str(i) + ".png"

            # print(part_path)

            pix = np.asarray(Image.open(os.path.join(part_path)))

            pix = pix.reshape(25 * 30)

            pre_list.append(pix)

            y_list.append(part_path.split('/')[-1])

        pre_list = np.asarray(pre_list)

        y_list = np.asarray(y_list)

        result_list = model.predict(pre_list)

        print(result_list,q)

        predict_result.append(str(result_list[0] + result_list[1] + result_list[2] + result_list[3]))

    return predict_result

model = joblib.load('yipai.model')

predict_result = predict(model)

# print(source_result)

# print(predict_result)

python 验证码识别示例（二）复杂验证码识别的更多相关文章

有关python下二维码识别用法及识别率对比分析
最近项目中用到二维码图片识别,在python下二维码识别,目前主要有三个模块:zbar .zbarlight.zxing. 1.三个模块的用法: #-*-coding=utf-8-*- import ...
Python 爬虫入门（四）—— 验证码上篇（主要讲述验证码验证流程，不含破解验证码）
本篇主要讲述验证码的验证流程,包括如何验证码的实现.如何获取验证码.识别验证码(这篇是人来识别,机器识别放在下篇).发送验证码.同样以一个例子来说明.目标网址 http://icp.alexa.cn/ ...
基于opencv3.0和下的条形码与二维码识别
其中对条码与二维码的识别分为以下4个步骤 1. 利用opencv和Zbar(或者Zxing)对标准的条形码图片(即没有多余背景干扰,且图片没有倾斜)进行解码,将解码信息显示出来,并与原始信息对比. 2 ...
[opencv]二维码识别开发流程及问题复盘总结
项目复盘总结开发需求: 在桌面机器人(向下俯视)摄像头拍摄到的图像中做条形码识别与二维码识别. 条形码在图像固定位置,二维码做成卡片的形式在固定区域内随意摆放. 开发环境及相关库:ubuntu 18 ...
Delphi百度文字识别【支持通用文字识别、身份证识别、银行卡识别、驾驶证识别、行驶证识别、车牌识别等功能】
作者QQ:(648437169) 点击下载➨Delphi百度文字识别百度api文档 [Delphi百度文字识别]支持通用文字识别.通用文字识别(高精度版).通用文字识别(含位置信 ...
python 验证码识别示例（一）某个网站验证码识别
某个招聘网站的验证码识别,过程如下一: 原始验证码: 二: 首先对验证码进行分析,该验证码的数字颜色有变化,这个就是识别这个验证码遇到的比较难的问题,解决方法是使用PIL 中的 getpixel ...
Python+Request库+第三方平台实现验证码识别示例
1.登录时经常的出现验证码,此次结合Python+Request+第三方验证码识别平台(超级鹰识别平台) 2.首先到超级鹰平台下载对应语言的识别码封装,超级鹰平台:http://www.chaojiy ...
python 验证码识别示例（五）简单验证码识别
今天介绍一个简单验证的识别. 主要是标准的格式,没有扭曲和变现.就用 pytesseract 去识别一下. 验证码地址:http://wscx.gjxfj.gov.cn/zfp/webroot/xfs ...
开发工具类API调用的代码示例合集：六位图片验证码生成、四位图片验证码生成、简单验证码识别等
以下示例代码适用于 www.apishop.net 网站下的API,使用本文提及的接口调用代码示例前,您需要先申请相应的API服务. 六位图片验证码生成:包括纯数字.小写字母.大写字母.大小写混合.数 ...

随机推荐

Django之setting文件
Django之setting文件转载:https://www.jb51.net/article/128678.htm 目录设置语言.时区 app路径数据库配置静态文件配置中间件 sessio ...
MySQL 查询所有的表名
select table_name from information_schema.tables where table_schema='laiu8' and table_type='base tab ...
SpringBoot扫描不到controller
访问报错: 原因:启动类文件存放位置问题,应该放在controller包同级目录下,如下图: ---不积跬步无以至千里,不积小流无以成江海
Java 8 （二）新的时间API
新的时间API 一)时间线 Instant对象:表示时间轴上的一个点,原点为1970-1-1的午夜. Duration对象:表示一段时间. 注意Instant和Duration类都是final. 二) ...
SpringMVC框架简介
1.简介 SpringMVC也叫Spring Web mvc,属于表现层的框架.Spring MVC是Spring框架的一部分,是在Spring3.0后发布的 01.Spring mvc的优缺点 M ...
[洛谷P1638]逛画展
[洛谷P1638]逛画展题目大意: 有$n(n\le10^6)$个格子,每个格子有一种颜色.颜色种数为$m(m\le2000)$.求包含所有颜色的最小区间. 思路: 尺取法裸题. 思路: # ...
转载转载转载数组a[]，a，&a之间的区别
通俗理解:内存就是公寓房间,指针就是房间的门牌号,数组就是连续的公寓房间,数组名就是这组连续房间的起始地址,也就是第一个房间的地址. 例如int a[5] a是数组名,也就是第一个房间号 & ...
2017-2018 ACM-ICPC Southeast Regional Contest (Div. 1)
A. Ducks in a Row 当$n\times k>|S|$时,显然无解. 否则最优解中翻转的区间一定两两不相交,设$f[i][j][x][y]$表示考虑前$i$个位置,第$i$个位置翻 ...
Linux命令行使用
FHS:标准文件架构规范用好man命令su - name 切换到用户namesu - rootchmod 777 filenamecd -:上一个工作目录cd ~:用户的家目录cd ~nid:q切换到 ...
Java基础知识--内存管理
Java语言中的垃圾收集器相对于以前的其他语言优势是什么? 过去的语言需要程序员显示的进行分配内存.释放内存.这种做法可能会引起“内存泄漏”,即由于某种原因是分配给程序的内存无法释放,如果该任务不断 ...

python 验证码识别示例（二） 复杂验证码识别

python 验证码识别示例（二） 复杂验证码识别的更多相关文章

随机推荐

热门专题

python 验证码识别示例（二）复杂验证码识别

python 验证码识别示例（二）复杂验证码识别的更多相关文章