python 验证码处理

一、

灰度处理，就是把彩色的验证码图片转为灰色的图片。

二值化，是将图片处理为只有黑白两色的图片，利于后面的图像处理和识别

   # 自适应阀值二值化

   def _get_dynamic_binary_image(filedir, img_name):

       filename =   './out_img/' + img_name.split('.')[0] + '-binary.jpg'

       img_name = filedir + '/' + img_name

       print('.....' + img_name)

       im =dz.imread(img_name)

       im = dz.cvtColor(im,dz.COLOR_BGR2GRAY) #灰值化

       # 二值化

       th1 = dz.adaptiveThreshold(im, 255, dz.ADAPTIVE_THRESH_GAUSSIAN_C, dz.THRESH_BINARY, 21, 1)

      dz.imwrite(filename,th1)

      return th1

二、去除边框

 # 去除边框

 def clear_border(img,img_name):

   filename = './out_img/' + img_name.split('.')[0] + '-clearBorder.jpg'

   h, w = img.shape[:2]

   for y in range(0, w):

     for x in range(0, h):

       if y < 2 or y > w - 2:

         img[x, y] = 255

       if x < 2 or x > h -2:

         img[x, y] = 255

   cv2.imwrite(filename,img)

   return img

在用OpenCV时，图片的矩阵点是反的，就是长和宽是颠倒的

三、降噪

降噪是验证码处理中比较重要的一个步骤，我这里使用了点降噪和线降噪，，，只能去除细的干扰线

 # 干扰线降噪

 def interference_line(img, img_name):

     filename =  './out_img/' + img_name.split('.')[0] + '-interferenceline.jpg'

     h, w = img.shape[:2]

     # ！！opencv矩阵点是反的

     # img[1,2] 1:图片的高度，2：图片的宽度

     for y in range(1, w - 1):

         for x in range(1, h - 1):

             count = 0

             if img[x, y - 1] > 245:

                 count = count + 1

             if img[x, y + 1] > 245:

                 count = count + 1

             if img[x - 1, y] > 245:

                 count = count + 1

             if img[x + 1, y] > 245:

                 count = count + 1

             if count > 2:

                  img[x, y] = 255

 cv2.imwrite(filename,img)

 return img

 # 点降噪

 def interference_point(img,img_name, x = 0, y = 0):

     """

     9邻域框,以当前点为中心的田字框,黑点个数

     :param x:

     :param y:

     :return:

     """

     filename =  './out_img/' + img_name.split('.')[0] + '-interferencePoint.jpg'

     # todo 判断图片的长宽度下限

     cur_pixel = img[x,y]# 当前像素点的值

     height,width = img.shape[:2]

     for y in range(0, width - 1):

       for x in range(0, height - 1):

         if y == 0:  # 第一行

             if x == 0:  # 左上顶点,4邻域

                 # 中心点旁边3个点

                 sum = int(cur_pixel) \

                       + int(img[x, y + 1]) \

                       + int(img[x + 1, y]) \

                       + int(img[x + 1, y + 1])

                 if sum <= 2 * 245:

                   img[x, y] = 0

             elif x == height - 1:  # 右上顶点

                 sum = int(cur_pixel) \

                       + int(img[x, y + 1]) \

                       + int(img[x - 1, y]) \

                       + int(img[x - 1, y + 1])

                 if sum <= 2 * 245:

                   img[x, y] = 0

             else:  # 最上非顶点,6邻域

                 sum = int(img[x - 1, y]) \

                       + int(img[x - 1, y + 1]) \

                       + int(cur_pixel) \

                       + int(img[x, y + 1]) \

                       + int(img[x + 1, y]) \

                       + int(img[x + 1, y + 1])

                 if sum <= 3 * 245:

                   img[x, y] = 0

         elif y == width - 1:  # 最下面一行

             if x == 0:  # 左下顶点

                 # 中心点旁边3个点

                 sum = int(cur_pixel) \

                       + int(img[x + 1, y]) \

                       + int(img[x + 1, y - 1]) \

                       + int(img[x, y - 1])

                 if sum <= 2 * 245:

                   img[x, y] = 0

             elif x == height - 1:  # 右下顶点

                 sum = int(cur_pixel) \

                       + int(img[x, y - 1]) \

                       + int(img[x - 1, y]) \

                       + int(img[x - 1, y - 1])

                 if sum <= 2 * 245:

                   img[x, y] = 0

             else:  # 最下非顶点,6邻域

                 sum = int(cur_pixel) \

                       + int(img[x - 1, y]) \

                       + int(img[x + 1, y]) \

                       + int(img[x, y - 1]) \

                       + int(img[x - 1, y - 1]) \

                       + int(img[x + 1, y - 1])

                 if sum <= 3 * 245:

                   img[x, y] = 0

         else:  # y不在边界

             if x == 0:  # 左边非顶点

                 sum = int(img[x, y - 1]) \

                       + int(cur_pixel) \

                       + int(img[x, y + 1]) \

                       + int(img[x + 1, y - 1]) \

                       + int(img[x + 1, y]) \

                       + int(img[x + 1, y + 1])

                 if sum <= 3 * 245:

                   img[x, y] = 0

             elif x == height - 1:  # 右边非顶点

                 sum = int(img[x, y - 1]) \

                       + int(cur_pixel) \

                       + int(img[x, y + 1]) \

                       + int(img[x - 1, y - 1]) \

                       + int(img[x - 1, y]) \

                       + int(img[x - 1, y + 1])

                 if sum <= 3 * 245:

                   img[x, y] = 0

             else:  # 具备9领域条件的

                 sum = int(img[x - 1, y - 1]) \

                       + int(img[x - 1, y]) \

                       + int(img[x - 1, y + 1]) \

                       + int(img[x, y - 1]) \

                       + int(cur_pixel) \

                       + int(img[x, y + 1]) \

                       + int(img[x + 1, y - 1]) \

                       + int(img[x + 1, y]) \

                       + int(img[x + 1, y + 1])

                 if sum <= 4 * 245:

                   img[x, y] = 0

     cv2.imwrite(filename,img)

     return img

五、字符切割

 def cfs(im,x_fd,y_fd):

   '''用队列和集合记录遍历过的像素坐标代替单纯递归以解决cfs访问过深问题

   '''

   # print('**********')

   xaxis=[]

   yaxis=[]

   visited =set()

   q = Queue()

   q.put((x_fd, y_fd))

   visited.add((x_fd, y_fd))

   offsets=[(1, 0), (0, 1), (-1, 0), (0, -1)]#四邻域

   while not q.empty():

       x,y=q.get()

       for xoffset,yoffset in offsets:

           x_neighbor,y_neighbor = x+xoffset,y+yoffset

           if (x_neighbor,y_neighbor) in (visited):

               continue  # 已经访问过了

           visited.add((x_neighbor, y_neighbor))

           try:

               if im[x_neighbor, y_neighbor] == 0:

                   xaxis.append(x_neighbor)

                   yaxis.append(y_neighbor)

                   q.put((x_neighbor,y_neighbor))

           except IndexError:

               pass

   # print(xaxis)

   if (len(xaxis) == 0 | len(yaxis) == 0):

     xmax = x_fd + 1

     xmin = x_fd

     ymax = y_fd + 1

     ymin = y_fd

   else:

     xmax = max(xaxis)

     xmin = min(xaxis)

     ymax = max(yaxis)

     ymin = min(yaxis)

     #ymin,ymax=sort(yaxis)

   return ymax,ymin,xmax,xmin

 def detectFgPix(im,xmax):

   '''搜索区块起点

   '''

   h,w = im.shape[:2]

   for y_fd in range(xmax+1,w):

       for x_fd in range(h):

           if im[x_fd,y_fd] == 0:

               return x_fd,y_fd

 def CFS(im):

   '''切割字符位置

   '''

   zoneL=[]#各区块长度L列表

   zoneWB=[]#各区块的X轴[起始，终点]列表

   zoneHB=[]#各区块的Y轴[起始，终点]列表

   xmax=0#上一区块结束黑点横坐标,这里是初始化

   for i in range(10):

       try:

           x_fd,y_fd = detectFgPix(im,xmax)

           # print(y_fd,x_fd)

           xmax,xmin,ymax,ymin=cfs(im,x_fd,y_fd)

           L = xmax - xmin

           H = ymax - ymin

           zoneL.append(L)

           zoneWB.append([xmin,xmax])

           zoneHB.append([ymin,ymax])

       except TypeError:

           return zoneL,zoneWB,zoneHB

   return zoneL,zoneWB,zoneHB

切割粘连字符代码

       # 切割的位置

       im_position = CFS(im)

       maxL = max(im_position[0])

       minL = min(im_position[0])

       # 如果有粘连字符，如果一个字符的长度过长就认为是粘连字符，并从中间进行切割

       if(maxL > minL + minL * 0.7):

         maxL_index = im_position[0].index(maxL)

         minL_index = im_position[0].index(minL)

         # 设置字符的宽度

         im_position[0][maxL_index] = maxL // 2

         im_position[0].insert(maxL_index + 1, maxL // 2)

         # 设置字符X轴[起始，终点]位置

         im_position[1][maxL_index][1] = im_position[1][maxL_index][0] + maxL // 2

         im_position[1].insert(maxL_index + 1, [im_position[1][maxL_index][1] + 1, im_position[1][maxL_index][1] + 1 + maxL // 2])

         # 设置字符的Y轴[起始，终点]位置

         im_position[2].insert(maxL_index + 1, im_position[2][maxL_index])

       # 切割字符，要想切得好就得配置参数，通常 1 or 2 就可以

       cutting_img(im,im_position,img_name,1,1

切割粘连字符代码

 def cutting_img(im,im_position,img,xoffset = 1,yoffset = 1):

   filename =  './out_img/' + img.split('.')[0]

   # 识别出的字符个数

   im_number = len(im_position[1])

   # 切割字符

   for i in range(im_number):

     im_start_X = im_position[1][i][0] - xoffset

     im_end_X = im_position[1][i][1] + xoffset

     im_start_Y = im_position[2][i][0] - yoffset

     im_end_Y = im_position[2][i][1] + yoffset

     cropped = im[im_start_Y:im_end_Y, im_start_X:im_end_X]

     cv2.imwrite(filename + '-cutting-' + str(i) + '.jpg',cropped)

六、识别：

识别用的是typesseract库，主要识别一行字符和单个字符时的参数设置，识别中英文的参数设置，代码很简单就一行，我这里大多是filter文件的操作

       # 识别验证码

       cutting_img_num = 0

       for file in os.listdir('./out_img'):

         str_img = ''

         if fnmatch(file, '%s-cutting-*.jpg' % img_name.split('.')[0]):

           cutting_img_num += 1

       for i in range(cutting_img_num):

         try:

           file = './out_img/%s-cutting-%s.jpg' % (img_name.split('.')[0], i)

           # 识别字符

           str_img = str_img + image_to_string(Image.open(file),lang = 'eng', config='-psm 10') #单个字符是10，一行文本是7

         except Exception as err:

           pass

       print('切图：%s' % cutting_img_num)

       print('识别为：%s' % str_img

python 验证码处理的更多相关文章

Python验证码6位自动生成器
Python验证码6位自动生成器
python验证码识别
关于利用python进行验证码识别的一些想法用python加“验证码”为关键词在baidu里搜一下,可以找到很多关于验证码识别的文章.我大体看了一下,主要方法有几类:一类是通过对图片进行处理,然后 ...
Python 验证码识别-- tesserocr
Python 验证码识别-- tesserocr tesserocr 是 Python 的一个 OCR 识别库 ,但其实是对 tesseract 做的一层 Python API 封装,所以它的核心是 ...
【转】Python验证码识别处理实例
原文出处: 林炳文(@林炳文Evankaka) 一.准备工作与代码实例 1.PIL.pytesser.tesseract (1)安装PIL:下载地址:http://www.pythonware.com ...
Python 验证码识别（别干坏事哦...）
关于python验证码识别库,网上主要介绍的为pytesser及pytesseract,其实pytesser的安装有一点点麻烦,所以这里我不考虑,直接使用后一种库. python验证码识别库安装要安 ...
python 验证码高阶验证
python 验证码高阶验证标签: 验证码python 2016-08-19 15:07 1267人阅读评论(1) 收藏举报分类: 其他(33) 目录(?)[+] 字符型图片验证 ...
Windows平台python验证码识别
参考: http://oatest.dragonbravo.com/Authenticate/SignIn?returnUrl=%2f http://drops.wooyun.org/tips/631 ...
Python验证码识别处理实例(转载)
版权声明:本文为博主林炳文Evankaka原创文章,转载请注明出处http://blog.csdn.net/evankaka 一.准备工作与代码实例 1.PIL.pytesser.tesseract ...
python 验证码
python写的验证码小程序 ##################验证码,数字+字母 import random check_code="" for i in range(6): ...
Python验证码识别处理实例（转）
一.准备工作与代码实例 1.PIL.pytesser.tesseract (1)安装PIL:下载地址:http://www.pythonware.com/products/pil/(CSDN下载) 下 ...

随机推荐

轻量化模型：MobileNet v2
MobileNet v2 论文链接:https://arxiv.org/abs/1801.04381 MobileNet v2是对MobileNet v1的改进,也是一个轻量化模型. 关于Mobile ...
Jenkins 构建 Jmeter 项目
1.启动 Jenkins(windows 版本) 2.新建自由风格的项目定时任务构建操作安装 HTML Publisher 插件构建后操作最后保存构建,查看报告
Collection接口【集合】和Iterator迭代器类
1.1集合的概述前面基础学习并使用过集合ArrayList<E>,那么集合究竟是什么呢? 集合:集合是Java中提供的一种容器,可以用来存储多个数据. 那么意思就是说集合是容器,但是容器 ...
uniapp自定义简单省市区联动组件
又双叒一个uniapp组件最近有一个选择地址的需求,就写了一个省市区联动选择器. 选择日期使用的picker,就照着它简单的整了一个,使用网络请求城市数据,还用到了vuex组件数据共享. 本来自己整 ...
Coursera课程笔记----计算导论与C语言基础----Week 9
C语言中的控制成分(Week 9) 计算机程序的基本结构任何具有单入口单出口的程序,都可以用顺序结构.分支结构.循环结构来表达分支语句在执行if语句前,先对表达式求解 if()内可以是任意的数值 ...
测试开发专题:spring-boot自定义异常返回
上文测试开发专题:spring-boot统一异常捕获我们讨论了java异常以及如何使用Spring-Boot捕获异常,但是没有去说捕获异常后该如何进一步处理,这篇文章我们将对这个遗留的问题进行讨论. ...
matlab 提示 Error using mex No supported compiler or SDK was found 错误的解决办法
在使用simulink的S-Function去调用C程序的时候,需要使用mex指令预先编译C程序,但是出现 Error using mex No supported compiler or SDK w ...
小程序如何动态修改标题navigationBarTitleText
首先我们先设置标题.进入页面所在的json文件加入以下代码即可成功设置: "navigationBarTitleText": "我是标题啊!", 然后修改这个标 ...
关于C语言的位运算符
早期cpu架构在运行位运算时略微领先 + - 运算大幅领先 * / % 运算 '&' 运算符总结两个二进制中对应的位置都为 1 结果的对应二进制为 1 '&'运算符可以用到奇偶 ...
python监听、操作键盘鼠标库pynput详细教程
§ 0.0.0 前言监听.操作鼠标.键盘是实现自动化的捷径,比如我实现自动化签到用到了模拟键盘操作. pynput是监听.操控鼠标和键盘的跨平台第三方python库. 你可以通过pip insnal ...

python 验证码处理

python 验证码处理的更多相关文章

随机推荐

热门专题