python 验证码处理

一、

灰度处理，就是把彩色的验证码图片转为灰色的图片。

二值化，是将图片处理为只有黑白两色的图片，利于后面的图像处理和识别

   # 自适应阀值二值化

   def _get_dynamic_binary_image(filedir, img_name):

       filename =   './out_img/' + img_name.split('.')[0] + '-binary.jpg'

       img_name = filedir + '/' + img_name

       print('.....' + img_name)

       im =dz.imread(img_name)

       im = dz.cvtColor(im,dz.COLOR_BGR2GRAY) #灰值化

       # 二值化

       th1 = dz.adaptiveThreshold(im, 255, dz.ADAPTIVE_THRESH_GAUSSIAN_C, dz.THRESH_BINARY, 21, 1)

      dz.imwrite(filename,th1)

      return th1

二、去除边框

 # 去除边框

 def clear_border(img,img_name):

   filename = './out_img/' + img_name.split('.')[0] + '-clearBorder.jpg'

   h, w = img.shape[:2]

   for y in range(0, w):

     for x in range(0, h):

       if y < 2 or y > w - 2:

         img[x, y] = 255

       if x < 2 or x > h -2:

         img[x, y] = 255

   cv2.imwrite(filename,img)

   return img

在用OpenCV时，图片的矩阵点是反的，就是长和宽是颠倒的

三、降噪

降噪是验证码处理中比较重要的一个步骤，我这里使用了点降噪和线降噪，，，只能去除细的干扰线

 # 干扰线降噪

 def interference_line(img, img_name):

     filename =  './out_img/' + img_name.split('.')[0] + '-interferenceline.jpg'

     h, w = img.shape[:2]

     # ！！opencv矩阵点是反的

     # img[1,2] 1:图片的高度，2：图片的宽度

     for y in range(1, w - 1):

         for x in range(1, h - 1):

             count = 0

             if img[x, y - 1] > 245:

                 count = count + 1

             if img[x, y + 1] > 245:

                 count = count + 1

             if img[x - 1, y] > 245:

                 count = count + 1

             if img[x + 1, y] > 245:

                 count = count + 1

             if count > 2:

                  img[x, y] = 255

 cv2.imwrite(filename,img)

 return img

 # 点降噪

 def interference_point(img,img_name, x = 0, y = 0):

     """

     9邻域框,以当前点为中心的田字框,黑点个数

     :param x:

     :param y:

     :return:

     """

     filename =  './out_img/' + img_name.split('.')[0] + '-interferencePoint.jpg'

     # todo 判断图片的长宽度下限

     cur_pixel = img[x,y]# 当前像素点的值

     height,width = img.shape[:2]

     for y in range(0, width - 1):

       for x in range(0, height - 1):

         if y == 0:  # 第一行

             if x == 0:  # 左上顶点,4邻域

                 # 中心点旁边3个点

                 sum = int(cur_pixel) \

                       + int(img[x, y + 1]) \

                       + int(img[x + 1, y]) \

                       + int(img[x + 1, y + 1])

                 if sum <= 2 * 245:

                   img[x, y] = 0

             elif x == height - 1:  # 右上顶点

                 sum = int(cur_pixel) \

                       + int(img[x, y + 1]) \

                       + int(img[x - 1, y]) \

                       + int(img[x - 1, y + 1])

                 if sum <= 2 * 245:

                   img[x, y] = 0

             else:  # 最上非顶点,6邻域

                 sum = int(img[x - 1, y]) \

                       + int(img[x - 1, y + 1]) \

                       + int(cur_pixel) \

                       + int(img[x, y + 1]) \

                       + int(img[x + 1, y]) \

                       + int(img[x + 1, y + 1])

                 if sum <= 3 * 245:

                   img[x, y] = 0

         elif y == width - 1:  # 最下面一行

             if x == 0:  # 左下顶点

                 # 中心点旁边3个点

                 sum = int(cur_pixel) \

                       + int(img[x + 1, y]) \

                       + int(img[x + 1, y - 1]) \

                       + int(img[x, y - 1])

                 if sum <= 2 * 245:

                   img[x, y] = 0

             elif x == height - 1:  # 右下顶点

                 sum = int(cur_pixel) \

                       + int(img[x, y - 1]) \

                       + int(img[x - 1, y]) \

                       + int(img[x - 1, y - 1])

                 if sum <= 2 * 245:

                   img[x, y] = 0

             else:  # 最下非顶点,6邻域

                 sum = int(cur_pixel) \

                       + int(img[x - 1, y]) \

                       + int(img[x + 1, y]) \

                       + int(img[x, y - 1]) \

                       + int(img[x - 1, y - 1]) \

                       + int(img[x + 1, y - 1])

                 if sum <= 3 * 245:

                   img[x, y] = 0

         else:  # y不在边界

             if x == 0:  # 左边非顶点

                 sum = int(img[x, y - 1]) \

                       + int(cur_pixel) \

                       + int(img[x, y + 1]) \

                       + int(img[x + 1, y - 1]) \

                       + int(img[x + 1, y]) \

                       + int(img[x + 1, y + 1])

                 if sum <= 3 * 245:

                   img[x, y] = 0

             elif x == height - 1:  # 右边非顶点

                 sum = int(img[x, y - 1]) \

                       + int(cur_pixel) \

                       + int(img[x, y + 1]) \

                       + int(img[x - 1, y - 1]) \

                       + int(img[x - 1, y]) \

                       + int(img[x - 1, y + 1])

                 if sum <= 3 * 245:

                   img[x, y] = 0

             else:  # 具备9领域条件的

                 sum = int(img[x - 1, y - 1]) \

                       + int(img[x - 1, y]) \

                       + int(img[x - 1, y + 1]) \

                       + int(img[x, y - 1]) \

                       + int(cur_pixel) \

                       + int(img[x, y + 1]) \

                       + int(img[x + 1, y - 1]) \

                       + int(img[x + 1, y]) \

                       + int(img[x + 1, y + 1])

                 if sum <= 4 * 245:

                   img[x, y] = 0

     cv2.imwrite(filename,img)

     return img

五、字符切割

 def cfs(im,x_fd,y_fd):

   '''用队列和集合记录遍历过的像素坐标代替单纯递归以解决cfs访问过深问题

   '''

   # print('**********')

   xaxis=[]

   yaxis=[]

   visited =set()

   q = Queue()

   q.put((x_fd, y_fd))

   visited.add((x_fd, y_fd))

   offsets=[(1, 0), (0, 1), (-1, 0), (0, -1)]#四邻域

   while not q.empty():

       x,y=q.get()

       for xoffset,yoffset in offsets:

           x_neighbor,y_neighbor = x+xoffset,y+yoffset

           if (x_neighbor,y_neighbor) in (visited):

               continue  # 已经访问过了

           visited.add((x_neighbor, y_neighbor))

           try:

               if im[x_neighbor, y_neighbor] == 0:

                   xaxis.append(x_neighbor)

                   yaxis.append(y_neighbor)

                   q.put((x_neighbor,y_neighbor))

           except IndexError:

               pass

   # print(xaxis)

   if (len(xaxis) == 0 | len(yaxis) == 0):

     xmax = x_fd + 1

     xmin = x_fd

     ymax = y_fd + 1

     ymin = y_fd

   else:

     xmax = max(xaxis)

     xmin = min(xaxis)

     ymax = max(yaxis)

     ymin = min(yaxis)

     #ymin,ymax=sort(yaxis)

   return ymax,ymin,xmax,xmin

 def detectFgPix(im,xmax):

   '''搜索区块起点

   '''

   h,w = im.shape[:2]

   for y_fd in range(xmax+1,w):

       for x_fd in range(h):

           if im[x_fd,y_fd] == 0:

               return x_fd,y_fd

 def CFS(im):

   '''切割字符位置

   '''

   zoneL=[]#各区块长度L列表

   zoneWB=[]#各区块的X轴[起始，终点]列表

   zoneHB=[]#各区块的Y轴[起始，终点]列表

   xmax=0#上一区块结束黑点横坐标,这里是初始化

   for i in range(10):

       try:

           x_fd,y_fd = detectFgPix(im,xmax)

           # print(y_fd,x_fd)

           xmax,xmin,ymax,ymin=cfs(im,x_fd,y_fd)

           L = xmax - xmin

           H = ymax - ymin

           zoneL.append(L)

           zoneWB.append([xmin,xmax])

           zoneHB.append([ymin,ymax])

       except TypeError:

           return zoneL,zoneWB,zoneHB

   return zoneL,zoneWB,zoneHB

切割粘连字符代码

       # 切割的位置

       im_position = CFS(im)

       maxL = max(im_position[0])

       minL = min(im_position[0])

       # 如果有粘连字符，如果一个字符的长度过长就认为是粘连字符，并从中间进行切割

       if(maxL > minL + minL * 0.7):

         maxL_index = im_position[0].index(maxL)

         minL_index = im_position[0].index(minL)

         # 设置字符的宽度

         im_position[0][maxL_index] = maxL // 2

         im_position[0].insert(maxL_index + 1, maxL // 2)

         # 设置字符X轴[起始，终点]位置

         im_position[1][maxL_index][1] = im_position[1][maxL_index][0] + maxL // 2

         im_position[1].insert(maxL_index + 1, [im_position[1][maxL_index][1] + 1, im_position[1][maxL_index][1] + 1 + maxL // 2])

         # 设置字符的Y轴[起始，终点]位置

         im_position[2].insert(maxL_index + 1, im_position[2][maxL_index])

       # 切割字符，要想切得好就得配置参数，通常 1 or 2 就可以

       cutting_img(im,im_position,img_name,1,1

切割粘连字符代码

 def cutting_img(im,im_position,img,xoffset = 1,yoffset = 1):

   filename =  './out_img/' + img.split('.')[0]

   # 识别出的字符个数

   im_number = len(im_position[1])

   # 切割字符

   for i in range(im_number):

     im_start_X = im_position[1][i][0] - xoffset

     im_end_X = im_position[1][i][1] + xoffset

     im_start_Y = im_position[2][i][0] - yoffset

     im_end_Y = im_position[2][i][1] + yoffset

     cropped = im[im_start_Y:im_end_Y, im_start_X:im_end_X]

     cv2.imwrite(filename + '-cutting-' + str(i) + '.jpg',cropped)

六、识别：

识别用的是typesseract库，主要识别一行字符和单个字符时的参数设置，识别中英文的参数设置，代码很简单就一行，我这里大多是filter文件的操作

       # 识别验证码

       cutting_img_num = 0

       for file in os.listdir('./out_img'):

         str_img = ''

         if fnmatch(file, '%s-cutting-*.jpg' % img_name.split('.')[0]):

           cutting_img_num += 1

       for i in range(cutting_img_num):

         try:

           file = './out_img/%s-cutting-%s.jpg' % (img_name.split('.')[0], i)

           # 识别字符

           str_img = str_img + image_to_string(Image.open(file),lang = 'eng', config='-psm 10') #单个字符是10，一行文本是7

         except Exception as err:

           pass

       print('切图：%s' % cutting_img_num)

       print('识别为：%s' % str_img

python 验证码处理的更多相关文章

Python验证码6位自动生成器
Python验证码6位自动生成器
python验证码识别
关于利用python进行验证码识别的一些想法用python加“验证码”为关键词在baidu里搜一下,可以找到很多关于验证码识别的文章.我大体看了一下,主要方法有几类:一类是通过对图片进行处理,然后 ...
Python 验证码识别-- tesserocr
Python 验证码识别-- tesserocr tesserocr 是 Python 的一个 OCR 识别库 ,但其实是对 tesseract 做的一层 Python API 封装,所以它的核心是 ...
【转】Python验证码识别处理实例
原文出处: 林炳文(@林炳文Evankaka) 一.准备工作与代码实例 1.PIL.pytesser.tesseract (1)安装PIL:下载地址:http://www.pythonware.com ...
Python 验证码识别（别干坏事哦...）
关于python验证码识别库,网上主要介绍的为pytesser及pytesseract,其实pytesser的安装有一点点麻烦,所以这里我不考虑,直接使用后一种库. python验证码识别库安装要安 ...
python 验证码高阶验证
python 验证码高阶验证标签: 验证码python 2016-08-19 15:07 1267人阅读评论(1) 收藏举报分类: 其他(33) 目录(?)[+] 字符型图片验证 ...
Windows平台python验证码识别
参考: http://oatest.dragonbravo.com/Authenticate/SignIn?returnUrl=%2f http://drops.wooyun.org/tips/631 ...
Python验证码识别处理实例(转载)
版权声明:本文为博主林炳文Evankaka原创文章,转载请注明出处http://blog.csdn.net/evankaka 一.准备工作与代码实例 1.PIL.pytesser.tesseract ...
python 验证码
python写的验证码小程序 ##################验证码,数字+字母 import random check_code="" for i in range(6): ...
Python验证码识别处理实例（转）
一.准备工作与代码实例 1.PIL.pytesser.tesseract (1)安装PIL:下载地址:http://www.pythonware.com/products/pil/(CSDN下载) 下 ...

随机推荐

python模块之time and datetime
time # python3 # coding = utf-8 import time timestamp = time.time() print('timestamp:%s, type: %s' % ...
MySQL JDBC Driver 8.0+设置服务器时区
遇到一个问题,线下环境测试数据的查询完全没有问题,但是线上环境却没法查询出数据,并且从mybatis输出的日志来看,查询参数也没有问题,数据库中数据也是存在的,查询参数类型是java.util.Dat ...
如何使用Golang实现一个API网关
你是否也存在过这样的需求,想要公开一个接口到网络上.但是还得加点权限,否则被人乱调用就不好了.这个权限验证的过程,最好越简单越好,可能只是对比两个字符串相等就够了.一般情况下我们遇到这种需要,就是在函 ...
NSNotification，NSNotificationCenter的使用、iOS中五种对象间传值的方式
学习内容 NSNitification与NotificationCenter(通知与通知中心) 通知的使用 [[NSNotificationCenter defaultCenter]addObserv ...
MySQL数据类型笔记
引言作为一个做Java后端的开发者,无论是在自己平时项目学习实战还是工作中的真实项目,都离不开和数据库打交道.而MySQL作为当今最流行的关系型数据库之一,也成为了我们必须掌握的一门技术.最近在工作 ...
一、Spring的控制反转(IOC)学习
一.控制反转 1.什么是控制反转? 控制反转(Inversion of Control,缩写为IoC),是面向对象中的一种设计原则,可以用来减低计算机代码之间的耦合度.其中最常见的方式叫做依赖注入(D ...
设计模式之GOF23中介者模式
中介者模式Mediator 场景:公司中各个部门需要交互,通过中介总经理进行交互核心: 如果一个系统中对象之间的联系成网状结构,对象之间多对多,将导致关系极其复杂,这些对象统称为“同事关系” 我们可 ...
Struts2 为什么被淘汰？自己作死！
Struts2 那些年可谓是风光无限啊,Struts2 + Spring + Hibernate 三大框架一起组成了 "SSH"----牛逼哄哄的 Java Web 框架三剑客. ...
git的日常使用
首次上传项目到github上在项目上右击——>选择 Git Bash Here 直接进入到存放项目文件的地址 git init 在当前项目的目录中生成本地的git管理 git ad ...
HttpServletResponse和HttpServletRequest的简单实用
1.HttpServletResponse web服务器接收到客户端的http请求,针对这个请求,分别创建一一个代表请求的HttpServletRequest 对象,代表响应的- -个HttpServ ...

python 验证码处理

python 验证码处理的更多相关文章

随机推荐

热门专题