公司的登录注册等操作有验证码,测试环境可以让开发屏蔽掉验证码,但是如果到线上的话就要想办法识别验证码或必过验证码了。

  识别验证码主要分为三部分,一、对验证码进行二值化。二、将二值化后的图片分割。三、进行识别。理论上在识别之前有一个标准化的操作,是将图片进行旋转等操作,尽量将字符弄成一样的格式,方便识别,避免随进图片的差异。

  用这个验证码作为例子:。下面是代码:

  一、打开图片,将图片二值化。

  图片是由RGB三个通道组成的,图片的验证码和他的干扰,比如点或横线等,RGB的阙值有很大的区别,我们可以使用PS工具查看,选取一个大概的临界点,在代码中进行判断,判断属于验证码部分的阙值,赋值为(255,255,255,255)黑色。如果不是在这个阙值范围内的赋值为(0,0,0,255)白色。从而将噪点去掉。

#coding=utf-8
from PIL import Image
from operator import itemgetter
import os
img=Image.open('code.jpg')
print img.format,img.size,img.mode
img=img.convert("RGBA")
pixdata=img.load()
for y in xrange(img.size[1]):
for x in xrange(img.size[0]):
if pixdata[x,y][0]<140 or pixdata[x,y][1]<140 or pixdata[x,y][2]<140:
pixdata[x,y]=(0,0,0,255)
else:
pixdata[x,y]=(255,255,255,255)

说明:对像素pixdata[x,y]的阙值判断,前文中说明过[0],[1],[2]分别代表了RGB,140是用PS看出来的,验证码位置的像素,RGB都比较低,而噪点的RGB值比较高。可以适当的调一下。

下图是取验证码一点的像素点:

下面是噪点的RGB:

二、将二值化后的图片进行分割,分割成独立字符

#存为字库
j = 1
for i in range(4):
x = 0 + i*13
y = 6
img.crop((x, y, x+13, y+18)).save("%d.jpg" % j)
j += 1

分割后的结果如下图:

说明:验证码图片的大小是固定的,一个验证码4个字符,将他分成等大小的四个图片,13为一个字符所占的宽度,18为一个字符所占的高度,但是这样截出来的图片不是很精确。

三、识别验证码,这步也是最关键的。

#识别
fontMods = []#fontMods,图片库,文件名,带后缀
mode=[]#mode,图片库,去掉后缀的文件名
font=[]#font,分割后的四个图片
s=os.sep
root="C:\Users\min.sun\Desktop"+s+"num"+s#文件路径,s区分在linux或windows系统下的分割符"/"或"\"
sname=os.listdir("C:\Users\min.sun\Desktop/num")#获取文件夹下文件或文件夹的名称,带后缀
#fname,存储文件名区分名和后缀的元组,例(5,jpg)。mode存储文件名,不带后缀
#分割文件名和后缀名

#遍历文件,将库中的文件名存入

for rt, dirs, files in os.walk(root):
for f in files:
fname = os.path.splitext(f)
mode.append(fname[0])

for i in range(0,4):
fontMods.append(Image.open(root+s+sname[i]))
result=[]
for i in range(1,5):
font.append(Image.open("%d.jpg" % i))
for i in font:
points ={}
d=0
for mod in fontMods:
diffs = 0
for yi in range(18):
for xi in range(13):
if i.getpixel((xi, yi))!=mod.getpixel((xi, yi)):
diffs=diffs+1
#print "diffs:" + str(diffs)
#points[diffs]=mode
points[diffs]=mode[d]
d=d+1
points=sorted(points.iteritems(), cmp=lambda x,y:cmp(x[0],y[0]), reverse = False )
result.append(points[0][1])

a="".join(result)
print "The result is:",a
print "over"

  说明:做识别首先要有一个库,来比对,这里做的方法是取像素点,判断和库中的图片是否一样,取不同个数最少的一个图片作为结果。

以上步骤就是验证码识别的一个简单过程,不过识别率很低,只是作为一个学习,还是可以了考虑用其他方法来识别验证码。

使用python识别验证码的更多相关文章

  1. python识别验证码——PIL,pytesser,pytesseract的安装

    1.使用Python识别验证码需要安装Python的图像处理模块(PIL.pytesser.pytesseract) (安装过程需要pip,在我的Python中已经安装pip了,pip的安装就不在赘述 ...

  2. Python爬虫入门教程 60-100 python识别验证码,阿里、腾讯、百度、聚合数据等大公司都这么干

    常见验证码 之前的博客中已经解决了一些常见验证码的问题,但是验证码是层出不穷的,目前解决验证码除了通过常规手段解决以外,还可以通过人工智能领域的深度学习去解决 深度学习?! 无疑对爬虫coder提高了 ...

  3. python 识别验证码自动登陆

    # python 3.5.0 # 通过Chrom浏览器访问发起请求 # 需要对应版本的Chrom和chromdriver # 作者:linyouyi from selenium import webd ...

  4. python识别验证码——一般的数字加字母验证码识别

    1.验证码的识别是有针对性的,不同的系统.应用的验证码区别有大有小,只要处理好图片,利用好pytesseract,一般的验证码都可以识别 2.我在识别验证码的路上走了很多弯路,重点应该放在怎么把图片处 ...

  5. python识别验证码

    1.tesseract-ocr安装 tesseract-ocr windows下载地址 http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr- ...

  6. Python识别验证码,基于Tesseract实现图片文字识别

    一.简介 Tesseract是一个开源的文本识别[OCR]引擎,可通过Apache 2.0许可获得.它可以直接使用,或者使用API从图像中提取打印的文本,支持多种语言.该软件包包含一个ORC引擎[li ...

  7. python 识别验证码

    /usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/instal ...

  8. Python识别网站验证码

    http://drops.wooyun.org/tips/6313 Python识别网站验证码 Manning · 2015/05/28 10:57 0x00 识别涉及技术 验证码识别涉及很多方面的内 ...

  9. python 基于机器学习识别验证码

    1.背景    验证码自动识别在模拟登陆上使用的较为广泛,一直有耳闻好多人在使用机器学习来识别验证码,最近因为刚好接触这方面的知识,所以特定研究了一番.发现网上已有很多基于machine learni ...

随机推荐

  1. php 内容插入数据库需要mysql_escape_string处理一下 展示内容时候用htmlentities

    php 内容插入数据库需要mysql_escape_string处理一下 mysql_escape_string (PHP 4 >= 4.0.3, PHP 5, 注意:在PHP5.3中已经弃用这 ...

  2. 2013-7-27 802.1X学习

    最近搭了企业级加密的server 2003服务器,教程完全google,无任何自主创新.折腾了一周,总算搞定了,同时也验证了server 2003下的TLS和PEAP0加密算法是正常的. 至于搭建se ...

  3. 胡乱摸的NOIP2017游记和总结

    来自YZK的总结 本篇总结主要分成两部分:NOI Professional游记和平日的刷题训练. 今年的NOI Professional TG的难度在洛谷上标记为:二黄一绿三紫.恭喜NOIP今年全面脱 ...

  4. Appscan安装问题记录 + 最后问题解决的方法 和安装步骤

    最后环节有问题,无法创建常规任务,腰折, 估计是在安装环节不可以忽略下面的报错,有空解决一下这个问题 解决: 安装了一个虚拟机W7系统 可以安装成功 appscan9.0.3要W8的系统 最后装了ap ...

  5. 杂项:Mantis

    ylbtech-杂项:Mantis 缺陷管理平台Mantis,也做MantisBT,全称Mantis Bug Tracker.Mantis是一个基于PHP技术的轻量级的开源缺陷跟踪系统,以Web操作的 ...

  6. IE浏览器中overflow:hidden无效,内层元素超出外层div的解决方法

    原文地址:http://www.xin126.cn/show.asp?id=2624 在用css布局的时候,用IE浏览器(ie6.ie7.ie8)预览,有时候会出现内层元素(内部DIV.图片等)超出外 ...

  7. Jmeter接口压测

    对于各个组件的使用,建议参考官方文档 1. Jmeter参数化,从txt文件读取. 1.txt

  8. Vue引用其他组件,但组件某些部分不需要时的简单处理

    项目开发时,我们会把多个地方重复使用的模块抽象成组件,提供给大家一起使用,但是使用组件的时候偶尔会遇见一些问题,比如说组件里只有某些东西自己并不需要,这个时候我们可以对组件进行简单的修改,而不影响其他 ...

  9. [UE4]用向量表示方向

    向量的概念 一.物理角度的向量 1)向量就是具有大小和长度的量 2)向量就是空间空的箭头 3)向量可以随意平移 举例:力,force:速度,velcity.这些都是具有大小和方向的量,都可以看成是向量 ...

  10. 学学Gearman

    通常,多语言多系统之间的集成是个大问题,一般来说,人们多半会采用WebService的方式来处理此类集成问题,但不管采用何种风格的WebService,如RPC风格,或者REST风格,其本身都有一定的 ...