python 简单图像识别--验证码

记录下，准备工作安装过程很是麻烦。

首先库：pytesseract，image，tesseract，PIL

windows安装PIL，直接exe进行安装更方便（https://files.cnblogs.com/files/Oran9e/PILwin64.zip）（https://files.cnblogs.com/files/Oran9e/PILwin32.zip）

安装 image：pip install image

安装 pytesseract：pip install pytesseract

安装 tesseract：pip install tesseract (安装 tesseracr，这里是个坑，需要安装到C盘里C:\Program Files (x86)\Tesseract-OCR，也就是默认路径，不然运行 python 代码的时候调用不了 tesseract.exe )

修改 tesseract.py 代码：\python\Lib\site-packages\pytesseract\tesseract.py

tesseract_cmd 改成 tesseract.exe的路径，进行调用。

tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'

准备完上面的工作，基本上就可以进行简单的验证码识别了。

代码：

#coding=utf-8

from PIL import Image

import pytesseract

image = Image.open('2.jpg')

orange = pytesseract.image_to_string(image)

print orange

下篇文章将会写个自动识别验证码，实现自动登陆的小脚本。

python 简单图像识别--验证码Ⅱ

在实现自动登陆的时候，我们首先需要做到识别验证码，上篇文章讲到如何识别验证码（http://www.cnblogs.com/Oran9e/p/8799194.html）。

一般情况下，我们见到的验证码是服务器动态生成的，这个时候我们要做的就是把验证码下载到本地，然后就可以像上篇文章一样进行识别，为自动登陆打下坚实的基础。

下面就记下困扰我两天的问题，把坑说明一下。

本来是想把 cnvd 的验证码进行下载识别（http://www.cnvd.org.cn/jcaptcha/jpeg/imageCaptcha?id=1523686908）

但是 cnvd 的网站是有反爬虫机制的，打印下 get 到的内容，是<script>***</script> js 代码，因此我认为是不能直接下载的，当然也存在右键另存为了哈。

对比下两个链接打印出来的内容（http://lab1.xseclab.com/vcode7_f7947d56f22133dbc85dda4f28530268/vcode.php）

上图可以看到，直接打印的内容是验证码图片的内容，因此这个时候我们可以进行下载，下载的时候是以二进制的方式展现，先保存到本地。

代码如下：

#coding=utf-8

from PIL import Image

import pytesseract

import requests

url = 'http://lab1.xseclab.com/vcode7_f7947d56f22133dbc85dda4f28530268/vcode.php'   #验证码URL

headers = {'User-Agent':"Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:56.0) Gecko/20100101 Firefox/56.0"}   #headers

url_get = requests.request("GET",url,headers=headers,verify=False)            #发送请求

img = url_get.content              #返回的数据以二进制的方式展现

with open('C:\Users\ww\Desktop\imageCaptcha.jpg',"wb") as f:        #选择保存图片路径和格式

	f.write(img)        #保存

image1 = Image.open("C:\Users\ww\Desktop\imageCaptcha.jpg")     #Image模块打开图片

output = pytesseract.image_to_string(image1)     #识别验证码

print str(output)     #打印验证码

当然，下载验证码也不止上面的一种方式，也可以通过截图保存验证码进行识别。有兴趣可以试试。

先记录到这里，争取晚上写出识别验证码自动登陆的脚本。

python 简单图像识别--验证码Ⅲ

实现自动登陆网站

登录学校图书馆管理系统为例，做一个简单的例子。python识别简单的没有干扰的纯数字验证码还是可以的，但是识别字母数字再加上干扰因素，误报率很高，因此这个我是采用”人工识别“，人工输入。

首先得明白cookie的作用，cookie是某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据。因此我们需要用Cookielib模块来保持网站的cookie。

登录学校图书馆管理系统登陆（http://122.207.221.227:8080/opac/login），验证码（http://122.207.221.227:8080/kaptcha/goldlib）

可以发现这个验证码是动态更新的每次打开都不一样，一般这种验证码和cookie是同步的。想识别验证码肯定是吃力不讨好的事，因此我们的思路是首先访问验证码页面，保存验证码、获取cookie用于登录，然后再直接向登录地址post数据。

先分析登录页面需要post的request和header信息

从中可以看出需要 post 的url并不是访问的页面，而是(http://122.207.221.227:8080/pages/include/checklogin.jsp)

其中需要提交的表单数据中 username 和 password 分别用户名和密码。

分析了上面的因素，下面就直接贴出代码。

#coding=utf-8

from PIL import Image

import pytesseract

import urllib2

import urllib

import PIL.ImageOps

import requests

import cookielib

import re

import sys

'''图书馆登陆'''

reload(sys)

sys.setdefaultencoding("utf-8")  #防止中文报错

url = 'http://122.207.221.227:8080/pages/include/checklogin.jsp'

capchaurl = 'http://122.207.221.227:8080/kaptcha/0.5458022691509324'

cookie = cookielib.CookieJar()   # 将cookies绑定到一个opener  cookie由cookielib自动管理

handler = urllib2.HTTPCookieProcessor(cookie)

opener = urllib2.build_opener(handler)

username='xxxxx'

password='xxxxx'  #用户名，密码

callNo = 'callNo'

picture = opener.open(capchaurl).read()   # 用openr访问验证码地址,获取cookie

local = open('C:\Users\ww\Desktop\goldlib.jpg',"wb")   # 保存验证码到本地

local.write(picture)

local.close()

secrecode = raw_input('yanzhengma: ')   # 输入验证码

postData = {

    'username': username,

	'password': password,

	'loginType': callNo,

	'kaptcha': secrecode,

}   # 抓包信息 构造表单

headers = {

    'Accept': '*/*',

	'Accept-Encoding': 'gzip, deflate',

	'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',

	'Connection': 'keep-alive',

	'Content-Length': '64',

	'Content-Type': 'application/x-www-form-urlencoded',

	'Host': '122.207.221.227:8080',

	'Referer': 'http://122.207.221.227:8080/opac/login',

	'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:59.0) Gecko/20100101 Firefox/59.0',

	'X-Requested-With': 'XMLHttpRequest',

}   # 根据抓包信息 构造headers

data = urllib.urlencode(postData)  # 生成post数据 ?key1=value1&key2=value2的形式

request = urllib2.Request(url,data,headers)  #构造request请求

try:

	response = opener.open(request)

	result = response.read().decode('utf-8')

	print result

except urllib2.HTTPError, e:

	print e.code

演示结果

任重而道远！

转载请注明链接（http://www.cnblogs.com/Oran9e/p/8847313.html）。

python 简单图像识别--验证码的更多相关文章

python简单处理验证码，三分钟，不能再多了
序言大家好鸭, 又是我小熊猫啦我们在做采集数据的时候,过快或者访问频繁,或者一访问就给弹出验证码,然后就蚌珠了~今天就给大家来一个简单处理验证码的方法环境模块 Python和pycharm如果还 ...
基于SVM的python简单实现验证码识别
验证码识别是一个适合入门机器学习的项目,之前用knn 做过一个很简单的,这次用svm来实现.svm直接用了开源的库libsvm.验证码选的比较简单,代码也写得略乱,大家看看就好. 1. 爬取验证码图片 ...
Python简单的验证码生成
用python生成简单的四位数验证码: 1 import random 2 3 if __name__ == "__main__": #这句话简单的理解就是,只有在本文件下以下的代 ...
Flask学习之旅--用 Python + Flask 制作一个简单的验证码系统
一.写在前面现在无论大大小小的网站,基本上都会使用验证码,登录的时候要验证,下载的时候要验证,而使用的验证码也从那些简简单单的字符图形验证码“进化”成了需要进行图文识别的验证码.需要拖动滑块的滑动验 ...
python简单验证码识别
在学习python通过接口自动登录网站时,用户名密码.cookies.headers都好解决但是在碰到验证码这个时就有点棘手了:于是通过网上看贴,看官网完成了对简单验证码的识别,如果是复杂的请看大神的 ...
Python 常用模块系列学习（1）--random模块常用function总结--简单应用--验证码生成
random模块--random是一个生成器首先: import random #导入模块 print (help(random)) #打印random模块帮助信息常用function ...
Python识别网站验证码
http://drops.wooyun.org/tips/6313 Python识别网站验证码 Manning · 2015/05/28 10:57 0x00 识别涉及技术验证码识别涉及很多方面的内 ...
太嚣张了！他竟用Python绕过了“验证码”
在web页面中,经常会遇到验证码,这对于我这么一个热爱web自动化测试人员,就变成了一件头疼的事.于是千方百计找各种资源得到破解简单的验证码方法. 识别验证码大致分如下几个步骤: 1.获取验证码图片 ...
python爬虫20 | 小帅b教你如何使用python识别图片验证码
当你在爬取某些网站的时候对于你的一些频繁请求对方会阻碍你常见的方式就是使用验证码验证码的主要功能就是区分你是人还是鬼(机器人) 人想法设法的搞一些手段来对付技术而技术又能对付人们的想法 ...

随机推荐

JavaScript·cookie
1.什么是cookie 页面用来保存信息 ,比如自动登录.记住用户名 JS中使用cookie:docucment.cookie 2.cookie的使用
MYSQL列表中常用语句代码块
查看数据表是否存在:SHOW TABLES; 显示已经打开的数据库:SELECT DATABASE(); 查看数据表结构:SHOW COLUMNS FROM ***(数据表名): 插入数据:INSER ...
小程序——如何引入外部js
当写小程序需要引入一些额外的js文件时,可以这样: 一.先把外部js用一个函数封闭起来: test.js function myfunc() { console.log("myfunc... ...
利用arcgis和envi对卫星图像按城市进行拼接，分割
1.首先在envi中打开多波段原素材,右键点击另存为TIFF,输入保存的路径将原素材转换为tif格式图片. 2.之后打开arcgis,导入全国地区界数据,点击工具栏中的筛选工具. 输入查找的范围以及匹 ...
科学计算库Numpy（1）
Numpy 一,数据结构数据类型: ndarray import numpy world_alchol = numpy.genfromtxt('world_alchol.txt',delimiter ...
STL——string
C++之string类型详解之所以抛弃char*的字符串而选用C++标准程序库中的string类,是因为他和前者比较起来,不必担心内存是否足够.字符串长度等等,而且作为一个泛型类出现,他集成的操作函 ...
Vue双向数据绑定原理
https://www.cnblogs.com/kidney/p/6052935.html?utm_source=gold_browser_extension
yaf twig配置
1.安装 TWIG composer require twig/twig2.COMPOSER自动加载的引用修改 BOOTSTRAP.PHP 增加 public function _initAutolo ...
ROADMAP
在Ubuntu下安装lrzsz
目录自动安装手动安装下载解压安装创建连接在Ubuntu 14.04x64下安装lrzsz 自动安装在终端中,输入命令 sudo apt-get install lrzsz 由于一些原因 ...

python 简单图像识别--验证码

python 简单图像识别--验证码的更多相关文章

随机推荐

热门专题