第二十三节:scrapy爬虫识别验证码(二)图片验证码识别
图片验证码基本上是有数字和字母或者数字或者字母组成的字符串,然后通过一些干扰线的绘制而形成图片验证码。
例如:知网的注册就有图片验证码
首先我们需要获取验证码图片,通过开发者工具我们可以得到验证码url链接
其次就是通过Pillow类库和tesserocr进行识别,代码如下:
# -*- coding:utf-8 -*-
import tesserocr
from PIL import Image
import requests # 通过url链接获取验证码图片,并写入本地文件夹里
def get_image(path,url):
"""
:param path: 文件夹路径
:param url: 验证码url链接
"""
respon = requests.get(url=url) # 请求验证码url
with open(path,"wb") as file:
file.write(respon.content) # 将验证码写到本地 # 由于验证码图片太小,需要对验证码图片放大处理,以便识别
def reset_image_size(image_path):
"""
:param image_path: 图片所在的路径
:return:
"""
image = Image.open(fp=image_path) # 打开图片
pic_resize = 5 # 设置图片放大或者缩小倍数
(x, y) = image.size # 获取图片的大小
x_s = int(x * pic_resize) # 放大5倍(可调)
y_s = int(y * pic_resize) # 放大5倍(可调)
out = image.resize((x_s, y_s), Image.ANTIALIAS) # ANTIALIAS表示高质量图片
out.save(image_path) # 读取验证码图片文本
def read_image(image_path):
"""
:param image_path: 验证码图片路径
:return:
"""
image = Image.open(fp=image_path) # 打开验证码图片
image = image.convert('L') # 将验证码图片转换为灰度图(L表示灰度图)
threshold = 127 # 设置灰度图二值化阈值
table = []
for i in range(256): # 像素为256
if i < threshold:
table.append(0)
else:
table.append(1)
image = image.point(table, '') # 二值化处理后的副本(1表示二值化)
image.show()
result = tesserocr.image_to_text(image) # 验证码图片转换为文本
return result # 验证码识别信息脏数据处理
def VerifInfo(result):
"""
:param result: 验证码图片通过初步识别后得到的脏数据
:return:
"""
verif_str = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ1234567890"
verif_list = []
for i in result:
if i in verif_str:
verif_list.append(i)
return "".join(verif_list) if __name__ == '__main__':
img_path = "D:\photo\image" # 文件夹目录
img_path = img_path + "\VerificationCode.png" # 验证码图片所在的目录及名称
img_url = "http://my.cnki.net/elibregister/CheckCode.aspx" # 验证码url
get_image(img_path,img_url) # 获取验证码图片
reset_image_size(img_path) # 调整验证码图片大小
result = read_image(img_path) # 读取验证码图片内容
verif_info = VerifInfo(result) # 验证码内容数据处理
verif_len = len(verif_info) # 验证码识别长度
if verif_len == 4 and verif_info:
print(verif_info)
else:
pass
图片字母数字验证码识别
最后就是看看识别的效果吧。前者为原始验证码图片,后者是经过二值化处理的图片。
输出的结果为:FZug
显然使用tesserocr识别还是有误差的,以后可以用深度学习的方式训练处一个模型,可以提高识别效率,后期会跟进实现的。
第二十三节:scrapy爬虫识别验证码(二)图片验证码识别的更多相关文章
- scrapy爬虫学习系列二:scrapy简单爬虫样例学习
系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...
- centos LNMP第一部分环境搭建 LAMP LNMP安装先后顺序 php安装 安装nginx 编写nginx启动脚本 懒汉模式 mv /usr/php/{p.conf.default,p.conf} php运行方式SAPI介绍 第二十三节课
centos LNMP第一部分环境搭建 LAMP安装先后顺序 LNMP安装先后顺序 php安装 安装nginx 编写nginx启动脚本 懒汉模式 mv /usr/local/php/{ ...
- (转)第二十三节 inotify事件监控工具
第二十三节 inotify事件监控工具 标签(空格分隔): Linux实战教学笔记-陈思齐 原文:http://www.cnblogs.com/chensiqiqi/p/6542268.html 第1 ...
- 风炫安全WEB安全学习第二十三节课 利用XSS获取COOKIE
风炫安全WEB安全学习第二十三节课 利用XSS获取COOKIE XSS如何利用 获取COOKIE 我们使用pikachu写的pkxss后台 使用方法: <img src="http:/ ...
- SpringCloud微服务实战——搭建企业级开发框架(二十四):集成行为验证码和图片验证码实现登录功能
随着近几年技术的发展,人们对于系统安全性和用户体验的要求越来越高,大多数网站系统都逐渐采用行为验证码来代替图片验证码.GitEgg-Cloud集成了开源行为验证码组件和图片验证码,并在系统中添加可配置 ...
- 潭州课堂25班:Ph201805201 django 项目 第十课 自定义错误码,完成图片验证码,用户是否被注册功能 (课堂笔记)
把 视图传到前台的 JsonResponse(data=data) 先进行处理,之后再传到前台, 处理:引用自定义错误代码,把错误代码返回给前台,前台根据错误代码中文提示 class Code: O ...
- Python识别字符型图片验证码
前言 验证码是目前互联网上非常常见也是非常重要的一个事物,充当着很多系统的 防火墙 功能,但是随时OCR技术的发展,验证码暴露出来的安全问题也越来越严峻.本文介绍了一套字符验证码识别的完整流程,对于验 ...
- 文字识别还能这样用?通过Python做文字识别到破解图片验证码
前期准备 1. 安装包,直接在终端上输入pip指令即可: # 发送浏览器请求 pip3 install requests # 文字识别 pip3 install pytesseract # 图片处理 ...
- 【图片识别】java 图片文字识别 ocr (转)
http://www.cnblogs.com/inkflower/p/6642264.html 最近在开发的时候需要识别图片中的一些文字,网上找了相关资料之后,发现google有一个离线的工具,以下为 ...
随机推荐
- 洛谷P2787 语文1(chin1)- 理理思维(珂朵莉树)
传送门 一看到区间推倒……推平操作就想到珂朵莉树 区间推平直接assign,查询暴力,排序的话开一个桶统计,然后一个字母一个字母加就好了 开桶统计的时候忘了保存原来的左指针然后挂了233 //mina ...
- react hooks 全面转换攻略(三) 全局存储解决方案
针对 react hooks 的新版本解决方案 一.redux维持原方案 若想要无缝使用原来的 redux,和其配套的中间件 promise,thunk,saga 等等的话 可以使用 redux-re ...
- JS 数据类型入门与typeof操作符
标准的数据类型划分: 基本类型: number(数字).string(字符串).undefined.boolean(布尔值).null(空对象) //空对象与非空对象,最大的区别就是不能进行属性操作 ...
- 前端_vue-cli+element-ui+AceEditor+codemirror+electron-vue
因项目工作需要,目前在研究前端的一些知识.主要想实现一个类似于webstorm,可以实现对本地文件进行增删改查等操作的IDE.下面通过几个专题,循序渐进,对某一些部分进行总结,希望能对你有帮助.(网上 ...
- ROS学习笔记六:xxx.launch文件详解
每当我们需要运行一个ROS节点或工具时,都需要打开一个新的终端运行一个命令.当系统中的节点数量不断增加时,每个节点一个终端的模式会变得非常麻烦.那么有没有一种方式可以一次性启动所有节点呢?答案当然是肯 ...
- poj 2299 Ultra-QuickSort 归并排序求逆序数对
题目链接: http://poj.org/problem?id=2299 题目描述: 给一个有n(n<=500000)个数的杂乱序列,问:如果用冒泡排序,把这n个数排成升序,需要交换几次? 解题 ...
- _bzoj1031 [JSOI2007]字符加密Cipher【后缀数组】
传送门:http://www.lydsy.com/JudgeOnline/problem.php?id=1031 保存后缀数组模版. 其实如果数据范围小一点,或者空间限制再大一点,或者甚至只要字母表再 ...
- AC自动机 HDOJ 2222 Keywords Search
题目链接 题意:每个文本串的出现次数 分析:入门题,注意重复的关键字算不同的关键字,还有之前加过的清零. 新模板,加上last跑快一倍 #include <bits/stdc++.h> ...
- go环境搭建及vscode中调试
1.下载go安装包一般国内用户无法在官网下载,可以自行百度找一些共享的资源墙内下载地址: http://www.golangtc.com/downloadCSDN上资源下载(一般需要积分):http: ...
- iOS- NSThread/NSOperation/GCD 三种多线程技术的对比及实现 -- 转
1.iOS的三种多线程技术 1.NSThread 每个NSThread对象对应一个线程,量级较轻(真正的多线程) 2.以下两点是苹果专门开发的“并发”技术,使得程序员可以不再去关心线程的具体使用问题 ...