文字识别还能这样用?通过Python做文字识别到破解图片验证码
前期准备
1. 安装包,直接在终端上输入pip指令即可:
# 发送浏览器请求
pip3 install requests
# 文字识别
pip3 install pytesseract
# 图片处理
pip3 install Pillow
PS:如有需要Python学习资料的小伙伴可以加下方的群去找免费管理员领取
可以免费领取源码、项目实战视频、PDF文件等
2. 新建项目
需要的模块安装好后,新建一个项目wordsDistinguish。
在项目包下新建三个.py文件
test_pytesseract 和 test_pillow、case_verification。
test_pytesseract:模块 pytesseract 的基本使用测试
test_pillow:模块 Pillow 的基本使用测试
case_verification:实战案例,破解网站图片验证码验证
涉及知识
1.Pillow 中的 Image
Python图像库中最重要的类是 Image,在模块中定义的具有相同名称的类。
可以通过多种方式创建此类的实例; 通过从文件加载图像,处理其他图像或从头开始创建图像。
# -*- coding: utf-8 -*- # 注意:print_function的导入必须在Image之前,否则会报错
from __future__ import print_function
from PIL import Image
"""
pillow 模块 中 Image 的基本使用
""" # 1.打开图片
im = Image.open("../wordsDistinguish/test1.jpg")
print(im) # 2.查看图片文件内容
print("图片文件格式:"+im.format)
print("图片大小:"+str(im.size))
print("图片模式:"+im.mode) # 3.显示当前图片对象
im.show() # 4.修改图片大小,格式,保存
size = (50, 50)
im.thumbnail(size)
im.save("1.jpg", "PNG") # 5.图片模式转化并保存,L 表示灰度 RGB 表示彩色
im = im.convert("L")
im.save("test1.jpg")
2. 基于 Tesseract-OCR 的 pytesseract
Python-tesseract是python的光学字符识别(OCR)工具。也就是说,它将识别并“读取”嵌入图像中的文本。
Python-tesseract是Google的Tesseract-OCR引擎的包装器。
它作为独立的调用脚本也很有用,因为它可以读取Pillow和Leptonica成像库支持的所有图像类型,包括jpeg,png,gif,bmp,tiff等。
此外,如果用作脚本,Python-tesseract将打印已识别的文本,而不是将其写入文件。
要在你的电脑上使用pytesseract模块,你还需要安装 Tesseract-OCR ,Mac上安装该工具我比较建议使用Homebrew,安装好后,直接在终端输入下面指令即可:
Windows下安装的话直接下载包即可,然后把其加入系统环境变量(即加入Path里),比较傻白甜,可以百度一下。
# -*- coding: utf-8 -*- # 从 Pillow 中导入图片处理模块 Image
from PIL import Image
# 导入基于 Tesseract 的文字识别模块 pytesseract
import pytesseract
"""
@pytesseract:https://github.com/madmaze/pytesseract
""" # 打开图片
im = Image.open("../wordsDistinguish/Resources/1.jpg")
# 识别图片内容
text = pytesseract.image_to_string(im)
print(text)
小项目:破解图片验证码登陆
目标网站:https://so.gushiwen.org
1. 准备过程
登录过程中需要输入三个数据:账号、密码、验证码,首先在浏览器内实际登录一次,按F12查看登录流程。
输入账号密码,和验证码,点击登录,注意Network内的变化。
登录后,分析Network内加载的网页我们发现,在login.aspx里,传递了我们的登录信息。
这是关键,意味着我们只要把数据通过这个地址传递给服务器就可以实现登录了。
2. 代码敲起来
现在模拟登录过程的难点主要有:验证码的识别和传递。
a.验证码识别我们根据前面的知识知识里的,直接采用pytesseract模块。b.登录参数传递,利用requests库发送post请求即可,问题是如何把验证码和登录联系起来.
通过前面分析我们知道
验证码是在
“https://so.gushiwen.org/RandCode.ashx”里生成的,
而登录页面是
“https://so.gushiwen.org/user/login.aspx”,分析发现。
正常浏览器登录这两个网址的cookie是一致的,并且都带有时间戳,所以,只要在代码请求时保证两者的cookie一致即可,这里我们利用requests库的session方法可以实现。
# -*- coding: utf-8 -*- # 从 Pillow 中导入图片处理模块 Image
from PIL import Image
# 导入基于 Tesseract 的文字识别模块 pytesseract
import pytesseract
# 导入发送网络请求的库 requests
import requests
# 导入正则库 re
import re
"""
模拟登录,破解字母数字图片验证码
目标网站:https://so.gushiwen.org
"""
# 请求头
headers = {
"user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36"
}
# 通过requests 创建一个 session 会话,保持两次访问 cookie 值相同
session = requests.session() # 下载识别验证码图片函数
def get_verification():
# 生成验证码图片url
url = "https://so.gushiwen.org/RandCode.ashx"
# 通过session发送get请求,获取验证码
resp = session.get(url, headers=headers)
# 将验证码保证到本地
with open(r"../wordsDistinguish/Resources/test.jpg", 'wb') as f:
f.write(resp.content)
# 打开验证码图片文件
im = Image.open(r"../wordsDistinguish/Resources/test.jpg")
# 基本处理,灰度处理,提升识别准确率
# 保存处理后的图片
im.save("test.jpg")
# 利用pytesseract进行图片内容识别
text = pytesseract.image_to_string(im)
# 去除识别结果中的非数字/字母内容
text = re.sub("\W", "", text)
# 返回验证码内容
return text def do_login(): i = 0 # 识别错误次数
# 获取验证码
captcha = get_verification()
# 基本检验,验证码位数必须为四位
while len(captcha) != 4:
captcha = get_verification()
i = i + 1 # i+=1
print("第%d次识别错误" % i) print("开始登录,验证码为:"+captcha)
# 传递的登录参数
data = {
"from": "http://so.gushiwen.org/user/collect.aspx",
"email": "你的注册邮箱",
"pwd": "你的登录密码",
"code": captcha,
"denglu": "登录"
}
# 登录地址
url = "https://so.gushiwen.org/user/login.aspx"
# 利用 session 发送post请求
response = session.post(url, headers=headers, data=data)
# 打印登录后的状态码
print(response.status_code)
# 保存登录后的页面内容,进一步确认是否登录成功
with open("gsww.html", encoding="utf-8", mode="w") as f:
f.write(response.content.decode()) # 开始程序
if __name__ == "__main__":
do_login()
3. 运行结果
a.控制台显示一次验证成功,返回状态码为:200,访问正常。
b.进一步检查,对获取到的源码进行检查
我们在浏览器观察登录后的页面发现,只有登录后的页面才有账号管理模块。
其中有用户的唯一标识:绑定邮箱的后几位,我的是50471@qq.com。
所以在我们获取的源码里直接搜索50471@qq.com即可查明是否登录成功,我们发现可以查询到,即模拟登录成功了。
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。
文章来源于简说Python
作者:老表
文字识别还能这样用?通过Python做文字识别到破解图片验证码的更多相关文章
- Python开发【Django】:图片验证码、KindEditor
图片验证码 生成图片验证码需要以下: session check_code.py(依赖:Pillow,字体文件) 模块安装 pip install Pillow src属性后面加? 在utils下拷贝 ...
- 使用python内置库pytesseract实现图片验证码的识别
环境准备: 1.安装Tesseract模块 git文档地址:https://digi.bib.uni-mannheim.de/tesseract/ 下载后就是一个exe安装包,直接右击安装即可,安装完 ...
- 使用Python进行OCR -- 识别图片中的文字
工具 Tesseract pytesseract tesserocr 朋友需要一个工具,将图片中的文字提取出来.我帮他在网上找了一些OCR的应用,都不好用.所以准备自己研究,写一个Web APP供他使 ...
- 字符型图片验证码识别完整过程及Python实现
字符型图片验证码识别完整过程及Python实现 1 摘要 验证码是目前互联网上非常常见也是非常重要的一个事物,充当着很多系统的 防火墙 功能,但是随时OCR技术的发展,验证码暴露出来的安全问题也越 ...
- 字符识别Python实现 图片验证码识别
字符型图片验证码识别完整过程及Python实现 1 摘要 验证码是目前互联网上非常常见也是非常重要的一个事物,充当着很多系统的 防火墙 功能,但是随时OCR技术的发展,验证码暴露出来的安全问题也越 ...
- KNN识别图像上的数字及python实现
领导让我每天手工录入BI系统中的数据并判断数据是否存在异常,若有异常点,则检测是系统问题还是业务问题.为了解放双手,我决定写个程序完成每天录入管理驾驶舱数据的任务.首先用按键精灵录了一套脚本把系统中的 ...
- 基于Python使用SVM识别简单的字符验证码的完整代码开源分享
关键字:Python,SVM,字符验证码,机器学习,验证码识别 1 概述 基于Python使用SVM识别简单的验证字符串的完整代码开源分享. 因为目前有了更厉害的新技术来解决这类问题了,但是本文作 ...
- Python实现文字聊天室
你是否想过用所学的Python开发一个图形界面的聊天室程序啊? 像这样的: 如果你想开发这样一个有点怀旧风格的聊天程序,那么可以接着看: 要开发这个聊天程序,你需要具备以下知识点: asyncore ...
- 使用OpenCV和Python进行人脸识别
介绍 人脸识别是什么?或识别是什么?当你看到一个苹果时,你的大脑会立刻告诉你这是一个苹果.在这个过程中,你的大脑告诉你这是一个苹果水果,用简单的语言来说就是识别.那么什么是人脸识别呢?我肯定你猜对了. ...
随机推荐
- SQL注入原理及代码分析(二)
前言 上一篇文章中,对union注入.报错注入.布尔盲注等进行了分析,接下来这篇文章,会对堆叠注入.宽字节注入.cookie注入等进行分析.第一篇文章地址:SQL注入原理及代码分析(一) 如果想要了解 ...
- shell进阶篇之数组应用案例
数组中可以存放多个值. Shell 只支持一维数组(不支持多维数组),初始化时不需要定义数组大小. 与大部分编程语言类似,数组元素的下标由0开始. Shell 数组用括号来表示,元素用"空格 ...
- Python之爬虫(十四) Scrapy框架的架构和原理
这一篇文章主要是为了对scrapy框架的工作流程以及各个组件功能的介绍 Scrapy目前已经可以很好的在python3上运行Scrapy使用了Twisted作为框架,Twisted有些特殊的地方是它是 ...
- HLS的M3U8文件介绍
HLS的M3U8文件介绍 HLS (HTTP Live Streaming)是Apple的动态码率自适应技术.主要用于PC和Apple终端的音视频服务. 相较于实时传输协议(RTP),HLS可以穿过任 ...
- Linux基础入门(一)初识Shell
Linux基础入门(一)初识Shell shell是什么 Shell 是一个用 C 语言编写的程序,它是用户使用 Linux 的桥梁.Shell 既是一种命令语言,又是一种程序设计语言. Shell ...
- oop的三种设计模式(单例、工厂、策略)
参考网站 单例模式: 废话不多说,我们直接上代码: <?php /** 三私一公 *私有的静态属性:保存类的单例 *私有的__construct():阻止在类的外部实例化 *私有的__clone ...
- bootstrap中模态框如果放入form表单中会存在的问题
bootstrap中模态框如果放入form表单中会存在的问题:当模态框显示时,点回车会出现表单自动提交!!!所以在使用模态框的时候要特别注意!
- 从Python开始学编程|PDF百度网盘免费下载|Python新手入门
百度网盘免费下载:从Python开始学编程|附PDF免费下载 提取码:7nkf 豆瓣评分: 本书封面: 读者评论: 内容简介 · · · · · · 改编自Vamei博客的<Python快速教 ...
- netcore RabbitMQ入门--win10开发环境
安装 1.进入rabbitMQ官网下载安装包 2.点击安装包安装的时候会提示需要先装erlang 点击是会自动跳转到erlang的下载界面如果没有跳转可以直接点击这里下载,根据系统选择下载包 下载完之 ...
- XML--概念、约束、解析
概念 XML:可扩展标记语言 HTML:超文本标记语言 两者的区别: 1.语法结构类似,单语法要求不同 HTML不区分大小写,XML严格区分大小写 在HTML中,有时不严格,如果上下文清楚地显示出段落 ...