Python tesserocr模块使用示例
操作系统:Win10 1709 X64
python版本:3.6.5
依赖模块:PIL、tesserocr。
需要说明的是,在windows系统上PowerShell通过PIP3 install tesserocr安装验证码识别模块时,需要先安装Tesseract (一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎,与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能力不断增强。)可执行文件。
以中国知网的注册页面为例,我们常被要求输入这类简单的字母组成,背景含很多杂线的验证码,如下图所示:
我们对验证码另存为到本地代码所在目录,取名:test.png.
下图是直接用对应模块识别的代码示例:
import tesserocr
from PIL import Image
image=Image.open('test.png') image.show() #可以打印出图片,供预览
print(tesserocr.image_to_text(image))
原始图片尺寸较小,极少情况下如果无法正常识别,可以借助图片处理工具PIL模块进行图片等比例放大后保存。此例中直接运行上述代码,结果为“VHIHI”,即使是肉眼可见较为清晰的验证码,如果图片未经处理直接交由tesserocr解析,也可能识别率很低。
通常情况下,我们还需要做些额外的图片处理,如转灰度图,二值化等。
利用Image对应的convert()方法传参L,即可将图片转为灰度图。
image=image.convert('L')
image.show()
传入1即可完成二值化,如下:
image=image.convert('1')
image.show()
当然我们更多时候需要根据图片的实际情况指定二值化的阈值,比如我们将阈值设定为80,先转灰度图,再二值化,代码如下:
import tesserocr
from PIL import Image
image=Image.open('test.png')
image=image.convert("L")
threshold=80
table=[]
for i in range(256):
if i <threshold:
table.append(0)
else:
table.append(1)
image=image.point(table,'')
image.show()
print(tesserocr.image_to_text(image))
观察到处理后图片如右:
尽管图片已经转为灰度图,且过滤了大部分杂线,但是图片关键像素丢失严重,识别结果自然也不尽如人意,结果:“VH.”。
此时我们根据图片的实际情况,人为调整程序中预设的阈值到130,再观察:,这次的图片转换效果显著,我们再次查看识别结果,“VHRU”,与肉眼观察到的别无二致,合乎要求。
可见验证码的识别除了用好识别模块,还需要在必要时引入PIL(图片处理模块)进行图片预处理,预处理过程中的阈值等设定也存有技巧,不同的参数设定,会完全影响最终的识别率。
现实中很多网站的验证码要远比例子中的来得复杂,尤其是12306购票网站的验证码,使行为验证码开始高速发展,肉眼分辨起来都异常困难,这就要求我们对验证码的识别技术要不断提升,才能突破网站逐步升级的反爬虫机制。
Python tesserocr模块使用示例的更多相关文章
- python psutila模块(示例)
# qianxiao996精心制作 #博客地址:https://blog.csdn.net/qq_36374896 import psutil import time import datetime ...
- Python第三方模块tesserocr安装
介绍 在爬虫过程中,难免会遇到各种各样的验证码,而大多数验证码还是图形验证码,这时候我们可以直接用 OCR 来识别. tesserocr 是 Python 的一个 OCR 识别库 ,但其实是对 tes ...
- python中hashlib模块用法示例
python中hashlib模块用法示例 我们以前介绍过一篇Python加密的文章:Python 加密的实例详解.今天我们看看python中hashlib模块用法示例,具体如下. hashlib ha ...
- Python标准模块--threading
1 模块简介 threading模块在Python1.5.2中首次引入,是低级thread模块的一个增强版.threading模块让线程使用起来更加容易,允许程序同一时间运行多个操作. 不过请注意,P ...
- Python的模块引用和查找路径
模块间相互独立相互引用是任何一种编程语言的基础能力.对于“模块”这个词在各种编程语言中或许是不同的,但我们可以简单认为一个程序文件是一个模块,文件里包含了类或者方法的定义.对于编译型的语言,比如C#中 ...
- Python Logging模块的简单使用
前言 日志是非常重要的,最近有接触到这个,所以系统的看一下Python这个模块的用法.本文即为Logging模块的用法简介,主要参考文章为Python官方文档,链接见参考列表. 另外,Python的H ...
- python基础-模块
一.模块介绍 ...
- Python引用模块和查找模块路径
模块间相互独立相互引用是任何一种编程语言的基础能力.对于"模块"这个词在各种编程语言中或许是不同的,但我们可以简单认为一个程序文件是一个模块,文件里包含了类或者方法的定义.对于编译 ...
- Python常用模块之sys
Python常用模块之sys sys模块提供了一系列有关Python运行环境的变量和函数. 常见用法 sys.argv 可以用sys.argv获取当前正在执行的命令行参数的参数列表(list). 变量 ...
随机推荐
- static在类中的功能
有时候类需要它的一些成员与类本身直接相关,而不是与类的各个对象保持关联. 例如一个银行账户类可能需要一个数据成员来表示当前的利率.在此例中,我们希望利率与类关联,而非与类的每个对象关联.从实现效率上来 ...
- mtr命令详解诊断网络路由
首先安装mtr# yum -y install mtr 一般在windows 来判断网络连通性用ping 和tracert, ping的话可以来判断丢包率,tracert可以用来跟踪路由, 在 ...
- 使用git创建与合并分支
一.概述 学会使用git命令对项目进行创建分支,并在创建结束后合并到主分支上. 问:为什么要创建分支? 答:在原来的分支上创建一个自己的分支进行开发,在开发完毕后一次性合并到原先的分支,这样既保证安全 ...
- 干货 | Ansible 上手指南
版权声明:本文为博主原创文章.未经博主同意不得转载. https://blog.csdn.net/O4dC8OjO7ZL6/article/details/79765539 点击上方"中兴开 ...
- Houdini 过程化地形系统(二):基于UE4的FC5植被系统(1)
背景 通过之前的几篇分析实践,已经基本打通了UE4的Houdini植被管线部分,并对Far Cry5(简称FC5)的植被系统的需求做了整理,在接下来的几节中,会关注于如何使用Houdini基于UE4来 ...
- 使用for of循环遍历获取的nodeList,配置babel编译,webpack打包之后在iphone5下报错
报错信息: Symbol.iterator is not a function [duplicate] 代码示例: function insertCta() { let ctaArr = Array. ...
- 【Dubbo 源码解析】02_Dubbo SPI
Dubbo SPI:(version:2.6.*) Dubbo 微内核 + 插件 模式,得益于 Dubbo SPI .其中 ExtentionLoader是 Dubbo SPI 最核心的类,它负责扩展 ...
- Python sqlite3操作笔记
创建数据库 def create_tables(dbname): conn = sqlite3.connect(dbname) print "Opened database successf ...
- 阿里云负载均衡SLB 七层https协议 nginx 获取真实IP
https://www.cnblogs.com/baylorqu/p/8565667.html https://help.aliyun.com/document_detail/54007.html
- Spring 学习笔记(十)渲染 Web 视图 (Apache Tilesa 和 Thymeleaf)
使用Apache Tiles视图定义布局 为了在Spring中使用Tiles,需要配置几个bean.我们需要一个TilesConfigurer bean,它会负责定位和加载Tile定义并协调生成Til ...