使用selesium和pytesseract识别验证码，达到登录网页目的

关于验证码问题，大多可以在网上了解到目前有四种解决方案：
1、开发注释验证码
2、开发开一个“后门”，设置一个万能码，输入万能码则通过
3、通过cookies绕过验证码
4、图形识别技术

前三种是比较快速也是比较简单的，如果条件允许或者跟开发沟通得当，尽量用前三种

下面来说一下本文的重点也就是第四种方法，我们采用selesium自动化工具和pytesseract模块在前端来实现（也可以在爬虫实现，用requests，urllib等，主要就是pytesseract的图形识别技术）

首先pytesseract依赖PIL、Tesseract

所以请先下好，PIL是python的图像处理库，Tesseract是谷爹的OCR识别引擎，关于PIL和Tesseract资料有很多，如果感兴趣，请自行百度了解，这里不再赘述。
当以上东西都安装好后，最后再执行pip install pytesseract安装我们的主力pytesseract

下面直接上代码，我是用自己公司的页面来进行测试的：

# /usr/bin/python

# coding=utf-8

import pytesseract

from PIL import Image

from selenium import webdriver

import time

def getcode(imgurl):

    """识别图片"""

    image = Image.open(imgurl)

    vcode = pytesseract.image_to_string(image)

    return vcode

def imgprocess(imgurl):

    """截图处理"""

    img = Image.open(imgurl)

    region = (516, 373, 614, 422)

    cropImg = img.crop(region)  # 切割图片

    cropImg.save(imgurl)

chromepath = 'C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe'

browser = webdriver.Chrome(chromepath)

browser.get('http://192.168.6.52:8090/')

time.sleep(2)  # 等待验证码加载完成

temp_img = 'C:\Users\YangQ\Desktop\getImg.png'  # 图片存放位置

browser.get_screenshot_as_file(temp_img)  # 截图

imgprocess(temp_img)

code = getcode(temp_img)

browser.find_element_by_name("authCode").send_keys(code)

解释一下，因为session关系，目前我想到的方法就是通过selesium截屏来抠出验证码进行分析识别。如果有更好的方法，以后我会更新

可以看到当程序执行后，成功识别到验证码并填写正确。

使用selesium和pytesseract识别验证码，达到登录网页目的的更多相关文章

Selenium+Tesseract-OCR智能识别验证码爬取网页数据
1.项目需求描述通过订单号获取某系统内订单的详细数据,不需要账号密码的登录验证,但有图片验证码的动态识别,将获取到的数据存到数据库. 2.整体思路 1.通过Selenium技术,无窗口模式打开浏览器 ...
C#使用tesseract3.02识别验证码模拟登录
一.前言使用tesseract3.02识别有验证码的网站安装tesseract3.02 在VS nuget 搜索Tesseract即可. 二.项目结构图三.项目主要代码 using System ...
用pytesseract识别验证码报错
运行py文件出现下面报错 pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files\\T ...
使用pytesseract识别验证码，报错WindowsError: [Error 2]
问题现象: 按照网上的方式进行代码编写,使用pytesseract模块,然后导入指定图片进行解析,报错WindowsError: [Error 2] 问题原因: 源代码里面的路径设置错误,这里有一个坑 ...
C#使用tesseract3.02识别验证码模拟登录(转)
转自http://www.cnblogs.com/JinJi-Jary/p/5625414.html
Python之selenium+pytesseract 实现识别验证码自动化登录脚本
今天写自己的爆破靶场WP时候,遇到有验证码的网站除了使用pkav的工具我们同样可以通过py强大的第三方库来实现识别验证码+后台登录爆破,这里做个笔记~~~ 0x01关于selenium seleniu ...
qtp识别验证码
花了两天时间才完整的完成识别验证码的登录操作,在网上看到很多关于验证码识别的方法,但是我用的qtp版本比较高级,所以还是要自己花心思研究.po上我的识别验证码的详细历程: 一.读取浏览器中的图片验证码 ...
python识别验证码——PIL,pytesser,pytesseract的安装
1.使用Python识别验证码需要安装Python的图像处理模块(PIL.pytesser.pytesseract) (安装过程需要pip,在我的Python中已经安装pip了,pip的安装就不在赘述 ...
python3使用pytesseract进行验证码识别
pytesseract介绍 1.Python-tesseract是一个基于google's Tesseract-OCR的独立封装包: 2.Python-tesseract功能是识别图片文件中文字,并作 ...

随机推荐

MaterialImageLoading
https://github.com/eltld/MaterialImageLoading
Django-权限信息中间件操作
# 在当前app下新建一个middleware的文件夹,然后就可以尽情的写中间件了,只能是这个名字,切记~@!import re from django.shortcuts import redire ...
多线程-----Thread类与Runnable接口的区别
第一个继承Thread类来实现多线程,其实是相当于拿出三件事即三个卖早餐10份的任务分别分给三个窗口,他们各做各的事各卖各的早餐各完成各的任务,因为MyThread继承Thread类,所以在newMy ...
1987年国际C语言混乱代码大赛获奖的一行代码
macb() ? lpcbyu(&gbcq/_\021%ocq\012\0_=w(gbcq)/_dak._=}_ugb_[0q60)s+ 这是CoolShell博主之前做了一个非常有意思的在线 ...
Linux epoll 源码注释
https://www.cnblogs.com/stonehat/p/8613505.html 这篇文章值得好好读,先留个记录,回头看. IO多路复用之epoll总结 - Anker's Blog - ...
Java 深拷贝浅拷贝与序列化
一.浅拷贝.深拷贝浅拷贝会对对象中的成员变量进行拷贝:如果是基本类型,拷贝的就是基本类型的值:如果属性是内存地址(引用类型),拷贝的就是内存地址 : 深拷贝,除了基本类型外,引用类型所引用的对象也会 ...
eclipse创建maven项目出现以下报错： org.apache.maven.archiver.MavenArchiver.getManifest (org.apache.maven.project.MavenProject,org.apache.mav en.archiver.MavenArchiveConfiguration)
解决方法: 更新eclipse中的maven插件 Help -> Install New Software -> add -> http://repo1.maven.org/ma ...
Java 远程调用之Hessian简例
1. [代码]1.服务接口(Hello.java) package server; public interface Hello { String hello(String name);}2. [代码 ...
java的数字精确计算问题-BigDecimal
java的数字运算,偶尔会出现精度的问题,以下阐述的 java的BigDecimal类的使用. 例如: System.out.println(0.9+0.3); 结果1.2 System.out.pr ...
Android Platform Version与API Level的对应表
Platform Version API Level VERSION_CODE Notes Android 6.0 23 M Platform Highlights Android 5.1 22 LO ...

使用selesium和pytesseract识别验证码，达到登录网页目的

使用selesium和pytesseract识别验证码，达到登录网页目的的更多相关文章

随机推荐

热门专题