验证码是爬虫需要解决的问题,因为很多网站的数据是需要登录成功后才可以获取的.

验证码识别,即图片识别,很多人都有误区,觉得这是爬虫方面的知识,其实是不对的.

验证码识别涉及到的知识:人工智能,模式识别,机器视觉,图像处理.

主要流程:

1 图像采集:就直接通过HTTP抓HTML,然后分析出图片的url,然后下载保存就可以了

2 预处理:   检测是正确的图像格式,转换到合适的格式,压缩,剪切出ROI,去除噪音,灰度化,转换色彩空间这些

3 检测:       验证码识别呢,主要是找出文字所在的主要区域

4 前处理:   验证码识别,“一般”要做文字的切割

5 训练:       通过各种模式识别,机器学习算法,来挑选和训练合适数量的训练集

6 识别:       输入待识别的处理后的图片,转换成分类器需要的输入格式,然后通过输出的类和置信度,来判断大概可能是 哪个字母

Pytesseract--验证码识别

1  简介

Python-tesseract是一款用于光学字符识别(OCR)的python工具,即从图片中识别出其中嵌入的文字。Python-tesseract是对Google Tesseract-OCR的一层封装。它也同时可以单独作为对tesseract引擎的调用脚本,支持使用PIL库(Python Imaging Library)读取的各种图片文件类型,包括jpeg、png、gif、bmp、tiff和其他格式,。作为脚本使用它将打印出识别出的文字而非写入到文件。所以安装pytesseract前要先安装PIL和tesseract-orc这俩依赖库

2 安装

PIL安装  Python平台的图像处理标准库

pip3 install pillow

pytesseract安装,文字识别库

pip3 install pytesseract

tesseract-ocr安装,识别引擎

windows:

https://digi.bib.uni-mannheim.de/tesseract/

下载

tesseract-ocr-setup-3.05.02 或者 tesseract-ocr-setup-4.0.0-alpha

linux:

github上面下载对应版本

https://github.com/tesseract-ocr/tesseract

遇到问题及解决:

pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your path

解决方法:(我是win环境)

找到tesseract-ocr安装目录,复制路径如:  C:\Program Files (x86)\Tesseract-OCR\tesseract.exe

找到pytesseract.py文件,修改tesseract_cmd的路径,如下:

环境安装完后,分析目标网站:

华中科技大学  http://www.hust-snde.com/cms/ 

需求,每天登陆一次保持活跃度

可以看到这个登陆是需要输入验证码的

下面将利用Selenium&Pytesseract模拟登陆+验证码识别

完整代码如下:

#!/usr/bin/env python
# coding: utf-8 import time
from selenium import webdriver
from PIL import Image
import pytesseract class LoginSchool(object):
    def __init__(self, username, password, url):
        self.username = username
        self.password = password
        self.url = url
        self.browser = self.getbrowser()
        self.login_school(self.browser)     def getbrowser(self):
        chrome_options = webdriver.ChromeOptions()
        # 去除警告
        chrome_options.add_argument('disable-infobars')
        # 无头模式
        # chrome_options.set_headless()
        browser = webdriver.Chrome(options=chrome_options,
                                   executable_path=r'D:\chromedriver_2.41\chromedriver.exe')
        return browser     def login_school(self, browser):
        browser.get(self.url)
        time.sleep(3)
        # 打开目标网站,并截取完整的图片
        browser.get_screenshot_as_file('login.png')
        # 找到输入账号的input,并输入账号
        browser.find_element_by_id("loginId").send_keys(self.username)
        # 找到输入密码的input,并输入密码
        browser.find_element_by_id("passwd").send_keys(self.password)
        # 找到验证码img标签,切图
        img_code = browser.find_element_by_xpath("//div[@class='logif']//img[@id='imgCode']")
        time.sleep(3)
        # 算出验证码的四个点,即验证码四个角的坐标地址
        left = img_code.location['x']
        top = img_code.location['y']
        right = img_code.location['x'] + img_code.size['width']
        bottom = img_code.location['y'] + img_code.size['height']
        print("验证码坐标::", left, top, right, bottom)
        # 利用python的PIL图片处理库,利用坐标,切出验证码的图
        im = Image.open('login.png')
        im = im.crop((left, top, right, bottom))
        im.save('code.png')
        # 调用图片识别的函数,得到验证码
        code = self.img_to_str()
        # 找到验证码的input,并输入验证码
        browser.find_element_by_id("authCode").send_keys(code)
        # 点击登录按钮
        browser.find_element_by_xpath("//div[@class='loga']/a[text()=' 登 录']").click()
        time.sleep(2)
        try:
            msg = browser.find_element_by_xpath("//div[@class='user_name']").text
            if msg:
                print('登陆成功')
                print(msg)
        except Exception as e:
            print('登陆失败:{}'.format(e))
        finally:
            time.sleep(1)
            browser.quit()     def img_to_str(self):
        # 打开切出的验证码code.png
        img = Image.open('code.png')
        # 利用pytesseract识别出验证码
        # -psm 8 为识别模式
        # -c tessedit_char_whitelist=1234567890  的意思是 识别纯数字(0-9)
        code = pytesseract.image_to_string(img, config='-psm 8 -c tessedit_char_whitelist=1234567890')
        print('验证码识别:{}'.format(code))
        return code if __name__ == '__main__':
    username = '账号'
    password = '密码'
    url = 'http://www.hust-snde.com/center\
    /left_hydl.jsp?url=www.hust-snde.com:80/sso/login_centerLogin.action'
    st = LoginSchool(username=username, password=password, url=url)

运行程序:

当前目录下会生成两个图片文件

login.png 为登陆时的截图

code.png是从上面login.png中切出来的验证码图片

pytesseract识别简单的验证码成功率还行,如果验证码有干扰线,噪点之类的就需要对验证码图片进行去除噪音,灰度化,转换色彩空间这些处理.

如果验证码有字体样式,或者比较复杂,就需要训练,来提高识别的成功率.

转载出处: 
http://www.py3study.com/Article/details/id/351.html

Selenium&Pytesseract模拟登录+验证码识别的更多相关文章

  1. Selenium&Pytesseract模拟登录+验证码识别

    验证码是爬虫需要解决的问题,因为很多网站的数据是需要登录成功后才可以获取的. 验证码识别,即图片识别,很多人都有误区,觉得这是爬虫方面的知识,其实是不对的. 验证码识别涉及到的知识:人工智能,模式识别 ...

  2. linux环境下pytesseract的安装和央行征信中心的登录验证码识别

    首先是安装,我参考的是这个 http://blog.csdn.net/xinghun_4/article/details/47860645 我是centos,使用yum yum install pyt ...

  3. python爬虫模拟登录验证码解决方案

    [前言]几天研究验证码解决方案有三种吧.第一.手工输入,即保存图片后然后我们手工输入:第二.使用cookie,必须输入密码一次,获取cookie:第三.图像处理+深度学习方案,研究生也做相关课题,就用 ...

  4. selenium模拟登录豆瓣和qq空间

    selenium模拟登录豆瓣和qq空间今天又重新学习了下selenium,模拟登录豆瓣,发现设置等待时间真的是很重要的一步,不然一直报错:selenium.common.exceptions.NoSu ...

  5. 豆瓣模拟登录(双层html)

    一.豆瓣模拟登录(双层html) #!/usr/bin/env python # -*- coding: utf-8 -*- #author tom import time from selenium ...

  6. 2 模拟登录_Post表单方式(针对chinaunix有效,针对csdn失效,并说明原因)

    参考精通Python网络爬虫实战 首先,针对chinaunix import urllib.request #原书作者提供的测试url url="http://bbs.chinaunix.n ...

  7. Python之selenium+pytesseract 实现识别验证码自动化登录脚本

    今天写自己的爆破靶场WP时候,遇到有验证码的网站除了使用pkav的工具我们同样可以通过py强大的第三方库来实现识别验证码+后台登录爆破,这里做个笔记~~~ 0x01关于selenium seleniu ...

  8. selenium识别登录验证码---基于python实现

    本文主要是通过PIL+pytesseract+Tesseract-OCR实现验证码的识别 其中PIL为Python Imaging Library,已经是Python平台事实上的图像处理标准库了.PI ...

  9. C#使用tesseract3.02识别验证码模拟登录

    一.前言 使用tesseract3.02识别有验证码的网站 安装tesseract3.02 在VS nuget 搜索Tesseract即可. 二.项目结构图 三.项目主要代码 using System ...

随机推荐

  1. 可视化---seaborn

    变量说明 x,y,hue 数据集变量 变量名 date 数据集 数据集名 row,col 更多分类变量进行平铺显示 变量名 col_wrap 每行的最高平铺数 整数 estimator 在每个分类中进 ...

  2. docker安装(centos-7)

    centos7安装docker:Docker 要求 CentOS 系统的内核版本高于 3.10 ,查看本页面的前提条件来验证你的CentOS 版本是否支持 Docker .通过 uname -r 命令 ...

  3. 17.3.20---python的变量作用域

    1---变量的作用域 在Python程序中创建.改变.查找变量名时,都是在一个保存变量名的空间中进行,我们称之为命名空间,也被称之为作用域.Python的作用域是静态的,在源代码中变量名被赋值的位置决 ...

  4. C#匿名委托,匿名函数,lambda表达式

    一.类型.变量.实例之间的关系. 类型>变量>实例 类型可以创建变量,实体类可以创建实例,实例可以存储在变量里. 二.委托使用过程: 1.定义委托(写好签名): 2.创建委托变量: 3.给 ...

  5. apache启动失败,提示80端口被占用

    首先检查80端口被什么程序占用,方法:cmd进DOS,输入netstat -ano 80端口被为4的进程占用,有两种可能:一种情况是本机中安装了sqlserver 2008,80端口被SqlServe ...

  6. Linux服务器性能查看命令

    一.uptime命令 [root@#test~]# uptime15:26:42 up 101 days, 18:44,  3 users,  load average: 0.18, 0.22, 0. ...

  7. Django数据迁移时提示 ModuleNotFoundError: No module named 'users'

    执行数据迁移时提示找不到对应的APP,错误如下: 这个错误主要是路径找不到引起的,只需在settings文件夹中添加app文件路径即可 sys.path.insert(0, os.path.join( ...

  8. VS编译release版本的出现的LNK1104 无法打开文件“libboost_filesystem-vc140-mt-1_58.lib

    最近在用restbed和vs2015做一个项目,debug编译的没问题,但是编译release就有问题,困扰了一天,说下我的出坑过程. 1.我用到了外部的库 restbed ,首先要想正确编译过,你的 ...

  9. 林轩田机器学习基石笔记4—Feasibility of Learning

    上节课介绍了机器学习可以分为不同的类型.其中,监督式学习中的二元分类和回归分析是最常见的也是最重要的机器学习问题.本节课,我们将介绍机器学习的可行性,讨论问题是否可以使用机器学习来解决. 一.Lear ...

  10. CF-544:部分题目总结

    -------------------昨天打的重现赛,感觉是我打的发挥的最好的一场比赛了,六题都一次AC.那么就来总结一下吧 题目链接:http://codeforces.com/contest/11 ...