验证码破解 | Selenium模拟登陆12306

12306官网登录的验证码破解比较简单，验证码是常规的点触类型验证码，使用超级鹰识别率比较高。

思路：

（1）webdriver打开浏览器；

（2）先对整个屏幕截屏，通过标签定位找到验证码图片，并定位到验证码图片的坐标，然后从先前截屏的图片中截取验证码部分的图片；

（3）通过超级鹰识别验证码上字的坐标；

（4）点击验证码图片上的字；

（5）输入用户名和密码进行登录；

注意：将以下标红部分的账号等信息换成自己的即可成功

from selenium import webdriver

from selenium.webdriver import ActionChains

from chaojiying import  Chaojiying

from PIL import Image

import time

# 用户名和密码是自己的12306账号的用户名和密码

USERNAME =

PASSWORD = 

class Huochepiao():

    def __init__(self):

        self.bro = webdriver.Chrome()

        self.url = 'https://kyfw.12306.cn/otn/login/init'

    def open_browser(self):

        self.bro.get(self.url)

        time.sleep(5)

    # def __del__(self):

    #     self.bro.quit()

    def find_code_img(self):

        # 定位到验证码图片对应的img标签

        code_img = self.bro.find_element_by_class_name('touclick-img-par')

        location = code_img.location

        size = code_img.size

        return (location,size)

    def get_code_img(self,location,size):

        # rangle对应的就是验证码图片的裁剪区域

        rangle = (int(location['x']), int(location['y']), int(location['x'] + size['width']), int(location['y'] + size['height']))

        self.bro.save_screenshot('aa.png')

        i = Image.open('./aa.png')

        frame = i.crop(rangle)              # 根据指定区域实现裁剪

        frame.save('code.png')

    def get_words_locations(self):

        chaojiying = Chaojiying(username, password, softID)         # 超级鹰账号、密码和ID更换即可

        im = open('./code.png', 'rb').read()

        print("超级鹰识别结果：",chaojiying.post_pic(im, 9004))

        result = chaojiying.post_pic(im, 9004)['pic_str']

        print("result:",result)

        # "x1,y1|x2,y2" -->  [['x1','y1'],['x2','y2']]   "x,y"  --> [['x','y']]

        all_coorodinates = []

        if '|' in result:

            li = result.split('|')

            count = len(li)

            for i in range(count):

                xy_list = []

                x = int(li[i].split(',')[0])

                y = int(li[i].split(',')[1])

                xy_list.append(x)

                xy_list.append(y)

                all_coorodinates.append(xy_list)

        else:

            x = int(result.split(',')[0])

            y = int(result.split(',')[1])

            xy_list = []

            xy_list.append(x)

            xy_list.append(y)

            all_coorodinates.append(xy_list)

        print(all_coorodinates)

        return all_coorodinates

    def touch_click_words(self, coorodinates):

        code_img = self.bro.find_element_by_class_name('touclick-img-par')

        for coorodinate in coorodinates:

            x = coorodinate[0]

            y = coorodinate[1]

            ActionChains(self.bro).move_to_element_with_offset(code_img, x, y).click().perform()

    def login(self):

        self.bro.find_element_by_id('username').send_keys(USERNAME)

        self.bro.find_element_by_id('password').send_keys(PASSWORD)

        self.bro.find_element_by_id('loginSub').click()

        time.sleep(10)

    def run(self):

        # 1 打开浏览器

        self.open_browser()

        # 2 找到并获取验证码图片

        location,size = self.find_code_img()

        self.get_code_img(location,size)

        # 3 识别验证码上字的坐标

        all_coorodinates = self.get_words_locations()

        # 4 点击验证码图片上的字

        self.touch_click_words(all_coorodinates)

        # 5 登录

        self.login()

if __name__ == "__main__":

    hcp = Huochepiao()

    hcp.run()

输出结果：

result: 186,86
[[186, 86]]

注意：本篇博文仅供学习交流相关的爬虫知识，请勿过度使用，如有任何纠纷，与本人无关。（瑟瑟发抖）

验证码破解 | Selenium模拟登陆12306的更多相关文章

验证码破解 | Selenium模拟登陆微博
模拟登陆微博相对来说,并不难.验证码是常规的5个随机数字字母的组合,识别起来也比较容易.主要是用到许多Selenium中的知识,如定位标签.输入信息.点击等.如对Selenium的使用并不熟悉,请先移 ...
验证码破解 | Selenium模拟登录简书
使用超级鹰打码平台处理登录的文字点击验证码 import time from io import BytesIO from PIL import Image from selenium import ...
验证码破解 | Selenium模拟登录知乎
import requests import re import execjs import time import hmac from hashlib import sha1 class Zhi ...
Selenium模拟登陆百度贴吧
Selenium模拟登陆百度贴吧 from selenium import webdriver from time import sleep from selenium.webdriver.commo ...
selenium 模拟登陆豆瓣，爬取武林外传的短评
selenium 模拟登陆豆瓣,爬去武林外传的短评: 在最开始写爬虫的时候,抓取豆瓣评论,我们从F12里面是可以直接发现接口的,但是最近豆瓣更新,数据是JS异步加载的,所以没有找到合适的方法爬去,于是 ...
使用selenium模拟登陆新浪微博
1.selenium基本使用 1.selenium安装及基本操作 selenium是一个自动化测试工具,它支持各种浏览器,包括Chrome,Safari,Firefox等主流界面浏览器驱动,也包括Ph ...
使用selenium模拟登陆淘宝、新浪和知乎
如果直接使用selenium访问淘宝.新浪和知乎这些网址.一般会识别出这是自动化测试工具,会有反制措施.当开启开发者模式后,就可以绕过他们的检测啦.(不行的,哭笑) 如果网站只是对windows.na ...
python selenium模拟登陆163邮箱。
selenium是可以模拟浏览器操作. 有些爬虫是异步加载的,通过爬取网页源码是得不到需要的内容.所以可以模拟浏览器去登陆该网站进行爬取操作. 需要安装selenium通过pip install xx ...
Python爬虫 —— 知乎之selenium模拟登陆获取cookies+requests.Session()访问+session序列化
代码如下: # coding:utf-8 from selenium import webdriver import requests import sys import time from lxml ...

随机推荐

Docker-Compose通过文件声明默认的环境变量
写文目的在写本文之前,我在做一个docker-compose项目,这里需要在docker-compose.yml配置中引用到宿主机的ip,然而docker-compose并没有命令行一个输入的选项, ...
java中各种常见的异常
一.各种常见的异常在上一节中程序如果你注意留意,程序抛出的异常是:java.lang.ArithmeticException.这个异常是在lang包中已经定义的.在lang包中还定义了一些我们非常常 ...
springMVC 任意文件读取相关路径
在做检查的时候,发现一个路径是可以去读取文件的,但是平时的/etc/目录下都无法读取到,只能先读取web目录下的文件尝试. 因为知道是springMVC框架,所以可以先尝试该路径 ../../WEB- ...
CENTOS7-JAVA模拟CPU占用高及排查( 转)
环境 centos7 1核2GB Java8 模拟cpu占用高新建一个名为jvm-learn的springboot项目模拟代码如下 import org.springframework.boot. ...
Web前端2019面试总结4
1.span标签的width和height分别为多少? 首先span不是块级元素,是不支持宽高的,但是style中有了个float:left:就使得span变成了块级元素支持宽高,height ...
APS系统如何让企业实现“多赢”？看高博通信是怎么做的
高博通信(上海)有限公司凭籍在超精密产业中的技术积累, 强大的资金优势以及与一流大学的联合,使得其正成为国内超精密电子制造行业的领导者. 雄厚的技术实力和专业的团队赢得了波音,空客公司等国际航空器制造 ...
Java深入学习（6）：Disruptor
Disruptor框架简介: 并发框架,基于事件驱动,使用观察者模式底层采用环形数组,取模算法简单使用: /** * 声明一个Event:表示生产者和消费者之间传递的数据类型 */ public ...
Android-----解析xml文件的三种方式
SAX解析方法介绍: SAX(Simple API for XML)是一个解析速度快并且占用内存少的XML解析器,非常适合用于Android等移动设备.SAX解析XML文件采用的是事件驱动,也就是说, ...
Kafka Streams开发入门(3)
背景上一篇我们介绍了Kafka Streams中的消息过滤操作filter,今天我们展示一个对消息进行转换Key的操作,依然是结合一个具体的实例展开介绍.所谓转换Key是指对流处理中每条消息的Key ...
MyBatis的一级缓存、二级缓存演示以及讲解，序列化异常的处理
MyBatis的缓存机制缓存就是内存中的一个空间,通常用来提高查询效率 MyBatis支持两种缓存技术:一级缓存和二级缓存,其中一级缓存默认开启,二级缓存默认关闭一级缓存 (1)一级缓存默认开启 ...

验证码破解 | Selenium模拟登陆12306

验证码破解 | Selenium模拟登陆12306的更多相关文章

随机推荐

热门专题