pyppeteer 登录一般网站并利用 http方法获取登录页面的验证码

主函数

新建浏览器，进行登录，由于验证码的识别准确率不是百分之百，需要多次尝试。

    async def main(self, username, pwd, url):  # 定义main协程函数，

        login_count = 0

        # 打开浏览器

        browser = await launch(

            {'headless': False, "userDataDir": r"./temp_data", 'args': ['--no-sandbox'], })

        # 登录检测

        while login_count < 10:

            # 登录

            await self.login(browser, username, pwd, url)

            # 检测是否登录成功

            if await self.check_login(browser):

                break

            else:

                login_count += 1

        # 尝试登录次数大于10就退出

        if login_count > 10:

            print("login failed!")

            await browser.close()

            return

		do_something()

        await browser.close()

登录函数

可以替换程序中验证操作函数，实现不同的验证方式。
其中提交过程采用了xpath定位提交按钮。

    async def login(self, browser, username, pwd, url):

        page = await browser.newPage()  # 启动个新的浏览器页面

        await page.setUserAgent(

            'Mozilla/5.0 (Windows NT 6.1; WOW64) '

            'AppleWebKit/537.36 (KHTML, like Gecko) '

            'Chrome/68.0.3440.106 Safari/537.36')

        await page.goto(url)  # 访问登录页面

        # 就是在浏览器运行的时候，始终让window.navigator.webdriver=false

        # navigator是windiw对象的一个属性，同时修改plugins，languages，navigator 且让

        await page.evaluate(

            '''() =>{ Object.defineProperties(navigator,{ webdriver:{ get: () => false } }) }''')

        # 以下为插入中间js，将淘宝会为了检测浏览器而调用的js修改其结果。

        await page.evaluate('''() =>{ window.navigator.chrome = { runtime: {},  }; }''')

        await page.evaluate('''() =>{ Object.defineProperty(navigator,

         'languages', { get: () => ['en-US', 'en'] }); }''')

        await page.evaluate('''() =>{ Object.defineProperty(navigator,

         'plugins', { get: () => [1, 2, 3, 4, 5,6], }); }''')

        time.sleep(2)

        # 使用type选定页面元素，并修改其数值，用于输入账号密码，修改的速度仿人类操作，因为有个输入速度的检测机制

        # 因为 pyppeteer 框架需要转换为js操作，而js和python的类型定义不同，所以写法与参数要用字典，类型导入

        await page.type('#username', username, {'delay': self.input_time_random() - 50})

        await page.type('#password', pwd, {'delay': self.input_time_random()})

        # await page.screenshot({'path': './picture/headless-test-result.png'})    # 截图测试

        time.sleep(1)

        # 验证码操作

		verification_code(page);

        # 点击提交

        submit = await page.xpath("//button[@class='auth_login_btn primary full_width']")

        await submit[0].click()

        time.sleep(1)

验证码识别和输入

我在这里利用了某网站的验证码识别api，通过http方式就能上传验证码图片，并获取验证码。这个网站每天有固定的1000张图片免费次数，足够我们使用。第一个请求链接的用户名和密码换成我们注册该网站的用户名和密码即可。具体可以看官方的API文档。
该网站地址：http://fast.95man.com/

    # 验证码登录

    async def verification_code(self, page):

        await page.waitFor(5 * 1000)                                     # 等待验证码图片加载

        yazhengma = await page.waitForSelector('#captchaImg')            # 定位验证码元素

        await yazhengma.screenshot({'path': './picture/yazhengma.png'})  # 保存验证码图片

        # 获取验证码

        code = self.get_code('./picture/yazhengma.png')

        # 输入验证码

        await page.type('#captchaResponse', code, {'delay': self.input_time_random()})

    def get_code(self, file_path):

            # 以下为GET请求

            url = 'http://api.95man.com:8888/api/Http/UserTaken?user=username&pwd=password&isref=0'

            token_request = requests.get(url)

            token_raw = str(token_request.content)

            # 切片获取token

            token = token_raw[4: -1]

            print(token)

            # 发送图片解析请求

            url = "http://api.95man.com:8888/api/Http/Recog?Taken=" + token + "&imgtype=1&len=4"

            file_path = file_path

            files = {'file': open(file_path, 'rb')}

            # 上传图片

            r = requests.post(url, files=files)

            print(r.url, r.text)

            # 切片获取验证码

            return r.text[6:10]

参考

本文中的验证码像素级保存和获取登录页面时的反反爬操作是参考了别人的博客完成的。

https://www.jianshu.com/p/4dd2737a3048
https://www.jianshu.com/p/a4c4935d5dd7
http://fast.95man.com/auth/quickchk.html

pyppeteer 登录一般网站并利用 http方法获取登录页面的验证码的更多相关文章

利用getComputedStyle方法获取元素css的属性值
在平时的工作中有时候会碰到需要获取元素当前样式的问题,查了一下可以用getComputedStyle这个方法来获取元素计算后的样式(有些我们在css里面没有写的,浏览器默认的样式也可以获得) getC ...
Jquery学习笔记：利用find和children方法获取后代元素
在很多场景下,需要根据一个已知的jquery对象,去查找其满足条件的后代节点. 这时可以利用 find函数和children来处理. find和children函数都可有一个参数,常见的是一个字符串, ...
解决微信公众号授权登录和开放平台微信第三方应用授权登录获取到的用户Openid关联问题
开发背景: 最近一段时间一直在做关于微信方面的网站应用开发,这段时间也收获的不少关于微信开发方面的开发技能,接触的比较多的主要有微信公众号和微信网站app第三方登录授权,以及微信会员卡,优惠券和扫描二 ...
Java分享笔记：使用keySet方法获取Map集合中的元素
/*--------------------------- Map集合中利用keySet方法获取所有的元素值: ....keySet方法:将Map中的所有key值存入到Set集合中, ....利用Se ...
MVC3控制器方法获取Form数据方法
http://www.cnblogs.com/bianlan/archive/2013/01/12/2857310.html 控制器方法获取View页面传送的数据有多种方法,以Edit方法为例: 1. ...
利用SQL注入漏洞登录后台的实现方法
利用SQL注入漏洞登录后台的实现方法作者: 字体:[增加减小] 类型:转载时间:2012-01-12我要评论工作需要,得好好补习下关于WEB安全方面的相关知识,故撰此文,权当总结,别无它意.读 ...
Java 爬虫遇到需要登录的网站，该怎么办？
这是 Java 网络爬虫系列博文的第二篇,在上一篇 Java 网络爬虫,就是这么的简单中,我们简单的学习了一下如何利用 Java 进行网络爬虫.在这一篇中我们将简单的聊一聊在网络爬虫时,遇到需要登录 ...
2020.10.20 利用POST请求模拟登录知乎
前两天学习了Python的requests模块的相关内容,对于用GET和PSOT请求访问网页以抓取需要的内容有了初步的了解,想要再从一些复杂的网站积累些经验.最开始我采用最简单的get(url)方法想 ...
MVC5 网站开发之六管理员 1、登录、验证和注销
上次业务逻辑和展示层的架构都写了,可以开始进行具体功能的实现,这次先实现管理员的登录.验证和注销功能. 目录奔跑吧,代码小哥! MVC5网站开发之一总体概述 MVC5 网站开发之二创建项目 MV ...

随机推荐

掉电后osdmap丢失无法启动osd的解决方案
前言本篇讲述的是一个比较极端的故障的恢复场景,在整个集群全部服务器突然掉电的时候,osd里面的osdmap可能会出现没刷到磁盘上的情况,这个时候osdmap的最新版本为空或者为没有这个文件还有一种 ...
SQL Server 数据库开启日志CDC记录，导致SQL Server 数据库日志异常增大
这几天单位的SQL Server业务数据生产库出现数据库日志增长迅速,导致最终数据无法写入数据库,业务系统提示"数据库事务日志已满",经过多方咨询和请教,终于将日志异常的数据库处理 ...
conda / cuda / screen 常用命令总结
记录一些常用的 conda / cuda / screen 相关的命令,这些在跑深度学习代码时经常用到. conda 下面的命令在 Ubuntu 下的 4.8.3 版本 conda 均正确工作. 查看 ...
《Spring Boot 实战纪实》之需求管理
目录前言 (思维篇)人人都是产品经理 1.需求文档 1.1 需求管理 1.2 如何攥写需求文档 1.3 需求关键点文档 2 原型设计 2.1 缺失的逻辑 2.2 让想法跃然纸上 3 开发设计文档 3 ...
deepin 安装最新版node
安装npm sudo apt install npm 安装node sudo npm install -g n 升级node到稳定版 sudo n stable 升级到最新版 sudo n lates ...
docker 国内源切换加速
阿里云比较好: 地址: https://cr.console.aliyun.com/cn-hangzhou/instances/mirrors
sql字段长度等于
select count(*) from boc_loan_apply where length(birthday)=7;
css中渐变的分割线和自定义滚动条样式
css中渐变的分隔线: <div style="background:linear-gradient(to left,#efefef,#b6b6b6,#efefef);height:1 ...
看看吧！月薪20K以上的程序员才能全部掌握RabbitMq知识，你掌握了多少
一.RabbitMq基础知识 0.概述消息队列的作用就是接收消息生产者的消息,然后将消息发送到消费者 1.信道channel 我的理解是生产者/消费者和rabbitmq交互的一个通道,负责交换机.队 ...
ABBYY FineReader 15 文档转换功能
我们平常工作的时候总会固定地只用某几个文档格式,有的人经常使用office,所以电脑内就没安装PDF阅读器,这个时候就需要文档转换器了,ABBYY FineReader 15 也能够帮助我们实现快速的 ...

pyppeteer 登录一般网站 并利用 http方法获取登录页面的验证码

主函数

登录函数

验证码识别和输入

参考

pyppeteer 登录一般网站 并利用 http方法获取登录页面的验证码的更多相关文章

随机推荐

热门专题

pyppeteer 登录一般网站并利用 http方法获取登录页面的验证码

pyppeteer 登录一般网站并利用 http方法获取登录页面的验证码的更多相关文章