验证码破解 | Selenium模拟登陆微博

模拟登陆微博相对来说，并不难。验证码是常规的5个随机数字字母的组合，识别起来也比较容易。主要是用到许多Selenium中的知识，如定位标签、输入信息、点击等。如对Selenium的使用并不熟悉，请先移驾《Python爬虫 | Selenium详解》。相信你再来看本篇一定可以看懂。

破解微博登陆的思路：

（1）使用webdriver打开微博网页；

（2）输入用户名和密码，点击登录；

（3）对第二步的结果进行判断

情况一：用户名或者密码错误
情况二：登录成功
情况三：出现验证码图片，需识别
情况四：其他错误

（4）本例中增加了登录成功后获得cookies的情况

import requests

from requests import RequestException

from selenium import webdriver

from selenium.common.exceptions import NoSuchElementException, TimeoutException

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

from chaojiying import Chaojiying

# 超级鹰用户名、密码、软件ID、

CHAOJIYING_USERNAME =

CHAOJIYING_PASSWORD =

CHAOJIYING_SOFT_ID =

CHAOJIYING_KIND = 1006

class LoginWeibo():

    def __init__(self, username, password):

        self.url = 'https://www.weibo.com'

        self.browser = webdriver.Chrome(executable_path='D:\download\pythonRelated\chromedriver.exe')

        self.wait = WebDriverWait(self.browser, 20)

        self.username = username

        self.password = password

        self.chaojiying = Chaojiying(CHAOJIYING_USERNAME, CHAOJIYING_PASSWORD, CHAOJIYING_SOFT_ID)

    # def __del__(self):

    #     self.browser.close()

    def open(self):

        """

        打开网页输入用户名密码

        :return: None

        """

        self.browser.get(self.url)

        username = self.wait.until(EC.presence_of_element_located((By.ID, 'loginname')))

        password = self.wait.until(EC.presence_of_element_located((By.NAME, 'password')))

        username.send_keys(self.username)

        password.send_keys(self.password)

    def get_click_button(self):

        '''

        找到登录按钮

        :return:

        '''

        '''

        <a href="javascript:void(0)" class="W_btn_a btn_32px " action-type="btn_submit" node-type="submitBtn" suda-data="key=tblog_weibologin3&amp;value=click_sign" tabindex="6"><span node-type="submitStates">登录</span></a>

        '''

        button = self.wait.until(EC.element_to_be_clickable((By.CLASS_NAME, 'W_btn_a')))

        return button

    def login_successfully(self):

        """

        判断登陆是否成功

        :return:

        """

        '''

        登录成功才能看到

        <em class="W_ficon ficon_mail S_ficon">I</em>

        '''

        try:

            return bool(

                WebDriverWait(self.browser, 5).until(EC.presence_of_element_located((By.CSS_SELECTOR, '.ficon_mail')))

            )

        except TimeoutException:

            return False

    def get_click_image(self, name='captcha.png'):

        """

        获取验证码图片

        :param name:

        :return: 图片对象

        """

        try:

            '''

            <img width="95" height="34" action-type="btn_change_verifycode" node-type="verifycode_image" src="https://login.sina.com.cn/cgi/pin.php?r=88815771&amp;s=0&amp;p=gz-66c0488ef9191010d88bea8c9f3a09fdf3bf">

            '''

            element = self.wait.until(

                EC.presence_of_element_located((By.XPATH, '//img[@action-type="btn_change_verifycode"]')))

            image_url = element.get_attribute('src')

            image = get_html(image_url).content

            with open(name, 'wb') as f:

                f.write(image)

            return image

        except NoSuchElementException:

            print('')

        return None

    def password_error(self):

        """

        判断是否密码错误

        :return:

        """

        try:

            element = WebDriverWait(self.browser, 5).until(

                EC.presence_of_element_located((By.XPATH, '//div[@class="W_layer W_layer_pop"]/div/p/span[2]')))

            print(element.text)

            if element.text == '用户名或密码错误。':

                return True

        except TimeoutException:

            return False

    def get_cookies(self):

        """

        获取Cookies

        :return:

        """

        print(self.browser.get_cookies())

        return self.browser.get_cookies()

    def login(self):

        # 1. 打开网址 输入用户名和密码

        self.open()

        # 2. 点击登录按钮

        button = self.get_click_button()

        button.click()

        if self.password_error():

            print('用户名或密码错误')

            return {

                'status': 2,

                'content': '用户名或密码错误'

            }

        if self.login_successfully():

            print('登录成功')

            # 获取帐号对应的cookies

            cookies = self.get_cookies()

            return {

                'status': 1,

                'content': cookies

            }

        else:                                   # 有时会需要验证码

            # 获取验证码图片

            image = self.get_click_image()

            # 识别验证码

            result = self.chaojiying.post_pic(image, CHAOJIYING_KIND)

            print(result)

            # 输入验证码

            '''

            <input type="text" class="W_input " maxlength="6" autocomplete="off" value="验证码" action-data="text=请输入验证码" action-type="text_copy" name="verifycode" node-type="verifycode" tabindex="3">

            '''

            verifycode = self.wait.until(EC.presence_of_element_located((By.NAME, 'verifycode')))

            verifycode.send_keys(result['pic_str'])

            # 点击登录按钮

            button = self.get_click_button()

            button.click()

            if self.login_successfully():

                print('登录成功')

                # 获取帐号对应的cookies

                cookies = self.get_cookies()

                return {

                    'status': 1,

                    'content': cookies

                }

            else:

                self.chaojiying.report_error(result['pic_id'])

                self.login()

                # return {

                #     'status': 3,

                #     'content': '登录失败'

                # }

def get_html(url):

    try:

        # 添加User-Agent，放在headers中，伪装成浏览器

        headers = {

            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'

        }

        response = requests.get(url, headers=headers)

        if response.status_code == 200:

            response.encoding = response.apparent_encoding

            return response

        return None

    except RequestException:

        return None

if __name__ == '__main__':

    result = LoginWeibo('username', 'password').login()

本篇博文仅供学习交流相关的爬虫知识，请勿过度使用，如有任何纠纷，与本人无关。（瑟瑟发抖）

验证码破解 | Selenium模拟登陆微博的更多相关文章

验证码破解 | Selenium模拟登陆12306
12306官网登录的验证码破解比较简单,验证码是常规的点触类型验证码,使用超级鹰识别率比较高. 思路: (1)webdriver打开浏览器: (2)先对整个屏幕截屏,通过标签定位找到验证码图片,并定位 ...
验证码破解 | Selenium模拟登录简书
使用超级鹰打码平台处理登录的文字点击验证码 import time from io import BytesIO from PIL import Image from selenium import ...
验证码破解 | Selenium模拟登录知乎
import requests import re import execjs import time import hmac from hashlib import sha1 class Zhi ...
Selenium模拟登陆百度贴吧
Selenium模拟登陆百度贴吧 from selenium import webdriver from time import sleep from selenium.webdriver.commo ...
selenium 模拟登陆豆瓣，爬取武林外传的短评
selenium 模拟登陆豆瓣,爬去武林外传的短评: 在最开始写爬虫的时候,抓取豆瓣评论,我们从F12里面是可以直接发现接口的,但是最近豆瓣更新,数据是JS异步加载的,所以没有找到合适的方法爬去,于是 ...
使用selenium模拟登陆淘宝、新浪和知乎
如果直接使用selenium访问淘宝.新浪和知乎这些网址.一般会识别出这是自动化测试工具,会有反制措施.当开启开发者模式后,就可以绕过他们的检测啦.(不行的,哭笑) 如果网站只是对windows.na ...
使用selenium模拟登陆新浪微博
1.selenium基本使用 1.selenium安装及基本操作 selenium是一个自动化测试工具,它支持各种浏览器,包括Chrome,Safari,Firefox等主流界面浏览器驱动,也包括Ph ...
关于模拟登陆微博（PC）
微博模拟登陆 1.基类对象的方法建立一个类__init__初始化方法,接收username和password. class launcher(): def __init__(self, usernam ...
python selenium模拟登陆163邮箱。
selenium是可以模拟浏览器操作. 有些爬虫是异步加载的,通过爬取网页源码是得不到需要的内容.所以可以模拟浏览器去登陆该网站进行爬取操作. 需要安装selenium通过pip install xx ...

随机推荐

Python 3 + Selenium 3 简单入门学习示例 126邮箱登录
这是一个很多基础演示的书上的例子,但是一般按照这些书上的代码可能都不能成功登录.也许是网易修改了126的页面导致的吧,下面给出最新的能够work的版本 from selenium import web ...
Prometheus 基于文件的服务发现
Prometheus 基于文件的服务发现官方文档:https://github.com/prometheus/prometheus/tree/master/discovery 服务发现支持: end ...
npm是干什么的(转)
原文:https://zhuanlan.zhihu.com/p/24357770 网上的 npm 教程主要都在讲怎么安装.配置和使用 npm,却不告诉新人「为什么要使用 npm」.今天我就来讲讲这个话 ...
Scala 系列（十一）—— 模式匹配
一.模式匹配 Scala 支持模式匹配机制,可以代替 swith 语句.执行类型检查.以及支持析构表达式等. 1.1 更好的swith Scala 不支持 swith,可以使用模式匹配 match.. ...
Apache Tomcat 9.0 Tomcat9 服务无法启动。发生服务特定错误: 4.
在Tomcat的安装目录下,bin文件夹里面找到tomcat9w.exe 双击进去,将第四页java里面第一个复选框Use default 选中保存即可启动tomcat9服务
关于vscode自动跳转回车的解决方法（关闭vscode自动保存功能；可能和其他插件有冲突）
关于vscode自动跳转回车的解决方法(关闭vscode自动保存功能:可能和其他插件有冲突)
npm安装时-S -D作用及区别
-S 即--save(保存) 包名会被注册在package.json的dependencies里面,在生产环境下这个包的依赖依然存在 -D 即--dev(生产) 包名会被注册在package.json ...
使用node+vue实现简单的WebSocket聊天功能
最近学习了一下websocket的即时通信,感觉非常的强大,这里我用node启动了一个服务进行websocket链接,然后再vue的view里面进行了链接,进行通信,废话不多说,直接上代码吧, 首先, ...
vue组件4 利用slot将内容传递给组件
除了将数据作为prop传入到组件中,vue也允许传入HTML 父组件中的子组件:<custom-button>点我<custom-button/> custom-button子 ...
浏览器渲染html的过程
关于浏览器如何渲染html界面一直不太清晰,所以现在理一理.由于本身对前深入的东西不太清晰,这篇博客更多的是在记录. 参考:https://www.cnblogs.com/dojo-lzz/p/398 ...

验证码破解 | Selenium模拟登陆微博

验证码破解 | Selenium模拟登陆微博的更多相关文章

随机推荐

热门专题