如何巧妙的利用selenium和requests组合来进行操作需要登录的页面

一、在这里selenium的作用

（1）模拟的登录。

（2）获取登录成功之后的cookies

代码

    def start_login(self):

        chrome_options = Options()

        # 禁止图片加载,禁止推送通知

        prefs = {

            "profile.default_content_setting_values": {

                "images": 2

            }, "profile.default_content_setting_values.notifications": 2

        }

        chrome_options.add_experimental_option("prefs", prefs)

        if chrome_args().get("headless_flag") == "1":

            chrome_options.add_argument(chrome_args().get("headless"))

        chrome_options.add_argument(chrome_args().get("nogpu"))

        chrome_options.add_argument(chrome_args().get("noinfobars"))

        chrome_options.add_argument(chrome_args().get("max_windows"))

        chrome_options.add_argument(self.Proxy_server)

        driver = webdriver.Chrome(chrome_options=chrome_options)

        try:

            get_logger().info("start login.....")

            try:

                # login info

                self.login_name = self.loginInfo.get("login_id")

                self.password = aes_cbc_decrypt(self.loginInfo.get("login_pwd"))

            except Exception:

                get_logger().error("cant get login info,here are detals".format(traceback.format_exc()))

            wait = WebDriverWait(driver, 30)

            print(u"start login in")

            driver.get(self.login_url)

            try:

                login_id = wait.until(

                    eccd.presence_of_element_located(

                        (By.XPATH, self.Id_xpath))

                )

                login_id.send_keys(self.login_name)

                login_id.send_keys(Keys.ENTER)

                password = wait.until(

                    eccd.presence_of_element_located(

                        (By.XPATH, self.pwd_xpath))

                )

                password.send_keys(self.password)

                submit = wait.until(

                    eccd.presence_of_element_located(

                        (By.XPATH, self.login_btn_xpath))

                )

                submit.click()

                # login signal

                #判断是否显示 右上角是否显示用户名

                login_ok = wait.until(

                    eccd.presence_of_element_located(

                        (By.XPATH, self.login_ok_xpath))

                )

                try:

                    #判断登录成功

                    if login_ok:

                        get_logger().info("get user name successful:"+u"{}".format(login_ok.text))

                        try:

                            get_weibo_info=driver.find_element_by_xpath(self.forward_home_page)

                        except:

                            driver.get(self.first_page)

                        forward_home_page_ok = wait.until(

                              eccd.presence_of_element_located(

                                  (By.XPATH, self.forward_home_page))

                          )

                        forward_home_page_ok.click()

                        time.sleep(5)

                        self.first_page=driver.current_url

                        get_logger().info("get homepage successful,url is {}".format(driver.current_url))

                        cookies = driver.get_cookies()  # 导出cookie

                        get_logger().info("get cookies")

                        get_fansnum_ok= wait.until(

                                eccd.presence_of_element_located(

                                    (By.XPATH, self.follow_xpath))

                        )

                        self.get_followfanshome(driver)

                        get_logger().info("get_followfanshome ok")

                        self.home_page_source=driver.page_source

                        driver.close()  # 关闭chrome

                        #获取主页的

                        # 如果需要保存cookies

                        self.write_cookie(cookies)

                        get_logger().info("get cookies,login ok")

                        return cookies

                    else:

                        raise RuntimeError('login failed')

                except:

                    get_logger().error("login failed")

                    return None

            except:

                if driver is not None:

                    driver.close()

        except Exception as e:

            if driver is not None:

                driver.close()

                get_logger().error("dbs operation error，here are details:{}".format(traceback.format_exc()))

　通过使用cookies = driver.get_cookies() #我们获取了cookie那么我们怎用呢。

二、requests如何使用获取到的cookies

1.创建一个Session对象

req = requests.Session()  # 构建Session

2.转换上面的cookies对象

for cookie in cookies:

            req.cookies.set(cookie['name'], cookie['value'])  # 转换cookies

3.开始访问该网站的需求页面

data = req.get(url, headers=self.headers).text #获取文本网页

jsondata = req.get(url, headers=self.headers).json() #获取json型网页

　　好了就是这么简单，另外补充一个经常使用的库fake-useragent，可以获取随机的useragent，但是其中谷歌的useragent版本比较低，尤其在访问知乎的时候，会提示浏览器版本低的信息，这一点需要注意。

另外拥有一个headers是对爬虫起码的尊重，所以有个构建好的headers是非常必要的。我就经常用下面的例：

from fake_useragent import UserAgent as UA

import random

headers = {

            'Accept': 'text/html, application/xhtml+xml, image/jxr, */*',

            'Accept - Encoding': 'gzip, deflate',

            'Accept-Language': 'zh-Hans-CN, zh-Hans; q=0.5',

            'Connection': 'Keep-Alive',

            'User-Agent': UA().random #获取随机的useragent

        }

如何巧妙的利用selenium和requests组合来进行操作需要登录的页面的更多相关文章

【python爬虫】利用selenium和Chrome浏览器进行自动化网页搜索与浏览
功能简介:利用利用selenium和Chrome浏览器,让其自动打开百度页面,并设置为每页显示50条,接着在百度的搜索框中输入selenium,进行查询.然后再打开的页面中选中“Selenium - ...
requests利用selenium,代理Ip,云打码，验证码抠图操作爬取搜狗微信公众号内容
爬取思路,爬取搜狗微信公众号内容,爬取第一层url时请求太快出现验证码,我这里用的蘑菇云代理,并在程序中我判断什么情况下是否+代理,做到合理运用代理ip.爬取第二层url时验证码出现次数更严重(和第一 ...
利用Selenium自动化web测试
简介: Selenium 是一个没有正式指导手册的开源项目,这让测试人员的问题调查很费时间.本文为基于 Selenium 1.0(发布于 2009 年 6 月)的测试期间的常见问题提供最佳实践. 简介 ...
利用Selenium和Browsermob批量嗅探下载Bilibili网站视频
Rerence: http://www.liuhao.me/2016/09/20/selenium_browsermob_sniff_bilibili_video/ 日常生活中,用电脑看视频是非常频繁 ...
Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
更新其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 可就在今天,淘宝把所有的账号设置成了匿名显示,SO,获取非匿名旺旺号已经 ...
python中用分别用selenium、requests库实现Windows认证登录
最近在搞单位的项目,实现python自动化,结果在第一步就把我给拒之门外,查资料问大佬,问我们开发人员,从周一折腾到周五才搞定了接下给大家分享一下项目背景:我们系统是基于Windows平台实现的, ...
利用selenium模拟登陆
第一部:利用selenium登陆导入selenium库 from selenium import webdriver 明确模拟浏览器在电脑中存放的位置,比如我存在当前目录 chromePath = ...
python利用selenium库识别点触验证码
利用selenium库和超级鹰识别点触验证码(学习于静谧大大的书,想自己整理一下思路) 一.超级鹰注册:超级鹰入口 1.首先注册一个超级鹰账号,然后在超级鹰免费测试地方可以关注公众号,领取1000积分 ...
利用selenium爬取京东商品信息存放到mongodb
利用selenium爬取京东商城的商品信息思路: 1.首先进入京东的搜索页面,分析搜索页面信息可以得到路由结构 2.根据页面信息可以看到京东在搜索页面使用了懒加载,所以为了解决这个问题,使用递归.等待 ...

随机推荐

Windows使用问题总结
1 电脑休眠恢复之后无法识别Wifi无线网络首先,重启电脑:其次,打开网络和共享中心,点击更改适配器设置:最后,在对应的无线网络连接图标上点击鼠标右键,属性,配置,电源选项,允许计算机关闭此设备以节 ...
MySQL创建用户与授权
一. 创建用户命令: CREATE USER 'username'@'host' IDENTIFIED BY 'password'; 说明: username:你将创建的用户名 host:指定该用户 ...
日程管理 FullCalendar
日程管理,采用著名组件FullCalendar日历插件实现FullCalendar提供了丰富的属性设置和方法调用,开发者可以根据FullCalendar提供的API快速完成一个日历日程的开发1.实现按 ...
Java中Excel表格的上传与下载
详见:http://blog.csdn.net/lzh657083979/article/details/73252585
mysql常用脚本及命令记录
mysql导出用户权限 mysql中直接通过授权即可使用对应用户,不必使用创建用户命令(如CREATE USER 'xxx'@'%' IDENTIFIED BY 'XXX';)先建用户再授权. 方法一 ...
依赖Aspose.Cells Excel 导出
public static void SaveExcel() { //新建工作簿 Workbook workbook = new Workbook(); //工作簿 Worksheet sheet = ...
自动提取文章摘要AutoSummary
在文本搜索引擎项目中,需要对已排序的文章进行摘要提取,然后与标题,路径一起封装成Json数据返回客户端.因此这里我自己写一个自动摘要,来大概完成这个任务.在自动摘要提取过程中,使用了一个分词库:Cpp ...
canvas API总结
从简单的基本图形,到复杂炫酷的动画,通过canvas元素获取的2D图形渲染上下文CanvasRenderingContext2D,能够使用丰富的API来进行图形绘制.这篇文章将会总结在之前的canva ...
DOS下串口通信程序来传送文件的源代码
接收程序: #include <dos.h>#include <fstream.h>#include <conio.h>#include <stdio.h&g ...
linux内核initrd文件自定义方法
linux内核initrd文件自定义方法重新编译内核后,可能加入了自定义的模块,就有可能需要修改init文件,而init文件就在initrd中,这里记录下操作步骤,以防遗忘. 1. cp /bo ...