如何巧妙的利用selenium和requests组合来进行操作需要登录的页面

一、在这里selenium的作用

（1）模拟的登录。

（2）获取登录成功之后的cookies

代码

    def start_login(self):

        chrome_options = Options()

        # 禁止图片加载,禁止推送通知

        prefs = {

            "profile.default_content_setting_values": {

                "images": 2

            }, "profile.default_content_setting_values.notifications": 2

        }

        chrome_options.add_experimental_option("prefs", prefs)

        if chrome_args().get("headless_flag") == "1":

            chrome_options.add_argument(chrome_args().get("headless"))

        chrome_options.add_argument(chrome_args().get("nogpu"))

        chrome_options.add_argument(chrome_args().get("noinfobars"))

        chrome_options.add_argument(chrome_args().get("max_windows"))

        chrome_options.add_argument(self.Proxy_server)

        driver = webdriver.Chrome(chrome_options=chrome_options)

        try:

            get_logger().info("start login.....")

            try:

                # login info

                self.login_name = self.loginInfo.get("login_id")

                self.password = aes_cbc_decrypt(self.loginInfo.get("login_pwd"))

            except Exception:

                get_logger().error("cant get login info,here are detals".format(traceback.format_exc()))

            wait = WebDriverWait(driver, 30)

            print(u"start login in")

            driver.get(self.login_url)

            try:

                login_id = wait.until(

                    eccd.presence_of_element_located(

                        (By.XPATH, self.Id_xpath))

                )

                login_id.send_keys(self.login_name)

                login_id.send_keys(Keys.ENTER)

                password = wait.until(

                    eccd.presence_of_element_located(

                        (By.XPATH, self.pwd_xpath))

                )

                password.send_keys(self.password)

                submit = wait.until(

                    eccd.presence_of_element_located(

                        (By.XPATH, self.login_btn_xpath))

                )

                submit.click()

                # login signal

                #判断是否显示 右上角是否显示用户名

                login_ok = wait.until(

                    eccd.presence_of_element_located(

                        (By.XPATH, self.login_ok_xpath))

                )

                try:

                    #判断登录成功

                    if login_ok:

                        get_logger().info("get user name successful:"+u"{}".format(login_ok.text))

                        try:

                            get_weibo_info=driver.find_element_by_xpath(self.forward_home_page)

                        except:

                            driver.get(self.first_page)

                        forward_home_page_ok = wait.until(

                              eccd.presence_of_element_located(

                                  (By.XPATH, self.forward_home_page))

                          )

                        forward_home_page_ok.click()

                        time.sleep(5)

                        self.first_page=driver.current_url

                        get_logger().info("get homepage successful,url is {}".format(driver.current_url))

                        cookies = driver.get_cookies()  # 导出cookie

                        get_logger().info("get cookies")

                        get_fansnum_ok= wait.until(

                                eccd.presence_of_element_located(

                                    (By.XPATH, self.follow_xpath))

                        )

                        self.get_followfanshome(driver)

                        get_logger().info("get_followfanshome ok")

                        self.home_page_source=driver.page_source

                        driver.close()  # 关闭chrome

                        #获取主页的

                        # 如果需要保存cookies

                        self.write_cookie(cookies)

                        get_logger().info("get cookies,login ok")

                        return cookies

                    else:

                        raise RuntimeError('login failed')

                except:

                    get_logger().error("login failed")

                    return None

            except:

                if driver is not None:

                    driver.close()

        except Exception as e:

            if driver is not None:

                driver.close()

                get_logger().error("dbs operation error，here are details:{}".format(traceback.format_exc()))

　通过使用cookies = driver.get_cookies() #我们获取了cookie那么我们怎用呢。

二、requests如何使用获取到的cookies

1.创建一个Session对象

req = requests.Session()  # 构建Session

2.转换上面的cookies对象

for cookie in cookies:

            req.cookies.set(cookie['name'], cookie['value'])  # 转换cookies

3.开始访问该网站的需求页面

data = req.get(url, headers=self.headers).text #获取文本网页

jsondata = req.get(url, headers=self.headers).json() #获取json型网页

　　好了就是这么简单，另外补充一个经常使用的库fake-useragent，可以获取随机的useragent，但是其中谷歌的useragent版本比较低，尤其在访问知乎的时候，会提示浏览器版本低的信息，这一点需要注意。

另外拥有一个headers是对爬虫起码的尊重，所以有个构建好的headers是非常必要的。我就经常用下面的例：

from fake_useragent import UserAgent as UA

import random

headers = {

            'Accept': 'text/html, application/xhtml+xml, image/jxr, */*',

            'Accept - Encoding': 'gzip, deflate',

            'Accept-Language': 'zh-Hans-CN, zh-Hans; q=0.5',

            'Connection': 'Keep-Alive',

            'User-Agent': UA().random #获取随机的useragent

        }

如何巧妙的利用selenium和requests组合来进行操作需要登录的页面的更多相关文章

【python爬虫】利用selenium和Chrome浏览器进行自动化网页搜索与浏览
功能简介:利用利用selenium和Chrome浏览器,让其自动打开百度页面,并设置为每页显示50条,接着在百度的搜索框中输入selenium,进行查询.然后再打开的页面中选中“Selenium - ...
requests利用selenium,代理Ip,云打码，验证码抠图操作爬取搜狗微信公众号内容
爬取思路,爬取搜狗微信公众号内容,爬取第一层url时请求太快出现验证码,我这里用的蘑菇云代理,并在程序中我判断什么情况下是否+代理,做到合理运用代理ip.爬取第二层url时验证码出现次数更严重(和第一 ...
利用Selenium自动化web测试
简介: Selenium 是一个没有正式指导手册的开源项目,这让测试人员的问题调查很费时间.本文为基于 Selenium 1.0(发布于 2009 年 6 月)的测试期间的常见问题提供最佳实践. 简介 ...
利用Selenium和Browsermob批量嗅探下载Bilibili网站视频
Rerence: http://www.liuhao.me/2016/09/20/selenium_browsermob_sniff_bilibili_video/ 日常生活中,用电脑看视频是非常频繁 ...
Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
更新其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 可就在今天,淘宝把所有的账号设置成了匿名显示,SO,获取非匿名旺旺号已经 ...
python中用分别用selenium、requests库实现Windows认证登录
最近在搞单位的项目,实现python自动化,结果在第一步就把我给拒之门外,查资料问大佬,问我们开发人员,从周一折腾到周五才搞定了接下给大家分享一下项目背景:我们系统是基于Windows平台实现的, ...
利用selenium模拟登陆
第一部:利用selenium登陆导入selenium库 from selenium import webdriver 明确模拟浏览器在电脑中存放的位置,比如我存在当前目录 chromePath = ...
python利用selenium库识别点触验证码
利用selenium库和超级鹰识别点触验证码(学习于静谧大大的书,想自己整理一下思路) 一.超级鹰注册:超级鹰入口 1.首先注册一个超级鹰账号,然后在超级鹰免费测试地方可以关注公众号,领取1000积分 ...
利用selenium爬取京东商品信息存放到mongodb
利用selenium爬取京东商城的商品信息思路: 1.首先进入京东的搜索页面,分析搜索页面信息可以得到路由结构 2.根据页面信息可以看到京东在搜索页面使用了懒加载,所以为了解决这个问题,使用递归.等待 ...

随机推荐

使用 Homebrew 安装 Git
3.2.3 使用 Homebrew 安装 Git 2011-07-27 08:52 蒋鑫机械工业出版社字号:T | T 综合评级: 想读(13) 在读(6) 已读(8) 品书斋鉴(1) ...
iOS开发中UIPopoverController的使用详解
这篇文章主要介绍了iOS开发中UIPopoverController的使用,代码基于传统的Objective-C,需要的朋友可以参考下一.简单介绍 1.什么是UIPopoverController ...
appium+Python 启动app（三）登录
我们根据前面的知识点,用uiautomatorviewer工具来获取我们当前的元素 (注:uiautomatorviewer 是 android sdk 自带的) 知识点:appium的webdriv ...
bzoj 2209 [Jsoi2011]括号序列平衡树
2209: [Jsoi2011]括号序列 Time Limit: 20 Sec Memory Limit: 259 MBSubmit: 1404 Solved: 699[Submit][Statu ...
MySQL安装与使用过程中的相关问题
数据库远程连接拒绝访问解决办法: 1. 改表法.可能是你的帐号不允许从远程登陆,只能在localhost.这个时候只要在localhost的那台电脑,登入mysql后,更改 "mysql&q ...
jsz中的作用域与上下文
var x=10; function fun() { console.log(x);//10 } function demo(f) { if(f instanceof Function){ fun() ...
java3 - 流程控制
一.Java 有三种主要的循环结构: 需求:分别使用三种循环将 1 到 100 的整数输出到控制台. 1.for 循环 for(初始化语句; 布尔表达式语句; 更新语句) { //循环体内容 } 示列 ...
Centos下_MysqL5.7在使用mysqldump命令备份数据库报错：mysqldump: [Warning] Using a password on the command line interface can be insecure.
在阿里云服务器增加一个shell脚本定时备份数据库脚本执行任务时,测试性的执行了备份命令,如下 [root@iZ2ze503xw2q1fftv5rhboZ mysql_bak]# /usr/local ...
阿里巴巴十年Java架构师分享，会了这个知识点的人都去BAT了
1.源码分析专题详细介绍源码中所用到的经典设计思想,看看大牛是如何写代码的,提升技术审美.提高核心竞争力. 帮助大家寻找分析源码的切入点,在思想上来一次巨大的升华.知其然,并知其所以然.把知识变成自 ...
UVA1602
实现的细节很多,学到了如何翻转.旋转.平移,get很多技巧,值得一做. AC代码: #include<cstdio> #include<cstring> #include< ...