如何巧妙的利用selenium和requests组合来进行操作需要登录的页面
一、在这里selenium的作用
(1)模拟的登录。
(2)获取登录成功之后的cookies
代码
def start_login(self):
chrome_options = Options()
# 禁止图片加载,禁止推送通知
prefs = {
"profile.default_content_setting_values": {
"images": 2
}, "profile.default_content_setting_values.notifications": 2
}
chrome_options.add_experimental_option("prefs", prefs)
if chrome_args().get("headless_flag") == "1":
chrome_options.add_argument(chrome_args().get("headless"))
chrome_options.add_argument(chrome_args().get("nogpu"))
chrome_options.add_argument(chrome_args().get("noinfobars"))
chrome_options.add_argument(chrome_args().get("max_windows"))
chrome_options.add_argument(self.Proxy_server) driver = webdriver.Chrome(chrome_options=chrome_options)
try:
get_logger().info("start login.....")
try:
# login info
self.login_name = self.loginInfo.get("login_id")
self.password = aes_cbc_decrypt(self.loginInfo.get("login_pwd"))
except Exception:
get_logger().error("cant get login info,here are detals".format(traceback.format_exc()))
wait = WebDriverWait(driver, 30)
print(u"start login in")
driver.get(self.login_url)
try:
login_id = wait.until(
eccd.presence_of_element_located(
(By.XPATH, self.Id_xpath))
)
login_id.send_keys(self.login_name)
login_id.send_keys(Keys.ENTER)
password = wait.until(
eccd.presence_of_element_located(
(By.XPATH, self.pwd_xpath))
)
password.send_keys(self.password)
submit = wait.until(
eccd.presence_of_element_located(
(By.XPATH, self.login_btn_xpath))
)
submit.click()
# login signal
#判断是否显示 右上角是否显示用户名
login_ok = wait.until(
eccd.presence_of_element_located(
(By.XPATH, self.login_ok_xpath))
)
try:
#判断登录成功
if login_ok:
get_logger().info("get user name successful:"+u"{}".format(login_ok.text))
try:
get_weibo_info=driver.find_element_by_xpath(self.forward_home_page)
except: driver.get(self.first_page) forward_home_page_ok = wait.until(
eccd.presence_of_element_located(
(By.XPATH, self.forward_home_page))
)
forward_home_page_ok.click()
time.sleep(5)
self.first_page=driver.current_url
get_logger().info("get homepage successful,url is {}".format(driver.current_url))
cookies = driver.get_cookies() # 导出cookie
get_logger().info("get cookies")
get_fansnum_ok= wait.until(
eccd.presence_of_element_located(
(By.XPATH, self.follow_xpath))
)
self.get_followfanshome(driver)
get_logger().info("get_followfanshome ok")
self.home_page_source=driver.page_source
driver.close() # 关闭chrome
#获取主页的
# 如果需要保存cookies
self.write_cookie(cookies)
get_logger().info("get cookies,login ok")
return cookies else:
raise RuntimeError('login failed')
except:
get_logger().error("login failed")
return None except:
if driver is not None:
driver.close()
except Exception as e:
if driver is not None:
driver.close()
get_logger().error("dbs operation error,here are details:{}".format(traceback.format_exc()))
通过使用cookies = driver.get_cookies() #我们获取了cookie那么我们怎用呢。
二、requests如何使用获取到的cookies
1.创建一个Session对象
req = requests.Session() # 构建Session
2.转换上面的cookies对象
for cookie in cookies:
req.cookies.set(cookie['name'], cookie['value']) # 转换cookies
3.开始访问该网站的需求页面
data = req.get(url, headers=self.headers).text #获取文本网页
jsondata = req.get(url, headers=self.headers).json() #获取json型网页
好了就是这么简单,另外补充一个经常使用的库fake-useragent,可以获取随机的useragent,但是其中谷歌的useragent版本比较低,尤其在访问知乎的时候,会提示浏览器版本低的信息,这一点需要注意。
另外拥有一个headers是对爬虫起码的尊重,所以有个构建好的headers是非常必要的。我就经常用下面的例:
from fake_useragent import UserAgent as UA
import random headers = {
'Accept': 'text/html, application/xhtml+xml, image/jxr, */*',
'Accept - Encoding': 'gzip, deflate',
'Accept-Language': 'zh-Hans-CN, zh-Hans; q=0.5',
'Connection': 'Keep-Alive',
'User-Agent': UA().random #获取随机的useragent
}
如何巧妙的利用selenium和requests组合来进行操作需要登录的页面的更多相关文章
- 【python爬虫】利用selenium和Chrome浏览器进行自动化网页搜索与浏览
功能简介:利用利用selenium和Chrome浏览器,让其自动打开百度页面,并设置为每页显示50条,接着在百度的搜索框中输入selenium,进行查询.然后再打开的页面中选中“Selenium - ...
- requests利用selenium,代理Ip,云打码,验证码抠图操作 爬取搜狗微信公众号内容
爬取思路,爬取搜狗微信公众号内容,爬取第一层url时请求太快出现验证码,我这里用的蘑菇云代理,并在程序中我判断什么情况下是否+代理,做到合理运用代理ip.爬取第二层url时验证码出现次数更严重(和第一 ...
- 利用Selenium自动化web测试
简介: Selenium 是一个没有正式指导手册的开源项目,这让测试人员的问题调查很费时间.本文为基于 Selenium 1.0(发布于 2009 年 6 月)的测试期间的常见问题提供最佳实践. 简介 ...
- 利用Selenium和Browsermob批量嗅探下载Bilibili网站视频
Rerence: http://www.liuhao.me/2016/09/20/selenium_browsermob_sniff_bilibili_video/ 日常生活中,用电脑看视频是非常频繁 ...
- Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
更新 其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 可就在今天,淘宝把所有的账号设置成了匿名显示,SO,获取非匿名旺旺号已经 ...
- python中用分别用selenium、requests库实现Windows认证登录
最近在搞单位的项目,实现python自动化,结果在第一步就把我给拒之门外,查资料问大佬,问我们开发人员,从周一折腾到周五才搞定了 接下给大家分享一下 项目背景:我们系统是基于Windows平台实现的, ...
- 利用selenium模拟登陆
第一部:利用selenium登陆 导入selenium库 from selenium import webdriver 明确模拟浏览器在电脑中存放的位置,比如我存在当前目录 chromePath = ...
- python利用selenium库识别点触验证码
利用selenium库和超级鹰识别点触验证码(学习于静谧大大的书,想自己整理一下思路) 一.超级鹰注册:超级鹰入口 1.首先注册一个超级鹰账号,然后在超级鹰免费测试地方可以关注公众号,领取1000积分 ...
- 利用selenium爬取京东商品信息存放到mongodb
利用selenium爬取京东商城的商品信息思路: 1.首先进入京东的搜索页面,分析搜索页面信息可以得到路由结构 2.根据页面信息可以看到京东在搜索页面使用了懒加载,所以为了解决这个问题,使用递归.等待 ...
随机推荐
- Windows使用问题总结
1 电脑休眠恢复之后无法识别Wifi无线网络 首先,重启电脑:其次,打开网络和共享中心,点击更改适配器设置:最后,在对应的无线网络连接图标上点击鼠标右键,属性,配置,电源选项,允许计算机关闭此设备以节 ...
- MySQL创建用户与授权
一. 创建用户 命令: CREATE USER 'username'@'host' IDENTIFIED BY 'password'; 说明: username:你将创建的用户名 host:指定该用户 ...
- 日程管理 FullCalendar
日程管理,采用著名组件FullCalendar日历插件实现FullCalendar提供了丰富的属性设置和方法调用,开发者可以根据FullCalendar提供的API快速完成一个日历日程的开发1.实现按 ...
- Java中Excel表格的上传与下载
详见:http://blog.csdn.net/lzh657083979/article/details/73252585
- mysql常用脚本及命令记录
mysql导出用户权限 mysql中直接通过授权即可使用对应用户,不必使用创建用户命令(如CREATE USER 'xxx'@'%' IDENTIFIED BY 'XXX';)先建用户再授权. 方法一 ...
- 依赖Aspose.Cells Excel 导出
public static void SaveExcel() { //新建工作簿 Workbook workbook = new Workbook(); //工作簿 Worksheet sheet = ...
- 自动提取文章摘要AutoSummary
在文本搜索引擎项目中,需要对已排序的文章进行摘要提取,然后与标题,路径一起封装成Json数据返回客户端.因此这里我自己写一个自动摘要,来大概完成这个任务.在自动摘要提取过程中,使用了一个分词库:Cpp ...
- canvas API总结
从简单的基本图形,到复杂炫酷的动画,通过canvas元素获取的2D图形渲染上下文CanvasRenderingContext2D,能够使用丰富的API来进行图形绘制.这篇文章将会总结在之前的canva ...
- DOS下串口通信程序来传送文件的源代码
接收程序: #include <dos.h>#include <fstream.h>#include <conio.h>#include <stdio.h&g ...
- linux内核initrd文件自定义方法
linux内核initrd文件自定义方法 重新编译内核后,可能加入了自定义的模块,就有可能需要修改init文件,而init文件就在initrd中,这里记录下操作步骤,以防遗忘. 1. cp /bo ...