1.一般情况下python修改cookie

首先获得cookie

import requests

params = {'username': 'Ryan', 'password': 'password'}  #设一个字典，输入用户名和密码，这个跟host请求差不多

r = requests.post("http://pythonscraping.com/pages/cookies/welcome.php",params)

print("Cookie is set to:")

print(r.cookies.get_dict())  #获取cookie，并输出

print("-----------")

print("Going to profile page...")

r = requests.get("http://pythonscraping.com/pages/cookies/profile.php",cookies=r.cookies)  #发送cookie

print(r.text)

　　2.对于变化cookie

如果你面对的网站比较复杂，它经常暗自调整cookie，或者如果你从一开始就完全不想要用cookie，Requests 库的session 函数可以解决这些问题：

import requests

session = requests.Session()

params = {'username': 'username', 'password': 'password'}

s = session.post("http://pythonscraping.com/pages/cookies/welcome.php", params)

print("Cookie is set to:")

print(s.cookies.get_dict())

print("-----------")

print("Going to profile page...")

s = session.get("http://pythonscraping.com/pages/cookies/profile.php")

print(s.text)

以上代码没有设置cookie值，这便是session的方便之处。会话（session）对象（调用requests.Session() 获取）会持续跟踪会话信息，像cookie、header，甚至包括运行HTTP 协议的信息，HTTPAdapter（为HTTP和HTTPS 的链接会话提供统一接口）

　　3.基于用户操作后脚本产生的cookie

因为requests 模块不能执行JavaScript，所以它不能处理很多新式的跟踪软件生成的cookie，比如Google Analytics，只有当客户端脚本执行后才设置cookie（或者在用户浏览页面时基于网页事件产生cookie，比如点击按钮）。为了处理这些动作，你需要用Selenium 和PhantomJS 包（phantomJS包已经凉了，可以用火狐或者谷歌的代替）

（1）获取cookie

from selenium import webdriver

driver = webdriver.Firefox()

driver.get("https://www.bilibili.com/")

driver.implicitly_wait(1)

print(driver.get_cookies())

（2）调用delete_cookie()、add_cookie() 和delete_all_cookies() 方法来处理cookie

另外，还可以保存cookie 以备其他网络爬虫使用。下面的例子演示了如何把这些函数组合在一起：

from selenium import webdriver

driver = webdriver.Firefox()

driver.get("http://pythonscraping.com") 
driver.implicitly_wait(1) print(driver.get_cookies()) 
savedCookies = driver.get_cookies()

driver2 = webdriver.Firefox()

driver2.get("http://pythonscraping.com") 
driver2.delete_all_cookies() 
for cookie in savedCookies: 
　　driver2.add_cookie(cookie) 
driver2.get("http://pythonscraping.com") 
driver.implicitly_wait(1) 
print(driver2.get_cookies())

在这个例子中，第一个webdriver 获得了一个网站，打印cookie 并把它们保存到变量savedCookies 里。第二个webdriver 加载同一个网站（技术提示：必须首先加载网站，这样Selenium 才能知道cookie 属于哪个网站，即使加载网站的行为对我们没任何用处），删除所有的cookie，然后替换成第一个webdriver 得到的cookie。当再次加载这个页面时，两组cookie 的时间戳、源代码和其他信息应该完全一致。Google Analytics 的角度看，第二个webdriver 现在和第一个webdriver 完全一样。

Python爬虫笔记【一】模拟用户访问之设置处理cookie（2）的更多相关文章

Python爬虫笔记【一】模拟用户访问之设置请求头（1）
学习的课本为<python网络数据采集>,大部分代码来此此书. 网络爬虫爬取数据首先就是要有爬取的权限,没有爬取的权限再好的代码也不能运行.所以首先要伪装自己的爬虫,让爬虫不像爬虫而是像人 ...
python爬虫笔记Day01
python爬虫笔记第一天 Requests库的安装先在cmd中pip install requests 再打开Python IDM写入import requests 完成requests在.py文 ...
[Python爬虫笔记][随意找个博客入门(一)]
[Python爬虫笔记][随意找个博客入门(一)] 标签(空格分隔): Python 爬虫 2016年暑假来源博客:挣脱不足与蒙昧 1.简单的爬取特定url的html代码 import urllib ...
Python爬虫笔记一（来自MOOC） Requests库入门
Python爬虫笔记一(来自MOOC) 提示:本文是我在中国大学MOOC里面自学以及敲的一部分代码,纯一个记录文,如果刚好有人也是看的这个课,方便搬运在自己电脑上运行. 课程为:北京理工大学-嵩天-P ...
Python之路,Day22 - 网站用户访问质量分析监测分析项目开发
Python之路,Day22 - 网站用户访问质量分析监测分析项目开发做此项目前请先阅读 http://3060674.blog.51cto.com/3050674/1439129 项目实战之 ...
Python爬虫笔记【一】模拟用户访问之提交表单登入—第二次（7）
在第一次登入时遇到这个问题,页面验证码与下载下来需要识别的验证码不同的问题,从网上查寻说是叫验证码同步问题.发现是用cookie解决的,那次cookie介绍到通过cookie就可以实现时间戳同步问题, ...
Python爬虫笔记(一):爬虫基本入门
最近在做一个项目,这个项目需要使用网络爬虫从特定网站上爬取数据,于是乎,我打算写一个爬虫系列的文章,与大家分享如何编写一个爬虫.这是这个项目的第一篇文章,这次就简单介绍一下Python爬虫,后面根据项 ...
《转载》python爬虫实践之模拟登录
有些网站设置了权限,只有在登录了之后才能爬取网站的内容,如何模拟登录,目前的方法主要是利用浏览器cookie模拟登录. 浏览器访问服务器的过程在用户访问网页时,不论是通过URL输入域名或IP ...
Python爬虫笔记安装篇
目录爬虫三步请求库 Requests:阻塞式请求库 Requests是什么 Requests安装 selenium:浏览器自动化测试 selenium安装 PhantomJS:隐藏浏览器窗口 Ph ...

随机推荐

SSH整合时执行hibernate查询报错:java.lang.ClassCastException: com.ch.hibernate.Depart
今天在整合ssh三个框架时,有一个功能,是查询所有员工信息,且员工表和部门表是多对一的映射关系,代码能正常运行到查询得到一个List集合,但在页面展示的时候,就报异常了, java.lang.Clas ...
HDFS under replicated blocks
under replicated blocks 解决: 找出没有复制的block: hdfs fsck / | grep 'Under replicated' | awk -F':' '{print ...
第十五篇：java操作oracle踩坑之旅
最近刚做完mysql的各种需求,项目要满足oracle数据库,于是走上了漫漫的踩坑之路,同行可以看看以免踩坑……第一条:oracle建表的时候不需要在建表sql语句后指定默认字符集 DEFAULT C ...
19.SimLogin_case01
什么是模拟登录? 要抓取的信息,只有在登录之后才能查看.这种情况下,就需要爬虫做模拟登录,绕过登录页. cookies和session的区别: cookie数据存放在客户的浏览器上,session数据 ...
矩阵连乘 /// 区间DP oj1900
题目大意: 输入t :t为测试用例个数接下来t个测试每个测试用例第一行输入n: n为矩阵个数保证n个矩阵依序是可乘的接下来n行每行输入p,q:p为长度q为宽度对给定的n个矩阵确定一个计算 ...
java笔试之求最大连续bit数
功能: 求一个byte数字对应的二进制数字中1的最大连续数,例如3的二进制为00000011,最大连续2个1 输入: 一个byte型的数字输出: 无返回: 对应的二进制数字中1 ...
UMP系统架构
跟我一起使用socket.io创建聊天应用
安装express插件新建index.js var app = require('express')(); var http = require('http').Server(app); app.g ...
Java-MyBatis-MyBatis3-XML映射文件：参数
ylbtech-Java-MyBatis-MyBatis3-XML映射文件:参数 1.返回顶部 1. 参数你之前见到的所有语句中,使用的都是简单参数.实际上参数是 MyBatis 非常强大的元素.对 ...
kubeadm安装Kubernetes 1.15 实践
原地址参考github 一.环境准备(在全部设备上进行) 3 台 centos7.5 服务器,网络使用 Calico. IP地址节点角色 CPU 内存 Hostname 10.0.1.45 mast ...

Python爬虫笔记【一】模拟用户访问之设置处理cookie（2）

1.一般情况下python修改cookie

2.对于变化cookie

3.基于用户操作后脚本产生的cookie

（1）获取cookie

（2）调用delete_cookie()、add_cookie() 和delete_all_cookies() 方法来处理cookie

Python爬虫笔记【一】模拟用户访问之设置处理cookie（2）的更多相关文章

随机推荐

热门专题

　　1.一般情况下python修改cookie

　　2.对于变化cookie

　　3.基于用户操作后脚本产生的cookie