Spider--补充--Requests--session&cookie

# session 与 cookie

# 可能大家对session已经比较熟悉了，也大概了解了session的机制和原理，但是我们在做爬虫时如何会运用到session呢，就是接下来要讲到的会话保持。

# 首先说一下，为什么要进行会话保持的操作？

# requests库的session会话对象可以跨请求保持某些参数，说白了，就是比如你使用session成功的登录了某个网站，则在再次使用该session对象求求该

# 网站的其他网页都会默认使用该session之前使用的cookie等参数尤其是在保持登陆状态时运用的最多，在某些网站抓取，或者app抓取时，有的时强制登陆，

# 有的是不登陆返回的数据就是假的或者说是不完整的数据，那我们不可能去做到每一次请求都要去登陆一下怎么办，就需要用到保持会话的功能了，我们可以

# 只登陆一次，然后保持这种状态去做其他的或者更多的请求。其次，我们该如何使用会话保持？举一个事例来说明一下：

#requests.session():维持会话,可以让我们在跨请求时保存某些参数

import requests

#实例化session

session = requests.session()

url = 'https://www.douban.com/accounts/login'

form_data = {

    'source': 'index_nav',

    'form_email': 'xxx',

    'form_password': 'xxx',

    'captcha-solution': 'stamp',

    'captcha-id': 'b3dssX515MsmNaklBX8uh5Ab:en'}

#设置请求头

req_header = {

    'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',

}

#使用session发起请求

response = session.post(url,headers=req_header,data=form_data)

if response.status_code == 200:

    #访问个人主页：

    url = 'https://www.douban.com/people/175417123/'

    response = session.get(url,headers = req_header)

    if response.status_code == 200:

        with open('douban3.html','w') as file:

            file.write(response.text)

import requests

import time

mycookie = { "PHPSESSID":"56v9clgo1kdfo3q5q8ck0aaaaa" }

x = requests.session()

requests.utils.add_dict_to_cookiejar(x.cookies,{"PHPSESSID":"07et4ol1g7ttb0bnjmbiqjhp43"})

x.get("http://127.0.0.1:80",cookies = mycookie)

time.sleep(5)

#请求以后抓包可以检验一下是不是添加成功

x.get("http://127.0.0.1:80")

# 这样，通过requests.utils.add_dict_to_cookiejar对session对象设置cookie，之后所有的请求都会自动加上我自定义的cookie内容。

# 也可以通过requests.utils.cookiejar_from_dict 先生成一个cookiejar对象，到时候再赋值给session.cookies。

# 貌似还可以使用session.cookies.set()或者update()。

# 另外说一点单独处理cookie字段，处理为字典格式:

cookie = "SINAGLOBAL=821034395211.0111.1522571861723; wb_cmtLike_1850586643=1; un=tyz950829@sina.com; wb_timefeed_1850586643=1; UOR=,,login.sina.com.cn; wvr=6; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9WWsNeq71O_sXkkXNnXFHgOW5JpX5KMhUgL.Fo2RSK5f1hqcShe2dJLoI0qLxK-L12qLB-zLxKqL1hnL1K2LxK-LBo5L12qLxKqL1hML1KzLxKnL1K.LB-zLxK-L1K-LBKqt; YF-V5-G0=c99031715427fe982b79bf287ae448f6; ALF=1556795806; SSOLoginState=1525259808; SCF=AqTMLFzIuDI5ZEtJyAEXb31pv1hhUdGUCp2GoKYvOW0LQTInAItM-ENbxHRAnnRUIq_MR9afV8hMc7c-yVn2jI0.; SUB=_2A2537e5wDeRhGedG7lIU-CjKzz-IHXVUm1i4rDV8PUNbmtBeLVrskW9NUT1fPIUQGDKLrepaNzTEZxZHOstjoLOu; SUHB=0IIUWsCH8go6vb; _s_tentry=-; Apache=921830614666.5322.1525261512883; ULV=1525261512916:139:10:27:921830614666.5322.1525261512883:1525239937212; YF-Page-G0=b5853766541bcc934acef7f6116c26d1"

cookie_dict = {i.split("=")[0]: i.split("=")[1] for i in cookie.split("; ")}

# 实例：

import requests

from bs4 import BeautifulSoup

def getPage(url):

    """

    Utilty function used to get a Beautiful Soup object from a given URL

    """

    session = requests.Session()   # requests.session():维持会话,可以让我们在跨请求时保存某些参数

    headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36',

               'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8'}

    try:

        req = session.get(url, headers=headers)

    except requests.exceptions.RequestException:

        return None

    bs = BeautifulSoup(req.text, 'html.parser')

    return bs

Spider--补充--Requests--session&cookie的更多相关文章

requests保持登录session ,cookie 和 token
一.request提供了一个一个叫做session的类,来实现客户端和服务端的会话保持 # coding:utf-8 import requests url = "https://passp ...
4 使用Selenium模拟登录csdn，取出cookie信息，再用requests.session访问个人中心（保持登录状态）
代码: # -*- coding: utf-8 -*- """ Created on Fri Jul 13 16:13:52 2018 @author: a " ...
requests库 cookie和session
cookie 如果一个相应中包含了cookie,那么可以利用cookie属性拿到这个返回的cookie值: res = requests.get('http://www.baidu.com') pri ...
http之Session&Cookie
百度了一波session与Cookie,我发现这东西远比我想象中更复杂(可能是因为我不明白底层的运行原理).网上也是一堆的关于Session与Cookie区别/联系的文章,然而,我看完了还是一脸懵逼的 ...
python/数据库操作补充—模板—Session
python/数据库操作补充—模板—Session 一.创建一个app目录在models.py只能类进行进行创建表 class Foo: xx= 字段(数据库数据类型) 字段类型字符串 Email ...
requests.session
# -*- coding: utf-8 -*- """requests.session~~~~~~~~~~~~~~~~ This module provides a Se ...
python requests 的cookie 操作
结论: 1.requests模块的请求和响应分别有cookie对象. 可以通过此对象设置和获取cookie. 2.通过在requests.get,requests.post等方法请求中传入cookie ...
Python爬虫 —— 知乎之selenium模拟登陆获取cookies+requests.Session()访问+session序列化
代码如下: # coding:utf-8 from selenium import webdriver import requests import sys import time from lxml ...
知乎模拟登录 requests session
Python 3.5 # -*- coding: utf-8 -*- """ Created on Wed May 3 16:26:55 2017 @author: x- ...
Requests方法 -- cookie绕过验证码登录操作
前言有些登录的接口会有验证码:短信验证码,图形验证码等,这种登录的话验证码参数可以从后台获取的(或者查数据库最直接).获取不到也没关系,可以通过添加 cookie 的方式绕过验证码. 1.这里以登录博 ...

随机推荐

mysql任意文件读取漏洞复现
前言第一次得知该漏洞后找了一些文章去看. 一开始不明白这个漏洞是怎么来的,只知道通过在服务端运行poc脚本就可以读取客户端的任意文件,直接找到网上准备好的靶机进行测试,发现可行,然后就拿别人的poc ...
实验五 Internet与网络工具的使用
实验五 Internet与网络工具的使用 [实验目的]⑴.FTP服务器的架设和客户端的使用. ⑵.使用云盘和云笔记应用 ⑶.运用QQ的远程协助功能. (4).默认安装foxmail软件,进行邮件的收发 ...
HDU - 6736 F - Forest Program
题意给你n个点m条边,并且保证整个图是仙人掌. 仙人掌:每条边仅属于1条或者0条回路且无重边和自环让你删掉一些边使其变成一棵树(拥有点数-1条边) 注意一个点也是森林图可能是不联通的思路考 ...
redis 开启AOF 持久化
redis 开启AOF 找到redis 安装目录打开 redis.conf 修改以下参数: appendonly yes (默认no,关闭)表示是否开启AOF持久化: append ...
【应用服务 App Service】如何移除App Service Response Header中包含的服务器敏感信息
问题描述有些情况下,当应用部署到App Service上后,在有些Response Header中,可以看见关于服务器的一些信息,这样会导致隐藏的安全问题,所以可以在web.config中移除某些关 ...
Curl可以模拟浏览器
curl直接访问被拒绝 [22:10:00 root@C7 ~]#curl -I www.163.com HTTP/1.1 403 Forbidden Date: Wed, 24 Jun 2020 0 ...
Linux 动态库加载
动态库运行时搜索顺序 1.LD_PRELOAD LD_PRELOAD是一个环境变量,用于动态库加载,动态库加载的优先级最高: 2.-wl,-rpath 编译目标代码时指定的动态库搜索路径(指的是用-w ...
Luban图片压缩
导入依赖: implementation 'top.zibin:Luban:1.1.3' public class MainActivity extends AppCompatActivity { p ...
联赛模拟测试24 B. 答题折半枚举
题目描述分析暴力的思想是把 \(2^n\) 种得分枚举出来,每一种得分的概率都是相同的,然后从小到大累加,直到大于等于所给的概率把问题转化一下,就变成了在 \(2^n\) 种元素中求 \(k\) ...
(Pytorch)涉及的常见操作
涉及一些pytorch的API内容在此进行整理损失函数:Binary-Cross-Entropy loss criterion = nn.BCECriterion() 创建一个标准来度量目标和输出之 ...

Spider--补充--Requests--session&cookie

Spider--补充--Requests--session&cookie的更多相关文章

随机推荐

热门专题