22.2.14 session和反反爬处理

1.session：

requests库包含session，都是用来对一个url发送请求，区别在于session是一连串的请求，在session请求过程中cookie等参数不会丢失。
requests库的session会话对象可以跨请求保持某些参数，说白了，就是比如你使用session成功的登录了某个网站，则在再次使用该session对象求求该网站的其他网页都会默认使用该session之前使用的cookie等参数尤其是在保持登陆状态时运用的最多，在某些网站抓取，或者app抓取时，有的时强制登陆，有的是不登陆返回的数据就是假的或者说是不完整的数据，那我们不可能去做到每一次请求都要去登陆一下怎么办，就需要用到保持会话的功能了，我们可以只登陆一次，然后保持这种状态去做其他的或者更多的请求。

code：

import requests


url='http://www.renren.com/PLogin.do'

id = input('请输入用户名：')
pw = input('请输入密码：')

data = {
        
        "email": id,
        "password": pw}
headers={
    'User-Agent':"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
}
session=requests.session()
session.post(url,data=data,headers=headers)
response=session.get("http://www.renren.com/880151247/profile")
with open('renren.html','w',encoding='utf-8') as fp:
    fp.write(response.text)

2.反反爬处理

反反爬主要是处理user-agent，cookie，referer，定期sleep，加代理等等。

处理user-agent，cookie，referer都是一样的套路，在浏览器的抓包工具中找到对应的值，包装到headers中，再请求url时传入headers。定期sleep主要是为了防止一瞬间对网址的访问量过大，致使网址给你的账号封禁。

使用代理：

proxies = {
    "http":"http://代理IP"
        或者
    "https":"https://代理IP"
    #注意要和你访问的url前面的一致，你的url前面是http就在proxies里面用第一个，如果是https就用第二个。
}
requests.get(url,proxies)

这里以爬取梨视频为例，下载某一个视频：

import requests
from lxml import etree

def refererPrt():
    url = "https://www.pearvideo.com/video_1751556"  #练习爬取的网站是湿湿的，url可能会过期
    #拿到开头url中的视频编号：
    vedioId = url.split("_")[1]

    #   https://video.pearvideo.com/mp4/short/20220211/1644668544573-15825835-hd.mp4            404     f12     systemTime: "1644668544573"
    #   https://video.pearvideo.com/mp4/short/20220211/cont-1676274-15825835-hd.mp4             right   源码
    
    #思路：分别拿到上面两个url，再将systemTime替换成cont-1676274
    #1676274是视频的url（"https://www.pearvideo.com/video_1676274"）中有

    #   https://www.pearvideo.com/videoStatus.jsp?contId=1676274&mrd=0.7848558827776768

    vedioStudios = f"https://www.pearvideo.com/videoStatus.jsp?contId={vedioId}&mrd=0.7848558827776768"
    #这个链接在f12  network  fech/xhr  headers  requests url可以拿到

    #未能得到想要的信息：提示该文章已经下线。   解决方法：反反爬（添加User-Agent、处理cookie、处理防盗链referer等等，这里处理防盗链referer即可）
    
    headers = {
    "Referer": url  #防盗链，可以理解为溯源  本次请求的上一级是谁（在本次练习中必须是拉取视频的网址，即开头的url）
    }

    #加入这个headers就能拿到我们想要的内容

    response = requests.get(vedioStudios,headers = headers)
    #   print(response.json())
    systemTime = (response.json())['systemTime']
    vediourl = (response.json())['videoInfo']['videos']['srcUrl']

    # print(systemTime)
    # print(vediourl)
    #拿到systemTime和vediourl，下一步就是做替换


    #print(vedioId)
    vediourl = vediourl.replace(systemTime,"cont-"+vedioId)
    #print(vediourl)
    #拿到视频地址，接下来用文件的形式存下来
    with open("vedio.mp4",mode="wb") as f:
        f.write(requests.get(vediourl).content)
        f.close()
        
if __name__ == '__main__':
    refererPrt()

22.2.14session和反反爬处理的更多相关文章

python做反被爬保护的方法
python做反被爬保护的方法网络爬虫,是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.但是当网络爬虫被滥用后,互联网上就出现太多同质的东西,原创得不到保护.于是,很 ...
python反反爬，爬取猫眼评分
python反反爬,爬取猫眼评分.解决网站爬取时,内容类似:$#x12E0;样式,且每次字体文件变化.下载FontCreator . 用FontCreator打开base.woff.查看对应字体关系 ...
selenium + chrome 被检测，反反爬小记
selenium + chrome 很多难以采集的网站都使用selenium爬取,但是后来发现selenium有特征值,会被检测出来,今天来小结一下反反爬方案测试网站全绿好像代表没被检测出中间人 ...
Scrapy中的反反爬、logging设置、Request参数及POST请求
常用的反反爬策略通常防止爬虫被反主要有以下几策略: 动态设置User-Agent(随机切换User-Agent,模拟不同用户的浏览器信息.) 禁用cookies(也就是不启用cookies midd ...
python爬虫---详解爬虫分类,HTTP和HTTPS的区别,证书加密,反爬机制和反反爬策略,requests模块的使用,常见的问题
python爬虫---详解爬虫分类,HTTP和HTTPS的区别,证书加密,反爬机制和反反爬策略,requests模块的使用,常见的问题一丶爬虫概述通过编写程序'模拟浏览器'上网,然后通 ...
爬取豆瓣电影储存到数据库MONGDB中以及反反爬虫
1.代码如下: doubanmoive.py # -*- coding: utf-8 -*- import scrapy from douban.items import DoubanItem cla ...
反反爬虫 IP代理
0x01 前言一般而言,抓取稍微正规一点的网站,都会有反爬虫的制约.反爬虫主要有以下几种方式: 通过UA判断.这是最低级的判断,一般反爬虫不会用这个做唯一判断,因为反反爬虫非常容易,直接随机UA即可 ...
爬虫(Spider)，反爬虫(Anti-Spider)，反反爬虫(Anti-Anti-Spider)
爬虫(Spider),反爬虫(Anti-Spider),反反爬虫(Anti-Anti-Spider),这之间的斗争恢宏壮阔... Day 1小莫想要某站上所有的电影,写了标准的爬虫(基于HttpCli ...
爬虫---Beautiful Soup 反反爬虫事例
前两章简单的讲了Beautiful Soup的用法,在爬虫的过程中相信都遇到过一些反爬虫,如何跳过这些反爬虫呢?今天通过知乎网写一个简单的反爬中什么是反爬虫简单的说就是使用任何技术手段,阻止别人批 ...

随机推荐

Solution -「国家集训队」「洛谷 P2619」Tree I
$\mathcal{Description}$ Link. 给一个 $n$ 个点 $m$ 条边的带权无向图,边有权值和黑白颜色,求恰选出 $K$ 条白边构成的最小生成树. ...
SpringBoot实现QQ邮件发送
建项目创建一个SpringBoot项目改pom,导入相关依赖 org.springframework.boot spring-boot-starter-parent 2.2.2.RELEASE & ...
如何基于gRPC沟通微服务框架
本文我们来讲解一下如何使用 gRPC构建微服务,gRPC是一个开源框架,可用于构建可扩展且高性能的微服务并创建服务之间的通信. 背景随着企业越来越多地转向微服务,对构建这些微服务的低延迟和可扩展框架 ...
Redis原理再学习04：数据结构-哈希表hash表(dict字典)
哈希函数简介哈希函数(hash function),又叫散列函数,哈希算法.散列函数把数据"压缩"成摘要,有的也叫"指纹",它使数据量变小且数据格式大小也固定 ...
Linux下的Tmux分屏操作
Linux中,我们使用命令行的时候,一个窗口只能使用一个命令行,若是需要使用多个输入位置进行操作,那么只能多开几个窗口,今天介绍一款软件,可以让我们在一个窗口使用多个输入行,先来效果图展示下 Linu ...
python数据结构：链表
链表与列表.数组这线性结构不同之处在于其在首末两端增删的话比较方便单链表: 但是链表查找和删除的话都是需要从第一个开始从头查找因此查找和删除的复杂度都为O(n) 双链表: 相比单链表来说,每个节点 ...
C#基础之IL ，轻松读懂中间代码IL 转载
[No0000152]C#基础之IL,轻松读懂IL 先说说学IL有什么用,有人可能觉得这玩意平常写代码又用不上,学了有个卵用.到底有没有卵用呢,暂且也不说什么学了可以看看一些语法糖的实现,或对.n ...
Java基础--集合解析-ArrayList
1.ArrayList中添加,获取,删除元素: 2.ArrayList中是否包含某个元素: 3.ArrayList中根据索引将元素数值改变(替换): 4.ArrayList中查看(判断)元素的索引: ...
k8s全方位监控中-常用rules配置
[root@VM_0_48_centos prometheus]# cat alertmanager-configmap.yaml apiVersion: v1 kind: ConfigMap met ...
JZ-046-圆圈中最后剩下的数
圆圈中最后剩下的数题目描述每年六一儿童节,牛客都会准备一些小礼物去看望孤儿院的小朋友,今年亦是如此.HF作为牛客的资深元老,自然也准备了一些小游戏. 其中,有个游戏是这样的:首先,让小朋友们围成一 ...

22.2.14session和反反爬处理

22.2.14 session和反反爬处理

1.session：

2.反反爬处理

22.2.14session和反反爬处理的更多相关文章

随机推荐

热门专题