cookie池的维护

存储形式：

存储在redis中，“spider_name:username–password":cookie

建立py文件及包含方法：

initcookies() 初始化所有账号的cookies，将所有账号对用进行登陆获取cookies并保存在redis中
update_cookie(spider_name,username,password) # 重新获取账号对应的cookies，并存入redis中
remove_cookie(spider_name,usrname,password) # 从redis中删除改账号对应的cookie
get_cookie(username,password) # 尝试登陆该账号获取cookies

在scrapy下载器中间件的process_request()随机从cookie池选择一个cookie，对request进行设置，并在request的meta中保存cookie对应的账号

def process_request(self,request,spider):

    # 获取redis中所有的键（假设redis中只保存了cookies）

    redisKeys = self.rconn.keys()

    elem = random.choice(redisKeys)

    request.cookies = cookie

    # 在请求中记录当前cookies对应的账号和密码

    request.meta["accountText"] = elem.split(":")[-1]

在下载器中间件的process_response()获取响应，如果响应状态码为301、302等，说明页面重定向，该cookie失效，进行cookie的更新与删除

def process_response(self,request,response,spider):

    if response.status in [300, 301, 302, 303]:

        # 获取重定向的url

        redirect_url = response.headers["location"]

        if url == "login_url":# 如果是登陆页面，说明当前cookies失效了，需要更新

            username,passworod = request.meta['accountText'].split("--")

            update_cookie(spider_name,username,password)

        elif url=="验证页面":# 说明账号被封了

            username,passworod = request.meta['accountText'].split("--")

            remove_cookie(spider_name,username,password)

        request = request.copy()

        request.dont_filter = True

        return request

cookie池的维护的更多相关文章

python3编写网络爬虫18-代理池的维护
一.代理池的维护上面我们利用代理可以解决目标网站封IP的问题在网上有大量公开的免费代理或者我们也可以购买付费的代理IP但是无论是免费的还是付费的,都不能保证都是可用的因为可能此IP被其他人使用 ...
免费IP代理池定时维护，封装通用爬虫工具类每次随机更新IP代理池跟UserAgent池，并制作简易流量爬虫
前言我们之前的爬虫都是模拟成浏览器后直接爬取,并没有动态设置IP代理以及UserAgent标识,本文记录免费IP代理池定时维护,封装通用爬虫工具类每次随机更新IP代理池跟UserAgent池,并制作 ...
python3简单使用requests 用户代理，cookie池
官方文档:http://docs.python-requests.org/en/master/ 参考文档:http://www.cnblogs.com/zhaof/p/6915127.html#und ...
scrapy 设置cookie池
代码已经很详细了,可以直接拿来使用了. 包含了: 从网页获取cookie 存入mongodb 定期删除cookie scrapy中间件对cookie池的取用 #!/usr/bin/python #co ...
搭建Cookie池
很多时候我们在对网站进行数据抓取的时候,可以抓取一部分页面或者接口,这部分可能没有设置登录限制.但是如果要抓取大规模数据的时候,没有登录进行爬取会出现一些弊端.对于一些设置登录限制的页面,无法爬取对于 ...
爬虫技术：cookies池的维护
一:为什么要维护cookie 1.登录才能爬取内容 2.爬取频繁会被封号. 3.需要维护多个账号的cookie,实现大规模抓取二:cookies的要求 1.自动登录更新 2.定期筛选验证 3.提供外 ...
【胡思乱想】JNI与线程池的维护
JNI中,C/C++代码里创建的资源不由Java GC处理,故这里的资源必须由C/C++代码明确释放.在JNI中,C/C++回调Java的方法是调用一个CallXXMethod函数来实现的,如果回调的 ...
5.使用Redis+Flask维护动态Cookies池
1.为什么要用Cookies池? 网站需要登录才可爬取,例如新浪微博爬取过程中如果频率过高会导致封号需要维护多个账号的Cookies池实现大规模爬取 2.Cookies池的要求自动登录更新定时 ...
利用 Flask+Redis 维护 IP 代理池
代理池的维护目前有很多网站提供免费代理,而且种类齐全,比如各个地区.各个匿名级别的都有,不过质量实在不敢恭维,毕竟都是免费公开的,可能一个代理无数个人在用也说不定.所以我们需要做的是大量抓取这些免费 ...

随机推荐

QT MSVC编译中文乱码问题
两种解决方案: 1,在文件头添加 #if _MSC_VER >= 1600 #pragma execution_character_set("utf-8") #endif 注 ...
Thinkphp5.0之异常处理
1.默认异常处理在调试模式下,系统默认展示的错误页面:请输入图片描述异常处理接管 1.修改config.php 'app_debug' => false,2.在配置文件里添加如下代码 // 异 ...
python generator与coroutine
python generator与coroutine 协程简单介绍协程,又称微线程,纤程,英文名Coroutine.协程是一种用户态的轻量级线程,又称微线程.协程拥有自己的寄存器上下文和栈,调度 ...
ZigBee入门第一天
按键查询控制灯的状态 1.宏定义灯和按键 2.按键和灯初始化 3.用if语句消抖的方法,实现按键控制灯的状态相关寄存器 PxSEL PxDIR #include"ioCC2530.h&qu ...
kuangbin专题专题一简单搜索 Dungeon Master POJ - 2251
题目链接:https://vjudge.net/problem/POJ-2251 题意:简单的三维地图思路:直接上代码... #include <iostream> #include & ...
c++学习书籍推荐《Advanced C++》下载
百度云及其他网盘下载地址:点我作者简介 James Coplien先在威斯康星大学获得电气与计算机工程学士学位,后又在该大学获得计算机科学硕士学位.他在贝尔实验室的软件产品研发部门工作,在这个部门从 ...
c++学习书籍推荐《C++ Templates》下载
详细讲解C++模板语言的概念. 使用C++模板的常用设计技巧. 应用例证(其中一些是“高级”应用). 百度云及其他网盘下载地址:点我名人推荐如果今年你只打算买一本C++的书,那就选<C++ ...
centos7 添加用户，组
centos7添加用户,组. groupadd projectUsers //添加组,组名projectUser. cat /etc/group //查看最后一行是projectUser. 添加用户并 ...
网页内嵌html遇到的问题
在项目中遇到个问题充值功能是点击一个按钮这个按钮会弹出模态框,输入充值金额会执行一段脚本自动提交数据到https://openapi.alipay.com/gateway.do上结果:本网页跳转到 ...
koa2服务端使用jwt进行鉴权及路由权限分发
大体思路后端书写REST api时,有一些api是非常敏感的,比如获取用户个人信息,查看所有用户列表,修改密码等.如果不对这些api进行保护,那么别人就可以很容易地获取并调用这些 api 进行操作. ...

cookie池的维护

存储形式：

建立py文件及包含方法：

在scrapy下载器中间件的process_request()随机从cookie池选择一个cookie，对request进行设置，并在request的meta中保存cookie对应的账号

在下载器中间件的process_response()获取响应，如果响应状态码为301、302等，说明页面重定向，该cookie失效，进行cookie的更新与删除

cookie池的维护的更多相关文章

随机推荐

热门专题