scrapy模拟登录

对于scrapy来说，也是有两个方法模拟登陆：

直接携带cookie
找到发送post请求的url地址，带上信息，发送请求

scrapy模拟登陆之携带cookie

应用场景：

cookie过期时间很长，常见于一些不规范的网站
能在cookie过期之前把搜有的数据数据拿到
配合其他程序使用，比如其使用selenium把登陆之后的cookie获取到保存到本地，scrapy发送请求之前先读取本地cookie

class RenrensipderSpider(scrapy.Spider):

    name = 'renrenspider'

    allowed_domains = ['renren.com']

    cookies = dict(  # 自己定义cookies,字典形式

        anonymid = 'j3jxk555-nrn0wh',

        ...

        wp_fold = 0

    )

    def start_requests(self):  # 重写start_request函数，指定start_urls的处理方式

        start_urls = 'http://www.renre.com/'

        yield scrapy.Request(start_urls,callback=self.parse, cookies=self.cookies)  # 指定callback函数，同时携带cookie

    def parse(self, response):

        ...

那么问题来了：如何知道我的cookie确定是在不同的解析函数中传递呢？

# Disable cookie(enaled by default)

# COOKIES_ENABLED = False  # cookie在setting中默认是开启的

COOKIES_DEBUG = True  # 在settings中添加该参数即可

# cookie能够在不同的解析函数中传递，前提也是COOKIES_ENABLED为True

终端效果入下：

[scrapy.downloadermiddlewares.cookies] DEBUG: Sending cookies to:

<GET http://zhibo.renren.com/top>

Cookie: anonymid=j3...

scrapy模拟登录的更多相关文章

scrapy模拟登录微博
http://blog.csdn.net/pipisorry/article/details/47008981 这篇文章是介绍使用scrapy模拟登录微博,并爬取微博相关内容.关于登录流程为嘛如此设置 ...
利用scrapy模拟登录知乎
闲来无事,写一个模拟登录知乎的小demo. 分析网页发现:登录需要的手机号,密码,_xsrf参数,验证码实现思路: 1.获取验证码 2.获取_xsrf 参数 3.携带参数,请求登录验证码url : ...
Scrapy模拟登录信息
携带cookie模拟登录需要在爬虫里面自定义一个start_requests()的函数里面的内容: def start_requests(self): cookies = '真实有效的cookie ...
Scrapy模拟登录赶集网
1.打开赶集网登录界面,先模拟登录并抓包,获得post请求的request参数 2. 我们只需构造出上面的参数传入formdata即可参数分析: setcookie:为自动登录所传的值,不勾选时默认 ...
python爬虫之scrapy模拟登录
背景: 初来乍到的pythoner,刚开始的时候觉得所有的网站无非就是分析HTML.json数据,但是忽略了很多的一个问题,有很多的网站为了反爬虫,除了需要高可用代理IP地址池外,还需要登录.例如知乎 ...
scrapy 基础组件专题（十二）：scrapy 模拟登录
1. scrapy有三种方法模拟登陆 1.1直接携带cookies 1.2找url地址,发送post请求存储cookie 1.3找到对应的form表单,自动解析input标签,自动解析post请求的u ...
Scrapy模拟登录知乎
建立项目 scrapy startproject zhihu_login scrapy genspider zhihu www.zhihu.com 编写spider 知乎的登录页url是http:// ...
Scrapy模拟登录GitHub
d: 进入D盘 scrapy startproject GitHub 创建项目 scrapy genspider github github.com 创建爬虫编辑github.py: # -*- c ...
scrapy 模拟登录后再抓取
深度好文: from scrapy.contrib.spiders.init import InitSpider from scrapy.http import Request, FormReques ...

随机推荐

第三节：SignalR之PersistentConnection模型详解(步骤、用法、分组、跨域、第三方调用)
一. 承上声明在上一个章节里,啰里啰嗦写了一堆关于介绍SignalR的“废话”,从这一篇开始往后正式撸代码,这期间不少人(包括张善友大哥)建议我直接用.Net Core下的SignalR,关于此简 ...
JavaScript 基本包装类型,包装对象
前言 javascript对象是一种复合值,它是属性或已命名值的集合.通过'.'符号来引用属性值.当属性值是一个函数时,称其为方法.通过o.m()来调用对象o中的方法.我们发现,字符串也同样具有属性和 ...
[物理学与PDEs]第4章第1节引言
1. 本章讨论可燃流体在流动过程中同时伴随着燃烧现象的情况. 2. 燃烧有两种, 一种是爆燃 (deflagration): 火焰低速向前传播, 此时流体微元通常是未燃气体.已燃气体的混合物; 一 ...
python学习01
1.python怎样运行? 1)打开运行窗口,输入python 2)打开运行窗口,直接输入 python + python代码 `python -c "print(1/6.878)&quo ...
windows服务器基本管理及服务搭建
windows服务器基本管理及服务搭建 ****windows服务器系统版本:2000 2003 2008 2012 1.用户与组管理用户:账户=账号/用户名+密码每个账户有自己唯一的SID 账户 ...
linux服务器安装Mysql后，只能看到information_schema/test这两个库，无法修改密码
参考链接:https://www.cnblogs.com/ThinkVenus/p/7670722.html 问题背景:登录mysql失败,密码错误,由此想到需要更改密码然而,进入数据库后,只能看到 ...
Kafka简单使用
前言这几天在写 shell 脚本,学到不少,但是没啥心得之类的,有空可以写个总结(但是大概率不会发表) 现在不算很忙,想再学一点消息队列相关知识目前比较出名的也就 RabbitMQ 和 Kafk ...
Python-Django 模型层-多表查询-2
-related_name:基于双下划线的跨表查询,修改反向查询的字段 -related_query_name:基于对象的跨表查询,修改反向查询字段 publish = ForeignKey(Blog ...
AI数据分析(一)
安装Spyder+PyQt5 在python36目录下,使用cmd打开,切换到Scripts文件下 pip install spyder pip install PyQt5 python中的库 Num ...
OpenCV-Python教程9-平滑图像
先解释一个单词 blur:使...模糊不清滤波与模糊滤波和模糊都属于卷积,不同的滤波方法之间只是卷积核不同(对线性滤波而言) 低通滤波器是模糊,高通滤波器是锐化低通滤波器允许低频信号通过,在图像 ...

scrapy模拟登录

对于scrapy来说，也是有两个方法模拟登陆：

scrapy模拟登陆之携带cookie

scrapy模拟登录的更多相关文章

随机推荐

热门专题