Request

Request 部分源码：

# 部分代码

class Request(object_ref):

    def __init__(self, url, callback=None, method='GET', headers=None, body=None,

                 cookies=None, meta=None, encoding='utf-8', priority=,

                 dont_filter=False, errback=None):

        self._encoding = encoding  # this one has to be set first

        self.method = str(method).upper()

        self._set_url(url)

        self._set_body(body)

        assert isinstance(priority, int), "Request priority not an integer: %r" % priority

        self.priority = priority

        assert callback or not errback, "Cannot use errback without a callback"

        self.callback = callback

        self.errback = errback

        self.cookies = cookies or {}

        self.headers = Headers(headers or {}, encoding=encoding)

        self.dont_filter = dont_filter

        self._meta = dict(meta) if meta else None

    @property

    def meta(self):

        if self._meta is None:

            self._meta = {}

        return self._meta

其中，比较常用的参数：

url: 就是需要请求，并进行下一步处理的url

callback: 指定该请求返回的Response，由那个函数来处理。

method: 请求一般不需要指定，默认GET方法，可设置为"GET", "POST", "PUT"等，且保证字符串大写

headers: 请求时，包含的头文件。一般不需要。内容一般如下：

        # 自己写过爬虫的肯定知道

        Host: media.readthedocs.org

        User-Agent: Mozilla/5.0 (Windows NT 6.2; WOW64; rv:33.0) Gecko/ Firefox/33.0

        Accept: text/css,*/*;q=0.1

        Accept-Language: zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3

        Accept-Encoding: gzip, deflate

        Referer: http://scrapy-chs.readthedocs.org/zh_CN/0.24/

        Cookie: _ga=GA1.2.1612165614.1415584110;

        Connection: keep-alive

        If-Modified-Since: Mon, 25 Aug 2014 21:59:35 GMT

        Cache-Control: max-age=0

meta: 比较常用，在不同的请求之间传递数据使用的。字典dict型

        request_with_cookies = Request(

            url="http://www.example.com",

            cookies={'currency': 'USD', 'country': 'UY'},

            meta={'dont_merge_cookies': True}

        )

encoding: 使用默认的 'utf-8' 就行。

dont_filter: 表明该请求不由调度器过滤。这是当你想使用多次执行相同的请求,忽略重复的过滤器。默认为False。

errback: 指定错误处理函数

Response

# 部分代码

class Response(object_ref):

    def __init__(self, url, status=, headers=None, body='', flags=None, request=None):

        self.headers = Headers(headers or {})

        self.status = int(status)

        self._set_body(body)

        self._set_url(url)

        self.request = request

        self.flags = [] if flags is None else list(flags)

    @property

    def meta(self):

        try:

            return self.request.meta

        except AttributeError:

            raise AttributeError("Response.meta not available, this response " \

                "is not tied to any request")

大部分参数和上面的差不多：

status: 响应码

_set_body(body)： 响应体

_set_url(url)：响应url

self.request = request

发送POST请求

可以使用 yield scrapy.FormRequest(url, formdata, callback)方法发送POST请求。
如果希望程序执行一开始就发送POST请求，可以重写Spider类的start_requests(self) 方法，并且不再调用start_urls里的url。

class mySpider(scrapy.Spider):

    # start_urls = ["http://www.example.com/"]

    def start_requests(self):

        url = 'http://www.renren.com/PLogin.do'

        # FormRequest 是Scrapy发送POST请求的方法

        yield scrapy.FormRequest(

            url = url,

            formdata = {"email" : "mr_mao_hacker@163.com", "password" : "axxxxxxxe"},

            callback = self.parse_page

        )

    def parse_page(self, response):

        # do something

模拟登陆

使用FormRequest.from_response()方法模拟用户登录

通常网站通过实现对某些表单字段（如数据或是登录界面中的认证令牌等）的预填充。

使用Scrapy抓取网页时，如果想要预填充或重写像用户名、用户密码这些表单字段，可以使用 FormRequest.from_response() 方法实现。

renren.py

# -*- coding: utf- -*-

import scrapy

#根据cookie进行登录,实在没办法了,可以用这种方法模拟登录,麻烦一点,成功率100%

class RenrenSpider(scrapy.Spider):

    name = "renren"

    allowed_domains = ["renren.com"]

    start_urls = (

        # 'http://www.renren.com/xxxxx',

        'http://www.renren.com/11111',

        # 'http://www.renren.com/xx',

    )

    # 帐号登录后的cookie值

    cookies = {

        "anonymid": "ixrna3fysufnwv",

        "_r01_": "",

        "ap": "",

        "JSESSIONID": "abciwg61A_RvtaRS3GjOv",

        "depovince": "GW",

        "springskin": "set",

        "jebe_key": "f6fb270b-d06d-42e6-8b53-e67c3156aa7e%7Cc13c37f53bca9e1e7132d4b58ce00fa3%7C1484060607478%7C1%7C1486198628950",

        "jebe_key": "f6fb270b-d06d-42e6-8b53-e67c3156aa7e%7Cc13c37f53bca9e1e7132d4b58ce00fa3%7C1484060607478%7C1%7C1486198619601",

        "ver": "7.0",

        "XNESSESSIONID": "e703b11f8809",

        "jebecookies": "98c7c881-779f-4da8-a57c-7464175cd469|||||",

        "ick_login": "4b4a254a-9f25-4d4a-b686-a41fda73e173",

        "_de": "BF09EE3A28DED52E6B65F6A4705D973F1383380866D39FF5",

        "p": "ea5541736f993365a23d04c0946c10e29",

        "first_login_flag": "",

        "ln_uact": "mr_mao_hacker@163.com",

        "ln_hurl": "http://hdn.xnimg.cn/photos/hdn521/20140529/1055/h_main_9A3Z_e0c300019f6a195a.jpg",

        "t": "691808127750a83d33704a565d8340ae9",

        "societyguester": "691808127750a83d33704a565d8340ae9",

        "id": "",

        "xnsid": "f42b25cf",

        "loginfrom": "syshome"

    }

    #开始发送网站请求时调用该方法

    def start_requests(self):

        for url in self.start_urls:

            # yield scrapy.Request(url, callback = self.parse)

            # url = "http://www.renren.com/410043129/profile",登录进去后的页面

            yield scrapy.FormRequest(url, cookies=self.cookies, callback=self.parse_page)

    def parse_page(self, response):

        print("===========" + response.url)

        with open("deng.html", "wb") as filename:

            filename.write(response.body)

renren1.py

# -*- coding: utf- -*-

import scrapy

class Reren1Spider(scrapy.Spider):

    name = "reren1"

    allowed_domains = ["renren.com"]

    def start_requests(self):

        url = 'http://www.renren.com/PLogin.do'

        yield scrapy.FormRequest(

            url=url,

            formdata={"email": "mr_mao_hacker@163.com", "password": "alarmchime"},

            callback=self.parse_page)

    def parse_page(self, response):

        #登录后将登录页面写入到文件中

        print(response.body)

        with open("mao2.html", "wb") as filename:

            filename.write(response.body)

renren2.py

# -*- coding: utf- -*-

import scrapy

# 正统模拟登录方法：

# 首先发送登录页面的get请求，获取到页面里的登录必须的参数，比如说zhihu的 _xsrf

# 然后和账户密码一起post到服务器，登录成功

class Renren2Spider(scrapy.Spider):

    name = 'renren2'

    allowed_domains = ['renren.com']

    start_urls = ["http://www.renren.com/PLogin.do",]

    def parse(self, response):

        #验证登录是否成功

        yield scrapy.FormRequest.from_response(

            response,

            formdata={"email" : "mr_mao_hacker@163.com", "password" : "alarmchime"},#, "_xsrf" = _xsrf},

            callback=self.parse_page

        )

    def parse_page(self,response):

        #登录成功后,点击进入好友的页面

        url="http://www.renren.com/422167102/profile"

        yield scrapy.Request(url,callback=self.parse_newpage)

    def parse_newpage(self,response):

        with open("xiao.html", "wb") as filename:

            filename.write(response.body)

11.Scrapy登录的更多相关文章

Learning Scrapy笔记（五）- Scrapy登录网站
摘要:介绍了使用Scrapy登录简单网站的流程,不涉及验证码破解简单登录很多时候,你都会发现你需要爬取数据的网站都有一个登录机制,大多数情况下,都要求你输入正确的用户名和密码.现在就模拟这种情况, ...
Python爬虫从入门到放弃（二十四）之 Scrapy登录知乎
因为现在很多网站为了限制爬虫,设置了为只有登录才能看更多的内容,不登录只能看到部分内容,这也是一种反爬虫的手段,所以这个文章通过模拟登录知乎来作为例子,演示如何通过scrapy登录知乎在通过scra ...
Python之爬虫（二十六） Scrapy登录知乎
因为现在很多网站为了限制爬虫,设置了为只有登录才能看更多的内容,不登录只能看到部分内容,这也是一种反爬虫的手段,所以这个文章通过模拟登录知乎来作为例子,演示如何通过scrapy登录知乎在通过scra ...
进阶——scrapy登录豆瓣解决cookie传递问题并爬取用户参加过的同城活动©seven_clear
最近在用scrapy重写以前的爬虫,由于豆瓣的某些信息要登录后才有权限查看,故要实现登录功能.豆瓣登录偶尔需要输入验证码,这个在以前写的爬虫里解决了验证码的问题,所以只要搞清楚scrapy怎么提交表单 ...
scrapy 登录
说明: 本文参考了官网文档,以及stackoverflow的几个问题注意: 下面这个爬虫不能实际运行!我只是用它来展示登录,以及之后如何处理. 方式一:FormRequest import scra ...
python scrapy 登录知乎过程
前面了解了scrapy框架的大概各个组件的作用, 现在要爬取知乎数据,那么第一步就是要登录! 看下知乎的登录页面发现登录主要是两大接口一: 登录页面地址,获取登录需要的验证码,如下图打开知乎登录页 ...
11.scrapy框架持久化存储
今日概要基于终端指令的持久化存储基于管道的持久化存储今日详情 1.基于终端指令的持久化存储保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的 ...
爬虫开发11.scrapy框架之CrawlSpider操作
提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基 ...
11.Extjs登录页面js
/** * @author sux * @desc 登录 */ Ext.onReady(function(){ Ext.QuickTips.init(); //错误信息显示必须 var loginFo ...

随机推荐

CF Round #509 (Div. 2)
前言:第一次打\(CF\),因为经验不足以及英语水平很烂,即便在机房大佬的带领下也是花了好久才读懂题目..\(A\)题直到\(11\)分钟才\(A\),题目一共才做了\(4\)题,太菜了.. A. H ...
Java中的权限修饰符
What:访问控制权限是可以设置代码的访问范围. Where:访问权限既可以修饰类中的属性,又可以修饰类中的方法,而public和default还可以修饰类. 在同一个java文件里,公有类有且仅有一 ...
Ubuntu12.04(64bit)下安装Qt4总结
本文主要介绍linux系统Ubuntu12.04(64bit)下Qt4.8.5的安装,其中还涉及Fedora9下Qt4的安装. 1.下载软件:去Qt的官网下载Qt4.8.5和Qt Creator软件, ...
LibreOJ #6000. 「网络流 24 题」搭配飞行员最大匹配
#6000. 「网络流 24 题」搭配飞行员内存限制:256 MiB时间限制:1000 ms标准输入输出题目类型:传统评测方式:文本比较上传者: 匿名提交提交记录统计讨论测试数据题目描述 ...
消息中间件及WebSphere MQ入门（转载）
消息队列技术是分布式应用间交换信息的一种技术.消息队列可驻留在内存或磁盘上,队列存储消息直到它们被应用程序读走.通过消息队列,应用程序可独立地执行--它们不需要知道彼此的位置.或在继续执行前不需要等待 ...
EasyUI 分页简洁代码
做分页代码,看到网上很多人实现的方法,那是各种调用,各种获取对象.我很不解,因为Easyui已经给我们了分页的具体实现,为什么有些人要画蛇添足呢. 其实真正的分页,在你的代码中,别人可能都没有注意到, ...
Java第14章笔记
Java 中无参无返回值和带参带返回值习题编写一个 Java 程序,实现输出学生年龄的最大值要求: 1. 要求通过定义无参带返回值的方法来实现,返回值为最大年龄 2. 方法中将学生年龄保存在数组 ...
css兼容技巧
CSS兼容常用技巧请尽量用xhtml格式写代码,而且DOCTYPE影响 CSS 处理,作为W3C标准,一定要加DOCTYPE声明. 1.div的垂直居中问题 vertical-align:middl ...
ARM cortexM4中断优先级的一点理解。
根据手册PM0214 40页.213页.200.195.interrupt priority grouping. 根据手册EM0090 第371页. stm32f42xxx除掉fpu部分,有91个可屏 ...
27 isinstance与issubclass、反射、内置方法
isinstance与issubclass issubclass:判断子类是否属于父类,是则返回True,否则返回False isinstance:判断对象是否属于类,是则返回True,否则返回Fal ...