笔记-scrapy-Request/Response

1.     简介

Scrapy使用Request和Response来爬取网站。

2.     request

class scrapy.http.Request(url [,callback,method ='GET',headers,body,cookies,meta,encoding ='utf-8',priority = 0,dont_filter = False,errback,flags ] )

参数说明:

url (string):the URL of this request

callback (callable):the function that will be called with the response of this request (once its downloaded) as its first parameter. For more information see Passing additional data to callback functions below. If a Request doesn’t specify a callback, the spider’s parse() method will be used. Note that if exceptions are raised during processing, errback is called instead.

回调函数:将这个请求的响应(一旦下载完成)作为第一个参数调用的函数,如果请求没有指定回调,则将使用蜘蛛的parse()方法。请注意,如果在处理期间引发异常,则会调用errback。

method (string):the HTTP method of this request. Defaults to 'GET'.

meta (dict):the initial values for the Request.meta attribute. If given, the dict passed in this parameter will be shallow copied.参数传递用,注意,浅拷贝。

body (str or unicode):the request body. If a unicode is passed, then it’s encoded to str using the encoding passed (which defaults to utf-8). If body is not given, an empty string is stored. Regardless of the type of this argument, the final value stored will be a str (never unicode or None).

headers (dict):http头部。

cookies (dict or list):

可以使用两种形式发送。

字典型:

request_with_cookies = Request(url="http://www.example.com",

cookies={'currency': 'USD', 'country': 'UY'})

字典列表型:

request_with_cookies = Request(url="http://www.example.com",

cookies=[{'name': 'currency',

'value': 'USD',

'domain': 'example.com',

'path': '/currency'}])

The latter form allows for customizing the domain and path attributes of the cookie. This is only useful if the cookies are saved for later requests.

When some site returns cookies (in a response) those are stored in the cookies for that domain and will be sent again in future requests. That’s the typical behaviour of any regular web browser. However, if, for some reason, you want to avoid merging with existing cookies you can instruct Scrapy to do so by setting the dont_merge_cookies key to True in the Request.meta.

不合并cookie示例:

request_with_cookies = Request(url="http://www.example.com",

cookies={'currency': 'USD', 'country': 'UY'},

meta={'dont_merge_cookies': True})

encoding (string):(defaults to 'utf-8').

priority (int):请求优先级,目前没用过;

dont_filter (boolean):表示这个请求不应该被调度器过滤。当您想多次执行相同的请求时使用此选项,以忽略重复过滤器。小心使用它,否则你将进入爬行循环。默认为False。errback (callable): 如果在处理请求时引发任何异常,将会调用该函数

flags (list) – Flags sent to the request, can be used for logging or similar purposes.

该类还包含一些属性:

url 此请求的URL。此属性为转义的URL,可能与构造函数中传递的URL不同。属性是只读的。更改使用URL replace()。

method  表示请求中的HTTP方法,大写。例如:"GET","POST","PUT"

headers  一个包含请求头文件的类似字典的对象。

body        包含请求主体的str。属性是只读的。更改使用body. replace()。

meta        包含此请求的任意元数据的字典。对于新的请求是空的,通常由不同的Scrapy组件(扩展,中间件等)填充。

copy()        返回一个新请求,它是此请求的副本。

2.1.    meta:附加数据传递

使用meta参数传递数据

def parse_page1(self, response):

item = MyItem()

item['main_url'] = response.url

request = scrapy.Request("http://www.example.com/some_page.html",

callback=self.parse_page2)

request.meta['item'] = item

yield request

def parse_page2(self, response):

item = response.meta['item']

item['other_url'] = response.url

yield item

meta有一些官方指定键值用来对请求进行处理:

download_timeout       下载器在超时之前等待的时间(以秒为单位)

2.2.    errbacks:异常处理

import scrapy

from scrapy.spidermiddlewares.httperror import HttpError

from twisted.internet.error import DNSLookupError

from twisted.internet.error import TimeoutError, TCPTimedOutError

class ErrbackSpider(scrapy.Spider):

name = "errback_example"

start_urls = [

"http://www.httpbin.org/",              # HTTP 200 expected

"http://www.httpbin.org/status/404",    # Not found error

"http://www.httpbin.org/status/500",    # server issue

"http://www.httpbin.org:12345/",        # non-responding host, timeout expected

"http://www.httphttpbinbin.org/",       # DNS error expected

]

def start_requests(self):

for u in self.start_urls:

yield scrapy.Request(u, callback=self.parse_httpbin,

errback=self.errback_httpbin,

dont_filter=True)

def parse_httpbin(self, response):

self.logger.info('Got successful response from {}'.format(response.url))

# do something useful here...

def errback_httpbin(self, failure):

# log all failures

self.logger.error(repr(failure))

# in case you want to do something special for some errors,

# you may need the failure's type:

if failure.check(HttpError):

# these exceptions come from HttpError spider middleware

# you can get the non-200 response

response = failure.value.response

self.logger.error('HttpError on %s', response.url)

elif failure.check(DNSLookupError):

# this is the original request

request = failure.request

self.logger.error('DNSLookupError on %s', request.url)

elif failure.check(TimeoutError, TCPTimedOutError):

request = failure.request

self.logger.error('TimeoutError on %s', request.url)

3.     response

classscrapy.http.Response(url [,status = 200,headers = None,body = b'',flags = None,request = None ])

参数:

url(字符串) - 此响应的URL

状态(整数) - 响应的HTTP状态。一般为200。

标题(字典) - 这个响应的标题。字典值可以是字符串(对于单值标题)或列表(对于多值标题)。

body (bytes) - 响应主体。注意解码

标志(列表) - 是包含Response.flags属性初始值的列表 。如果给出,列表将被浅拷贝。

请求(Request对象) - Response.request属性的初始值。这代表了Request产生这个回应的那个。

response还有一些子类,但一般情况下不会使用,不予讨论。

笔记-scrapy-Request/Response的更多相关文章

  1. JavaWeb学习笔记四 request&response

    HttpServletResponse 我们在创建Servlet时会覆盖service()方法,或doGet()/doPost(),这些方法都有两个参数,一个为代表请求的request和代表响应res ...

  2. 爬虫框架Scrapy之Request/Response

    Request yield scrapy.Request(url, self.parse) Request 源码: # 部分代码 class Request(object_ref): def __in ...

  3. Scrapy中scrapy.Request和response.follow的区别

    在写scrapy的spider类的parse方法的时候,有些链接需要提取出来继续爬取,这里scrapy提供了一些方法可以方便的实现这个功能,总结如下: 假设我们的目标a标签是target_a 方法1: ...

  4. Scrapy进阶知识点总结(一)——基本命令与基本类(spider,request,response)

    一.常见命令 scrapy全局命令可以在任何地方用,项目命令只能在项目路径下用 全局命令: 项目命令: startproject crawl genspider check settings list ...

  5. 运维开发笔记整理-Request对象与Response对象

    运维开发笔记整理-Request对象与HttpResponse对象 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.request对象 1>.什么是request 首先,我 ...

  6. day06 Request Response

    rw 读写模板的设置 day05 Request Response 1. HttpServletResponse 简介 1.1 Response 的 OutputStream 输出中文的问题 1.2 ...

  7. scrapy-实现下一页请求, scrapy.Request

    # -*- coding: utf-8 -*- import scrapy class HrSpider(scrapy.Spider): name = 'hr' allowed_domains = [ ...

  8. 笔记-scrapy与twisted

    笔记-scrapy与twisted Scrapy使用了Twisted作为框架,Twisted有些特殊的地方是它是事件驱动的,并且比较适合异步的代码. 在任何情况下,都不要写阻塞的代码.阻塞的代码包括: ...

  9. scrapy.Request使用meta传递数据,以及deepcopy的使用

    scrapy.Request(url[,callback,method="GET",headers,body,cookies,meta,dont_filter=False])   ...

  10. 关于scrapy中scrapy.Request中的属性

    一.源码 def __init__(self, url, callback=None, method='GET', headers=None, body=None, cookies=None, met ...

随机推荐

  1. 阻塞IO, 非阻塞IO, 同步IO,异步IO

    阻塞IO, 非阻塞IO, 同步IO,异步IO 介绍 先说明几个概念 用户空间与内核空间 为了保证用户进程不能直接操作内核(kernel),保证内核的安全,操心系统将虚拟空间(内存)划分为两部分,一部分 ...

  2. windows服务器间文件同步搭建步骤搜集

    Rsync https://www.cnblogs.com/janas/p/3321087.html https://yq.aliyun.com/ziliao/110867 subersion协议 h ...

  3. 解决频繁自动弹出“QQ拼音升级程序”,可使用旧版QQ输入法

    QQ输入法(2017年9月6日版本)下载地址: http://dlc2.pconline.com.cn/filedown_90891_8506339/BZXMP3fp/QQPinyin_Setup_5 ...

  4. Git由来

    很多人都知道,Linus在1991年创建了开源的Linux,从此,Linux系统不断发展,已经成为最大的服务器系统软件了. Linus虽然创建了Linux,但Linux的壮大是靠全世界热心的志愿者参与 ...

  5. QT学习之QPair类

    #QPair类 QPair是一个用来存储一对对象的容器模板.其有两个值,first和second. QPair() QPair(const T1 & value1, const T2 & ...

  6. 如何迅速掌握并提高linux运维技能(收藏文)

    如何迅速掌握并提高linux运维技能   文章来源于南非蚂蚁   之前曾经写过一篇如何学习Linux的文章,得到了很多反馈,大家都在分享自己的学习经验和体会,并且也提出了不少意见和建议.学习这个事情其 ...

  7. 2017.11.15 JavaWeb的学生体质管理系统

    (11)案例-----学生身体体质信息管理系统的开发 11.1 功能划分: 1.添加记录模块:完成向数据库添加新纪录 2.查询记录模块:完成将数据库的记录以网页的方式显示出来,一般采用有条件的查询 3 ...

  8. EF 集合版 增删查改

  9. Python-三元运算符和lambda表达式

    一.三元运算符 #当满足条件1时,res=值1:否则res=值2 res = 值1 if 条件1 else 值2 举例说明: res=10 #简单的if else语句 if abs(res)>0 ...

  10. failed to bind pixmap to texture

    问题描述:我用的是Ubuntue的操作系统,终端突然挂了.我重启了一下电脑,就进不去系统了. 日志信息:  failed to bind pixmap to texture 原因: 界面管理工具坏了, ...