Scrapy 中的 Request 对象和 Respionse 对象
1、Request 对象
Request 对象用来描述一个 HTTP 请求,下面是其构造方法的参数列表
Request(url, [, callback, method='Get', headers, body, ...])
下面一次介绍这些参数
(1) url (必选)
请求页面的 url 地址, bytes 或 str 类型
如 ‘http://www.python.org/doc’
(2)callback
页面解析函数, Callback 类型,Request 对象请求的页面下载完成后,由该参数指定的页面解析函数被调用,如果未传该参数,默认调用 Spider 的 parse 方法
(3)method
HTTP 请求的方法, 默认为 “GET”
(4)headers
HTTP 请求头部字典,dict 类型,例如{‘Accept’:‘text/html’, 'Uesr-Agent': Mozilla/5.0}。如果其中某项的值为 None,就表示不发送该项 HTTP 头部
例如{‘Cookie’:None},禁止发送Cookie
(5)body
HTTP 请求的正文,bytes 或 str 类型
(6)cookies
Cookie信息字典,dict类型,例如{‘currency’:‘USD’, ‘count’:‘UY’}
(7)meta
Request 的元数据字典,dict 类型,用于给框架中其他组件传递信息,比如中间件 Item Pipline,其他组件可以使用Request 对象的 meta 属性访问该元数据字典
(8)encoding
url 和 body 参数的编码默认为 ‘utf-8’,如果传入的 url 或 body 参数是 str 类型,就使用该参数进行编码
(9)priority
请求的优先级默认值为0,优先级高的请求有限下载。
(10)dont_filter
默认情况下(dont_filter=False),对同一个 url 地址多次提交下载请求,后面的请求会被去重过滤器过滤(避免重复下载)。如果将该参数置为 True ,可以使
请求避免被过滤,强制下载,例如,在多次爬取一个内容随时间而变化的页面时(每次使用相同的 url ),可以将其参数置为 True
(11)errback
请求出现异常或者出现 HTTP 错误是(如404页面不存在)的回调函数
虽然参数很多,但除了 url 参数外,其他都带有默认值,在构造 Request 对象时,通常我们只需传入一个 url 参数或再加一个 Callback 参数,其他使用默认值即可
在实际应用中,我们几乎只用 Request 的构造器创建对象,但也可以根据需求访问 Request 对象的属性,常用的有一下几个:
(1)url
(2)method
(3)headers
(4)body
(5)meta
这些参数和构造器参数相对应
2、Response 对象
Response 对象用来描述一个 HTTP 响应,Response 只是一个基类,根据响应内容的不同有如下子类:
(1) TextResponse
(2)HtmlResponse
(3)XmlResponse
当一个页面下载完毕时,下载器依据 HTTP 响应头部中的 Content-Type 信息创建某个 Response 的子类对象。我们通常爬取的网页,其内容是 HTML 文本,创建的便是 HtmlResponse对象,其中 HtmlResponse 和 XmlResponse 是 TextResponse 的子类。实际上,在3个子类只有细微的差别,这里以 HtmlResponse 为例进行讲解。
·下面介绍 HtmlResponse 随想的属性和方法:
(1)url
HTTP 响应的 url 地址,str 类型
(2)status
HTTP 响应状态码, int 类型,例如 200, 404
(3)headers
HTTP 响应的头部,类字典类型,可以调用 get 或 getlist 方法对齐进行访问。
response.headers.get('Content-Type')
response.headers.getlist('Set-Cookie')
(4)body
HTTP 响应正文,bytes 类型
(5)text
文本形式的 HTTP 响应正文,str 类型,他是由 response.body 使用response.encoding 解码得到的;
responsne.text = response.body.decode(response.encoding)
(6)encoding
HTTP 响应正文的编码,它的值可能是从 HTTP 响应头部或正文中解析出来的
(7)request
产生该 HTTP 响应的 Request 对象
(8) meta
即 response.request.metra,在构造 Request 对象时,可将要传递给响应处理函数的信息通过 meta 参数传入,响应处理函数处理响应是,通过response.meta 将信息取出
(7)selector
Selector 对象用于在 Response 中提取数据
(8)xpath(query)
使用 XPath 选择器在 Response 中提取数据,实际上它是response.selector.xpath 方法的快捷方式
(9)css(query)
使用 CSS 选择器在 Response 中提取数据,实际上它是response.selector.css 方法的快捷方式
(10)urljoin(url)
用于构造绝对 url,当传入的 url 参数是一个相对地址时,根据response.url 计算出响应的绝对 url
例如:response.url 为 http://www.example.com/a, url为 b/index.html,调用response.urljoin(url)的结果为 http://www.example.com/a/b/index.html
虽然 HtmlResponse 对象有很多属性,但最常用的是以下3个方法:
(1)xpath(query)
(2)css(query)
(3)urljoin(url)
前两个方法用于提取数据,后一个方法用于构造绝对 url
Scrapy 中的 Request 对象和 Respionse 对象的更多相关文章
- scrapy中的request
scrapy中的request 初始化参数 class scrapy.http.Request( url [ , callback, method='GET', headers, body, cook ...
- scrapy中的Request和Response对象
前言: 如果框架中的组件比做成是人的各个器官的话,那个Request和Response就是血液,Item就是代谢产物 Request对象: 是用来描述一个HTTP请求,其构造参数有 url 请求的UR ...
- [转]scrapy中的request.meta
作者:知乎用户链接:https://www.zhihu.com/question/54773510/answer/146971644 meta属性是字典,字典格式即{'key':'value'},字典 ...
- Scrapy中的Request和日志分析
Scrapy.http.Request 自动去重,根据url的哈希值,进行去重 属性 meta(dict) 在不同的请求之间传递数据,dict priority(int) 此请求的优先级(默认为0 ...
- Scrapy中的Request和Response
Request Request 部分源码: # 部分代码 class Request(object_ref): def __init__(self, url, callback=None, metho ...
- Action中取得request,session的四种方式
Action中取得request,session的四种方式 在Struts2中,从Action中取得request,session的对象进行应用是开发中的必需步骤,那么如何从Action中取得这些对象 ...
- 在Struts2的Action中获得request response session几种方法
转载自~ 在Struts2中,从Action中取得request,session的对象进行应用是开发中的必需步骤,那么如何从Action中取得这些对象呢?Struts2为我们提供了四种方式.分别为se ...
- 在SpringMVC中获取request对象
1.注解法 @Autowired private HttpServletRequest request; 2. 在web.xml中配置一个监听 <listener> <listen ...
- 在SpringMVC中获取request对象的几种方式
1.最简单的方式(注解法) @Autowired private HttpServletRequest request; 2.最麻烦的方法 a. 在web.xml中配置一个监听 <listene ...
随机推荐
- app内嵌 h5页面 再滑动的时候 触发击穿底下的一些touchstart事件
我们的目的是再滑动的时候 不要触发到touchstart事件. // 再滑动的时候无法点开视频 var is_scroll_start,is_scroll_end; $(window).on({ 't ...
- http的长连接和短连接(史上最通俗!)
1.以前的误解 很久之前就听说过长连接的说法,而且还知道HTTP1.0协议不支持长连接,从HTTP1.1协议以后,连接默认都是长连接.但终究觉得对于长连接一直懵懵懂懂的,有种抓不到关键点的感觉. 今天 ...
- 计算机二级-C语言-程序设计题-190111记录-两种指针赋值的不同,普通输入输出函数和文件输入输出函数的使用
//程序设计题:函数fun的功能是:将两位数的正整数a,b合并形成一个整数放在c中.合并的方式是:将a数的十位和个位数依次放在c数的个位和百位上,b数的十位和个位数依次放在c数的十位和千位上.例如:当 ...
- java编码格式大讲解
oracle 分页: -- 第一种 select * from (select aed.*, row_number() over(order by aed.created_date) rw from ...
- spring boot jpa 复杂查询 动态查询 连接and和or 模糊查询 分页查询
最近项目中用到了jpa,刚接触的时候有些激动,以前的到层忽然不用写sql不用去自己实现了,只是取个方法名就实现了,太惊艳了,惊为天人,但是慢慢的就发现不是这么回事了,在动态查询的时候,不知道怎么操作了 ...
- Kindle阅读产品体验报告-随时随地畅享阅读
产品入门-第一份产品体验报告Kindle阅读-随时随地畅享阅读时间:2018/11/18-11/22 Kindle阅读 一.产品概括 (1)体验环境 机型:荣耀8 系统:EMUI 8.0(Andr ...
- 阅读build to win的个人感想
一个程序员要向各个方面学习,向市场.向用户学习等,不能局限于一方面.除此以外还要有自己的想法,要懂得创新,也需要在各个方面都有所突破,有所超越,实力才是取得胜利的根关键.
- centos610无桌面安装openoffice
Centos610系列配置卸载yum remove libreoffice*yum remove openoffice* 安装yum install openoffice.org-writer yu ...
- i.MX RT600之DSP开发环境调试篇
i.MX RT600的Cadence Xtensa HiFi 4 Audio DSP 是一个高度优化过的音频处理器,主频高达600MHz,专门为音频信号的编码.解码以及预处理和后处理模块而设计,功能十 ...
- uniGUI之uniEdit(23)
主要新加属性: a]EmptyText在没有文本里显示的背景文本. b]作为其他控件的编辑输入控件. c]ClearButton清空按钮 d]左边显示文本 e]回车触发事件CharEOL:=#13 f ...