Scrapy中response属性以及内容提取

小小咸鱼YwY 2024-08-01 10:01:20 原文

一.属性

url ：HTTP响应的url地址,str类型

status：HTTP响应的状态码, int类型

headers ：HTTP响应的头部, 类字典类型, 可以调用get或者getlist方法对其进行访问

body：HTTP响应正文, bytes类型

text：文本形式的HTTP响应正文, str类型

response.text = response.body.decode(response.encoding)

encoding：HTTP响应正文的编码

reqeust：产生该HTTP响应的Reqeust对象

meta：即response.request.meta, 在构造Request对象时, 可将要传递给响应处理函数的信息通过meta参数传入, 响应处理函数处理响应时, 通过response.meta将信息提取出来

selector：Selector对象用于在Response中提取数据使用下面详细将,主要是 xpath,css取值之后的处理

xpath(query)：下面详细讲解

css(query) ：下面详细讲解

urljoin(url) ：用于构造绝对url, 当传入的url参数是一个相对地址时, 根据response.url计算出相应的绝对url.

二.Selector对象

Selector 对象和SelectorList对象都有以下几种方法。
extract() 返回选中内容的Unicode字符串
re("正则表达式") 正则提取
extract_first()(SelectorList独有)

返回列表中的第一个元素内容
re_first()(SelectorList独有)

返回列表中的第一个元素内容

三.CSS

response.css('css选择器')返回值是Selector对象

获取一个

response.css('css选择器').extract_first()

获取全部

response.css('css选择器').extract()

获取其中某个属性

response.css('css选择器::attr(属性名)').extract()

只要标签里的文本

(response.css('css选择器::text').extract()

四.xpath

response.css('xpath选择器')返回值是Selector对象

Scrapy中response属性以及内容提取的更多相关文章

scrapy中response.body 与 response.text区别
scrapy中response.body 与 response.text区别 body http响应正文, byte类型 text 文本形式的http正文,str类型,它是response.body经 ...
scrapy 中 xpath 用string方法提取带有空格符解决方法
注释掉的是刚开始的代码,匹配的全是带空格的,replace替换不了空格后面加上了normalize-space() 匹配到的文本内容变成了可replace 问题解决
scrapy 的response 的相关属性
Scrapy中response介绍.属性以及内容提取解析response parse()方法的参数 response 是start_urls里面的链接爬取后的结果.所以在parse()方法中,我 ...
python的scrapy框架的使用和xpath的使用 && scrapy中request和response的函数参数 && parse()函数运行机制
这篇博客主要是讲一下scrapy框架的使用,对于糗事百科爬取数据并未去专门处理最后爬取的数据保存为json格式一.先说一下pyharm怎么去看一些函数在源码中的代码实现按着ctrl然后点击函数就 ...
scrapy中使用LinkExtractor提取链接
le = LinkExtractor(restrict_css='ul.pager li.next') links = le.extract_links(response) 使用LinkExtra ...
如何在ASP.NET Core自定义中间件中读取Request.Body和Response.Body的内容？
原文:如何在ASP.NET Core自定义中间件中读取Request.Body和Response.Body的内容? 文章名称: 如何在ASP.NET Core自定义中间件读取Request.Body和 ...
在Scrapy中如何利用Xpath选择器从HTML中提取目标信息（两种方式）
前一阵子我们介绍了如何启动Scrapy项目以及关于Scrapy爬虫的一些小技巧介绍,没来得及上车的小伙伴可以戳这些文章: 手把手教你如何新建scrapy爬虫框架的第一个项目(上) 手把手教你如何新建s ...
在scrapy中利用Selector来提取数据
1.创建对象 Selector类的实现位于scrapy.selector模块,创建Selector对象的时候,可以将页面的Html文档字符串传递给Selector构造器方法 2.选中数据调用Sele ...
Java读取数据库中的xml格式内容，解析后修改属性节点内容并写回数据库
直接附代码: 1.测试用的xml内容 <mxGraphModel> <root> <mxCell id="-1" /> <mxCell i ...

随机推荐

遇见一只黑猫，她说Python是个怪物
导读: Python猫是一只喵星来客,它爱地球的一切,特别爱优雅而无所不能的 Python.我是它的人类朋友豌豆花下猫,被授权润色与发表它的文章.如果你是第一次看到这个系列文章,那我强烈建议,请先看看 ...
Maven使用教程一：Maven基础
使用Maven快速创建一个工程为了加快速度,在setting.xml中加一段配置,用国内阿里云的镜像仓库可以去下载各种东西. <mirror> <id>nexus-aliyu ...
IOC、DI、DIP
OCP: 开闭原则对修改关闭对扩展开放 1.面向对象主要做俩件事:实例化对象和调用方法(完成业务逻辑) 2.单纯interface可以统一方法的调用,但是不能统一对象的实例化 3.只有一段代码 ...
树上前k大的包含不重复结点的长链
一棵树,不一定是二叉树,在每个结点最多只属于一条链的情况下,处理出其中最长的前k个的长度. 最近训练赛做到两道题了,有必要总结一下. 不过我不知道是否有更专门的叫法. 借鉴了这位大佬的博客:https ...
HUE Oozie : error=2, No such file or directory采坑记录
HUE Oozie : error=2, No such file or directory采坑记录 1.错误详情一直都是同一种方式在hue上定义workflow,不知为啥今天定义的就是不行... ...
wireshark抓包如何查看视频分辨率和码率
本文简单介绍如何查看Wireshark抓取pcap包,其视频码流的分辨率和码率. 查看分辨率我们打开一个抓取的pcap文件,找到标记为SPS(Sequence Parameter Set)的数据包. ...
Splash 学习笔记
一.介绍 Splash 跟之前我们介绍的 Selenium ( 参考 Selenium 与自动化测试 -- <Selenium 2 自动化测试实战>读书笔记) 很类似,都可以理解成一个浏览 ...
Linux命令学习-cat命令
Linux中,cat命令的全称是concatenate,主要用于显示文件内容. 查看centos系统版本 cat /etc/centos-release 查看文件 gogs.log 的内容 cat g ...
C# List 根据对象属性去重的四种方法对比
测试代码: private void TestDistinct() { Task.Run(() => { //生成测试数据 DateTime dt = DateTime.Now; Random ...
控制台提示“Invalid string length”的原因
控制台提示“Invalid string length”,浏览器直接卡掉,是为什么呢? 答:因为在写嵌套循环时,定义的变量重名了,内层和外层用了同一个i变量. -THE END-