『Scrapy』终端调用&选择器方法

Scrapy终端

示例，输入如下命令后shell会进入Python（或IPython）交互式界面：

scrapy shell "http://www.itcast.cn/channel/teacher.shtml"

有一点注意的是必须是双引号，单引号会报错。

之后会显示当前保存的数据结构以供查询，这和我们编写py脚本时的数据结构完全相同，可以直接使用相关方法，

诸如：

Scrapy Selectors

如下所示，

>>> response.xpath('//title/text()')

[<Selector (text) xpath=//title/text()>]

>>> response.css('title::text')

[<Selector (text) xpath=//title/text()>]

这两种方式提取的都是节点型数据，所以都可以使用.extract()或者.extract_first()方法提取data部分

以下面的源码为例进行提取示范：

<html>

 <head>

  <base href='http://example.com/' />

  <title>Example website</title>

 </head>

 <body>

  <div id='images'>

   <a href='image1.html'>Name: My image 1 <br /><img src='image1_thumb.jpg' /></a>

   <a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' /></a>

   <a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' /></a>

   <a href='image4.html'>Name: My image 4 <br /><img src='image4_thumb.jpg' /></a>

   <a href='image5.html'>Name: My image 5 <br /><img src='image5_thumb.jpg' /></a>

  </div>

 </body>

</html>

提取标签属性，

>>> response.xpath('//base/@href').extract()

[u'http://example.com/']

>>> response.css('base::attr(href)').extract()

[u'http://example.com/']

对提取目标路径的标签进行筛选，contains(@href, "image")表示href熟悉需要包含image字符，css同理，

response.xpath('//a[contains(@href, "image")]/@href').extract()
Out[1]: ['image1.html', 'image2.html', 'image3.html', 'image4.html', 'image5.html']

response.xpath('//a[contains(@href, "image1")]/@href').extract()
Out[2]: ['image1.html']

response.css('a[href*=image]::attr(href)').extract()
Out[3]: ['image1.html', 'image2.html', 'image3.html', 'image4.html', 'image5.html']

esponse.css('a[href*=image2]::attr(href)').extract()
Out[4]: ['image2.html']

结合两者，

>>> response.xpath('//a[contains(@href, "image")]/img/@src').extract()

[u'image1_thumb.jpg',

 u'image2_thumb.jpg',

 u'image3_thumb.jpg',

 u'image4_thumb.jpg',

 u'image5_thumb.jpg']

>>> response.css('a[href*=image] img::attr(src)').extract()

[u'image1_thumb.jpg',

 u'image2_thumb.jpg',

 u'image3_thumb.jpg',

 u'image4_thumb.jpg',

 u'image5_thumb.jpg']

内置了正则表达式re和re_first方法，

response.xpath('//a[contains(@href, "image")]/text()')
Out[8]: 
[<Selector xpath='//a[contains(@href, "image")]/text()' data='Name: My image 1 '>,
 <Selector xpath='//a[contains(@href, "image")]/text()' data='Name: My image 2 '>,
 <Selector xpath='//a[contains(@href, "image")]/text()' data='Name: My image 3 '>,
 <Selector xpath='//a[contains(@href, "image")]/text()' data='Name: My image 4 '>,
 <Selector xpath='//a[contains(@href, "image")]/text()' data='Name: My image 5 '>]

response.xpath('//a[contains(@href, "image")]/text()').re(r'Name:\s*(.*)')
Out[7]: ['My image 1 ', 'My image 2 ', 'My image 3 ', 'My image 4 ', 'My image 5 ']

response.xpath('//a[contains(@href, "image")]/text()').re_first(r'Name:\s*(.*)')
Out[9]: 'My image 1 '

『Scrapy』终端调用&选择器方法的更多相关文章

『GoLang』结构体与方法
结构体结构体类型 Go 通过结构体的形式支持用户自定义类型,或者叫定制类型. Go 语言结构体是实现自定义类型的一种重要数据类型. 结构体是复合类型(composite types),它由一系列属性 ...
『Java』接口的使用方法
以下三个文件存在于同一个包下: 定义接口Dome_Interface.java: package cn.xxmmqg.Interface; // 接口不能直接使用,必须有一个"实现类&quo ...
『Scrapy』爬取斗鱼主播头像
分析目标爬取的是斗鱼主播头像,示范使用的URL似乎是个移动接口(下文有提到),理由是网页主页属于动态页面,爬取难度陡升,当然爬取斗鱼主播头像这么恶趣味的事也不是我的兴趣...... 目标URL如下, ...
『Scrapy』爬取腾讯招聘网站
分析爬取对象初始网址, http://hr.tencent.com/position.php?@start=0&start=0#a (可选)由于含有多页数据,我们可以查看一下这些网址有什么相 ...
『Scrapy』全流程爬虫demo
建立好的爬虫工程如下: item.py 它用来存储解析后的响应文件: # -*- coding: utf-8 -*- # Define here the models for your scraped ...
『Scrapy』爬虫框架入门
框架结构引擎:处于中央位置协调工作的模块 spiders:生成需求url直接处理响应的单元调度器:生成url队列(包括去重等) 下载器:直接和互联网打交道的单元管道:持久化存储的单元框架安装 ...
『Python』Python 调用 ZoomEye API 批量获取目标网站IP
#### 20160712 更新原API的访问方式是以 HTTP 的方式访问的,根据官网最新文档,现在已经修改成 HTTPS 方式,测试可以正常使用API了. 0x 00 前言 ZoomEye 的 ...
『Python』为什么调用函数会令引用计数+2
一.问题描述 Python中的垃圾回收是以引用计数为主,分代收集为辅,引用计数的缺陷是循环引用的问题.在Python中,如果一个对象的引用数为0,Python虚拟机就会回收这个对象的内存. sys.g ...
『Java』StringBuilder类使用方法
String类存在的问题 String类的底层是一个被final修饰的byte[],不能改变. 为了解决以上问题,可以使用java.lang.StringBuilder类. StringBuilder ...

随机推荐

python-安装，设置环境变量（win10）
python官网: https://www.python.org/ 选择需要的版本下载下载后安装我装的是默认位置C:\Python27 打开环境变量设置: 右键电脑--->属性----> ...
Python中模块(Module)和包(Package）的区别
本文绝大部分内容转载至:廖雪峰官方网站 1. 模块(Module) 在计算机程序的开发过程中,随着程序代码越写越多,在一个文件里代码就会越来越长,越来越不容易维护. 为了编写可维护的代码,我们把很多函 ...
什么是IO多路复用？Nginx的处理机制
先来说一下什么是IO复用? IO复用解决的就是并发行的问题,比如多个用户并发访问一个WEB网站,对于服务端后台而言就会产生多个请求,处理多个请求对于中间件就会产生多个IO流对于系统的读写.那么对于IO ...
P2571 [SCOI2010]传送带
P2571 [SCOI2010]传送带三分套三分. 前提条件:P3382 [模板]三分法三分,求区间内单峰函数的最大/最小值. 我们把两条线段都跑三分,先ab后cd,求出最小值. 可以直接将二维坐 ...
SACD ISO镜像中提取DSDIFF(DFF)、DSF文件
听语音 | 浏览:5620 | 更新:2015-08-25 11:46 | 标签:硬件 1 2 3 4 5 分步阅读现在有一种比较流行的无损音乐传输介质是SACD ...
20145327《网络对抗》——注入shellcode并执行和Return-to-libc攻击深入
20145327<网络对抗>--注入shellcode并执行准备一段Shellcode 老师的shellcode:\x31\xc0\x50\x68\x2f\x2f\x73\x68\x68 ...
【SVN】Linux搭建SVN服务
1.yum安装svn yum install -y subversion 日志打印 Loaded plugins: fastestmirror Determining fastest mirrors ...
[shiro] - 怎样使用shiro?
shiro是什么? Shiro是apache旗下的一个开源框架, 它将软件系统的安全认证相关的功能抽取出来, 实现用户身份认证, 权限授权, 加密, 会话管理等功能, 组成一个通用的安全认证框架. 为 ...
关于java中的类的学习
设计模式应该牵扯到类的分布排列了,尽管现在我只能这么表达. 下面来自段帅发来的视频课程中的整理: 类与类之间的关系每天进步一点点类是java程序中最小组成单位,要理解后才可以更能理解类继承,重载, ...
LA 3486 Cells（判祖先+栈模拟dfs）
https://vjudge.net/problem/UVALive-3486 题意: 判断u是否是v的祖先. 思路: 很简单,dfs遍历,记录每个节点第一次访问时的时间戳 in[i] 和第二次访问时 ...

『Scrapy』终端调用&选择器方法

Scrapy终端

Scrapy Selectors

『Scrapy』终端调用&选择器方法的更多相关文章

随机推荐

热门专题