Scrapy 小技巧（一）：使用 scrapy 自带的函数（follow & follow

前言

如何优雅的获取同一个网站上下一次爬取的链接并放到生成一个 Scrapy Response 呢？

样例

from urllib import parse

import scrapy

class SitoiSpider(scrapy.Spider):

    name = "sitoi"

    start_urls = [

        'https://sitoi.cn',

    ]

    def parse(self, response):

        href_list = response.xpath("//div[@class='card']/a/@href").extract()

        for href in href_list:

            url = parse.urljoin(response.url, href)

            yield scrapy.Request(url=url, callback=self.parse_next)

    def parse_next(self, response):

        print(response.url)

方式一：使用 urllib 库来拼接 URL

这个方式是通过 urllib 库来对下一个 url 进行补全成完整的 url，再使用 scrapy.Request 的方式进行下一个页面的爬取。

优点

在处理每一个 href 的时候可以添加一些自定义的内容（例如记录一下当前第几页了等等）

缺点

需要引入其他的库

def parse(self, response):

    href_list = response.xpath("//div[@class='card']/a/@href").extract()

    for href in href_list:

        url = parse.urljoin(response.url, href)

        yield scrapy.Request(url=url, callback=self.parse_next)

方式二：使用 response 自带的 urljoin

这个方式是通过 Scrapy response 自带的 urljoin 对下一个 url 进行补全成完整的 url，再使用 scrapy.Request 的方式进行下一个页面的爬取。（和方式一基本相同）

优点

不再需要在 spider 文件中引入多的第三方库。

def parse(self, response):

    href_list = response.xpath("//div[@class='card']/a/@href").extract()

    for href in href_list:

        url = response.urljoin(href)

        yield scrapy.Request(url=url, callback=self.parse_next)

方式三：使用 response 自带的 follow

这个方式是通过 Scrapy response 自带的 follow 进行下一个页面的爬取。

优点

不再需要在 spider 文件中引入多的第三方库。
不需要写 extract() 来提取 href 字符串，只需要传入 href 这个 Selector（可选）
不需要写 url 拼接
xpath 只需要编写到 a 标签即可，可以省略掉 @href,即不需要获取 href 的 Selector，直接传递 a 的 Selector（可选）

def parse(self, response):

    href_list = response.xpath("//div[@class='card']/a/@href").extract()

    for href in href_list:

        yield response.follow(url=href, callback=self.parse_next)

变种一

不写 extract() 来提取 href 字符串，传入 href 这个 Selector

def parse(self, response):

    href_list = response.xpath("//div[@class='card']/a/@href")

    for href in href_list:

        yield response.follow(url=href, callback=self.parse_next)

变种二

不写 extract() 来提取 href 字符串，传入 href 这个 Selector
xpath 不写 @href，直接传递 a 的 Selector

def parse(self, response):

    href_list = response.xpath("//div[@class='card']/a/")

    for href in href_list:

        yield response.follow(url=href, callback=self.parse_next)

方式四：使用 response 自带的 follow_all

这个方式是通过 Scrapy response 自带的 follow_all 进行下一个页面的爬取。

优点

不再需要在 spider 文件中引入多的第三方库。
不需要写 extract() 来提取 href 字符串，只需要传入 href 这个 selector（可选）
不需要写 url 拼接
只需要编写到 a 标签即可，可以省略掉 @href，即不需要获取 href 的 SelectorList，直接传递 a 的 SelectorList（可选）
不需要编写遍历，直接把抓到的 url 的 SelectorList 放入即可

缺点

如果中间还有什么逻辑，就不太适用了（例如记录一下当前第几页了等等）

def parse(self, response):

    href_list = response.xpath("//div[@class='card']/a")

    yield from response.follow_all(urls=href_list, callback=self.parse_next)

变种

注：前方高能

一行代码搞定。

def parse(self, response):

    yield from response.follow_all(xpath="//div[@class='card']/a", callback=self.parse_next)

欢迎访问我的个人博客：https://sitoi.cn

Scrapy 小技巧（一）：使用 scrapy 自带的函数（follow & follow_all）优雅的生成下一个请求的更多相关文章

芝麻HTTP：Scrapy小技巧-MySQL存储
这两天上班接手,别人留下来的爬虫发现一个很好玩的 SQL脚本拼接. 只要你的Scrapy Field字段名字和数据库字段的名字一样.那么恭喜你你就可以拷贝这段SQL拼接脚本.进行MySQL入库处理 ...
芝麻HTTP： Scrapy小技巧-MySQL存储
这两天上班接手,别人留下来的爬虫发现一个很好玩的 SQL脚本拼接. 只要你的Scrapy Field字段名字和数据库字段的名字一样.那么恭喜你你就可以拷贝这段SQL拼接脚本.进行MySQL入库处理 ...
Scrapy小技巧-MySQL存储, MYSQL拼接
这两天上班接手,别人留下来的爬虫发现一个很好玩的 SQL脚本拼接. 只要你的Scrapy Field字段名字和数据库字段的名字一样.那么恭喜你你就可以拷贝这段SQL拼接脚本.进行MySQL入库处理 ...
【小技巧】只用css实现带小三角的对话框样式
一个小小的技巧: 如图所示,这种小三角,不用图片,只用css怎么实现呢? 直接上代码吧: <!DOCTYPE html> <html> <head> <tit ...
Extjs 项目中常用的小技巧，也许你用得着(5)--设置 Ext.data.Store 传参的请求方式
1.extjs 给怎么给panel设背景色设置bodyStyle:'background:#ffc;padding:10px;', var resultsPanel = Ext.create('Ex ...
10个提升MySQL性能的小技巧
从工作量分析到索引的三条规则,这些专家见解肯定会让您的MySQL服务器尖叫. 在所有的关系数据库中,MySQL已经被证明了完全是一头野兽,只要通知停止运行就绝对不会让你多等一秒钟,使你的应用置于困境之 ...
模仿也是提高，纯css小技巧实现头部进度条
刚开始的时候我也觉得不可能,但是就是这么神奇,总有大神给你意想不到的惊喜. 快来感受一下把.(仔细看看头部黄色条的变化) 思考一下啊,怎么出现的那,其实作者使用了一点小技巧,那就是背景色渐变和遮挡产生 ...
Python 中的一些小技巧
这里是本人收集的一些 Python 小技巧,目前主要是一些实用函数,适合有一定基础的童鞋观看(不会专门介绍使用到的标准库函数).. 一.函数式编程函数式编程用来处理数据,感觉很方便.(要是再配上管道 ...
【js】中的小技巧
本文主要介绍一些JS中用到的小技巧 1. 类型强制转换 1.1 string强制转换为数字可以用*1来转化为数字(实际上是调用.valueOf方法) 然后使用Number.isNaN来判断是否为 ...

随机推荐

springmvc 文件上传异步处理
springmvc3提供了文件上传异步处理功能,当文件上传时,controller不需要一直等到文件上传成功后再返回视图,而是先返回到servlet容器,待异步处理的线程完成后转向指定视图! 首先要在 ...
Codeforces 1272E (Nearest Opposite Parity,反向建边)
题意:给你n个数,每个数的值为a[i],每个点可以从i这号点跳转至(i - a[i]) 或 (i + a[i])点,点的范围为[1,n],然后问的是从偶数点跳至奇数点,从奇数点跳至偶数点的最少次数是多 ...
webstorm-在不删除硬盘文件的条件下移除项目
一段时间没用之后会忘记如何在webstorm里移除一个项目,要花很长的时间去找到底如何才能移除,所以特地把它记录下来了,方便下次忘记的时候可以查阅把鼠标移在你要移除的那个项目上然后按下Delete键 ...
County Fair Events
先按照结束时间进行排序,取第一个节日的结束时间作为当前时间,然后从第二个节日开始搜索,如果下一个节日的开始时间大于当前的时间,那么就参加这个节日,并更新当前时间 #include <bits/s ...
教你避过安装TensorFlow的两个坑
TensorFlow作为著名机器学习相关的框架,很多小伙伴们都可能要安装它.WIN+R,输入cmd运行后,通常可能就会pip install tensorflow直接安装了,但是由于这个库比较大,接近 ...
苏浪浪 201771010120《面向对象程序设计（java）》第六章学习总结
第五章主要学习OOP另一个部分----继承,继承使程序员可以使用现有的类,并根据需要进行修改.这是Java程序设计中的一个基础设计. 1．类.超类和子类: (1) 已有类称为:超类(supercla ...
Linux 下批量杀死进程
ps aux|grep python|grep -v grep|cut -c 9-15|xargs kill -15 管道符“|”用来隔开两个命令,管道符左边命令的输出会作为管道符右边命令的输入.下面 ...
关于 Git 拉取GitLab工程报错：Repository not found的问题
[root@localhost xscan]# git pull fatal: repository 'http://gitlab.***.com/***.git/' not found 原因1: 可 ...
sobel( ) 算子
只是简单的使用方面的记录 sobel()算子是图像处理中用于边缘检测的 opencv-python 中的函数形式为 def Sobel(src, ddepth, dx, dy, dst=None, k ...
写一个LRU算法的记录
今天简单记录一下,利用Scala解答的一道LRU题目,原题为LeetCode的第146题,是一道设计LRU的题目. 题目详情运用你所掌握的数据结构,设计和实现一个 LRU (最近最少使用) 缓存机 ...

Scrapy 小技巧（一）：使用 scrapy 自带的函数（follow & follow_all）优雅的生成下一个请求

前言