Scrapy 1.4 文档 01 初窥 Scrapy

初窥 Scrapy

Scrapy 是用于抓取网站并提取结构化数据的应用程序框架，其应用非常广泛，如数据挖掘，信息处理或历史存档。

尽管 Scrapy 最初设计用于网络数据采集（web scraping），但它也可用于使用 API（如 Amazon Associates Web Services）提取数据或用作通用的网络爬虫。

爬虫（spider）示例

为了向您展示 Scrapy 带给您的是什么，我们将使用最简单的方式运行一个爬虫，向您展示一个 Scrape Spider 的例子。

这是一个爬虫的代码，用于从网站 http://quotes.toscrape.com 中抓取名人名言（famous quotes）：

import scrapy

class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'http://quotes.toscrape.com/tag/humor/',
    ]

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').extract_first(),
                'author': quote.xpath('span/small/text()').extract_first(),
            }

        next_page = response.css('li.next a::attr("href")').extract_first()
        if next_page is not None:
            yield response.follow(next_page, self.parse)

将其放在一个文本文件中，并将其命名为 quotes_spider.py，使用 runspider 命令启动爬虫：

scrapy runspider quotes_spider.py -o quotes.json

运行完成后，您将在 quotes.json 文件中看到 JSON 格式化的名人名言列表，包括文本和作者，如下所示（为了获得更好的可读性，在这里重新排版了一下）：

[{
    "author": "Jane Austen",
    "text": "\u201cThe person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.\u201d"
},
{
    "author": "Groucho Marx",
    "text": "\u201cOutside of a dog, a book is man's best friend. Inside of a dog it's too dark to read.\u201d"
},
{
    "author": "Steve Martin",
    "text": "\u201cA day without sunshine is like, you know, night.\u201d"
},
...]

刚刚发生了什么？

当您运行命令 scrapy runspider quotes_spider.py 时，Scrapy 查找其中的 Spider 定义，并通过抓取引擎运行它。

通过对 start_urls 属性中定义的 URL（在里，只有一个URL，为标签（tag）为幽默（humor）的名言）发起请求（making requests）启动爬虫，并调用默认的回调方法 parse，参数为响应对象（response）。在 parse 回调方法中，我们使用 CSS 选择器循环遍历名言（quote）所在的元素，产生（yield）一个包含名人名言的 Python 字典，然后查找下一页的链接，并使用同样的回调方法 parse 发起另一个请求。

在这里，您或许注意到了 Scrapy 的主要优点之一：请求和处理是异步的。这意味着 Scrapy 不需要等待一个请求返回的结果被处理完毕，就可以在此期间发起另一个请求或执行其他操作。这也意味着即使某些请求失败了或在处理它时发生错误，其他请求仍然可以继续进行。

虽然这样可以使您进行非常快速的抓取（以容错方式同时发起多个请求），Scrapy 也可以让您通过一些设置来控制爬网的速度。您可以在每个请求之间设置下载延迟，限制每个域或每个 IP 的并发请求数量，甚至使用自动调节扩展来自动计算这些延迟。

注意

这里使用了 feed exports 来生成 JSON 文件，您可以轻松地更改导出格式（例如，XML 或 CSV）和存储后台（例如，FTP 或 Amazon S3）。您还可以编写一个项目管道（item pipeline）以将项目存储在数据库中。

还有什么？

您已经看到如何使用 Scrapy 从网站中提取和存储数据，但这只是表面的。Scrapy 提供了许多强大的功能使爬取更容易高效，如：

内置支持使用扩展的 CSS 选择器和 XPath 表达式从 HTML/XML 源代码中选择和提取数据，支持正则表达式。
交互式 shell 控制台（IPython aware）用于尝试 CSS 和 XPath 表达式来抓取数据，在编写或调试您的爬虫时非常有用。
内置支持以多种格式（JSON，CSV，XML）生成 feed exports，并将其存储在多种后端（FTP，S3，本地文件系统）
强大的编码支持和自动检测功能，用于处理多种语言的，非标准的和错误的编码声明。
强大的可扩展性，允许您使用信号（signals）和良好定义的API（中间件，扩展和管道）插入自己的功能。
广泛的内置扩展和中间件处理：
- Cookie 和会话处理
- HTTP 功能，如压缩，身份验证，缓存
- 用户代理欺骗
- robots.txt
- 爬取深度限制
- 和更多
一个 Telnet 控制台，用于挂接到 Scrapy 所在的的 Python 控制台，以便检查并调试您的爬虫
还有其他好处诸如：可复用的从网站地图和 XML/CSV 文件中抓取网站的爬虫，自动下载与被抓取项目相关的图像（或任何其他多媒体）的媒体管道，可缓存的DNS解析器等等！

下一步是什么？

接下来的步骤是安装 Scrapy，根据教程创建一个完整的 Scrapy 项目并加入社区。感谢您的关注！