scrapy 的三个入门应用场景

说明：

本文参照了官网的 dmoz 爬虫例子。

不过这个例子有些年头了，而 dmoz.org 的网页结构已经不同以前。所以我对xpath也相应地进行了修改。

概要：

本文提出了scrapy 的三个入门应用场景

爬取单页
根据目录页面，爬取所有指向的页面
爬取第一页，然后根据第一页的连接，再爬取下一页...。依此，直到结束

对于场景二、场景三可以认为都属于：链接跟随(Following links)

链接跟随的特点就是：在 parse 函数结束时，必须 yield 一个带回调函数 callback 的 Request 类的实例

本文基于：windows 7 (64) + python 3.5 (64) + scrapy 1.2

场景一

描述：

爬取单页内容

示例代码：

import scrapy

from tutorial.items import DmozItem

class DmozSpider(scrapy.Spider):

    name = "dmoz"

    allowed_domains = ["dmoz.org"]

    start_urls = [

        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",

        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"

    ]

    def parse(self, response):

        for div in response.xpath('//div[@class="title-and-desc"]'):

            item = DmozItem()

            item['title'] = div.xpath('a/div/text()').extract_first().strip()

            item['link'] = div.xpath('a/@href').extract_first()

            item['desc'] = div.xpath('div[@class="site-descr "]/text()').extract_first().strip()

            yield item

场景二

描述：

①进入目录，提取连接。

②然后爬取连接指向的页面的内容

其中①的yield scrapy.Request的callback指向②

官网描述：

...extract the links for the pages you are interested, follow them and then extract the data you want for all of them.

示例代码：

import scrapy

from tutorial.items import DmozItem

class DmozSpider(scrapy.Spider):

    name = "dmoz"

    allowed_domains = ["dmoz.org"]

    start_urls = [

        'http://www.dmoz.org/Computers/Programming/Languages/Python/' # 这是目录页面

    ]

    def parse(self, response):

        for a in response.xpath('//section[@id="subcategories-section"]//div[@class="cat-item"]/a'):

            url = response.urljoin(a.xpath('@href').extract_first().split('/')[-2])

            yield scrapy.Request(url, callback=self.parse_dir_contents)

    def parse_dir_contents(self, response):

        for div in response.xpath('//div[@class="title-and-desc"]'):

            item = DmozItem()

            item['title'] = div.xpath('a/div/text()').extract_first().strip()

            item['link'] = div.xpath('a/@href').extract_first()

            item['desc'] = div.xpath('div[@class="site-descr "]/text()').extract_first().strip()

            yield item

场景三

描述：

①进入页面，爬取内容，并提取下一页的连接。

②然后爬取下一页连接指向的页面的内容

其中①的yield scrapy.Request的callback指向①自己

官网描述：

A common pattern is a callback method that extracts some items, looks for a link to follow to the next page and then yields a Request with the same callback for it

示例代码：

import scrapy

from myproject.items import MyItem

class MySpider(scrapy.Spider):

    name = 'example.com'

    allowed_domains = ['example.com']

    start_urls = [

        'http://www.example.com/1.html',

        'http://www.example.com/2.html',

        'http://www.example.com/3.html',

    ]

    def parse(self, response):

        for h3 in response.xpath('//h3').extract():

            yield MyItem(title=h3)

        for url in response.xpath('//a/@href').extract():

            yield scrapy.Request(url, callback=self.parse)

说明：

第三个场景未测试！

scrapy 的三个入门应用场景的更多相关文章

Selenium WebDriver + Grid2 + RSpec之旅（三） ----入门小例子
Selenium WebDriver + Grid2 + RSpec之旅(三) ----入门小例子第一个例子都是比较简单的博客园登录界面,就像学习编程语言时候都是从Hello,World!开始. 1 ...
git和github新手安装使用教程（三步入门）
git和github新手安装使用教程(三步入门) 对于新手来说,每次更换设备时,github的安装和配置都会耗费大量时间.主要原因是每次安装时都只关心了[怎么做],而忘记了记住[为什么].本文从操作的 ...
scrapy框架(三)
scrapy框架(三) CrawlSpider类创建CrawlSpider # 创建项目后 $ scrapy genspider -t crawl spider_name website_doma ...
学会Git玩转GitHub(第三篇) 入门详解 - 精简归纳
学会Git玩转GitHub(第三篇) 入门详解 - 精简归纳 JERRY_Z. ~ 2020 / 10 / 25 转载请注明出处!️ 目录学会Git玩转GitHub(第三篇) 入门详解 - 精简归纳 ...
转：Scrapy安装、爬虫入门教程、爬虫实例（豆瓣电影爬虫）
Scrapy在window上的安装教程见下面的链接:Scrapy安装教程上述安装教程已实践,可行.(本来打算在ubuntu上安装Scrapy的,但是Ubuntu 磁盘空间太少了,还没扩展磁盘空间,所 ...
Scrapy安装、爬虫入门教程、爬虫实例（豆瓣电影爬虫）
Scrapy在window上的安装教程见下面的链接:Scrapy安装教程上述安装教程已实践,可行.(本来打算在ubuntu上安装Scrapy的,但是Ubuntu 磁盘空间太少了,还没扩展磁盘空间,所 ...
『Scrapy』爬虫框架入门
框架结构引擎:处于中央位置协调工作的模块 spiders:生成需求url直接处理响应的单元调度器:生成url队列(包括去重等) 下载器:直接和互联网打交道的单元管道:持久化存储的单元框架安装 ...
爬虫（5）- Scrapy 框架简介与入门
Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页 ...
Jmeter(三) - 从入门到精通 - 测试计划（Test Plan）的元件（详解教程）
1.简介上一篇中宏哥已经教你如何通过JMeter来创建一个测试计划(Test Plan),那么这一篇我们就将JMeter启动起来,创建一个测试计划(Test plan),然后宏哥给大家介绍一下测试计 ...

随机推荐

I/O多路复用——epoll函数
1 select的低效率 select/poll函数效率比较低,主要有以下两个原因: (1)调用select函数后需要对所有文件描述符进行循环查找 (2)每次调用select函数时都需要向该函数传递监 ...
C++ 中引用与指针的区别
1.引用只是变量的一个别名,并不占用内存空间,而指针是一个变量,里面保存着被指向的变量在内存中的地址: 2 引用只能在定义时被初始化一次,之后不可变,而指针可变: 3 引用没有 const,指针有 c ...
mysql高可用之LVS + KEEPALIVE + MYSQL
1.架构图注意 (一) Mysql需要把bind-address的配置去掉,否则无法实现虚拟ip访问 (二) 关闭所有linux防火墙:/sbin/iptables –F(可能没用) (三) ...
Android 实用代码片段
一些不常见确又很实用的代码块. 1.精确获取屏幕尺寸(例如:3.5.4.0.5.0寸屏幕) public static double getScreenPhysicalSize(Activity ct ...
HTTPS的七个误解
转自:http://www.ruanyifeng.com/blog/2011/02/seven_myths_about_https.html 开发网页的时候,往往需要观察HTTP通信. 我使用的工具主 ...
Redis的数据类型及操作
Strings 最简单的类型,一个Key对应一个Value,string类型是二进制安全的.Redis的string可以包含任何数据,如图片或序列化的对象操作 Set:设置key对应的值为strin ...
通过反射获取SSM的controller层的注解以及注解中的value值
package com.reflection.test; import java.lang.annotation.Annotation; import java.lang.reflect.Invoca ...
SSIS with vertica
使用ODBC进行连接,因为SSIS中没有直接的ODBC connection,所以使用ADO.NET的连接器. 九分钟才跑了四百来条数据. 这个图反应了SSIS的数据流速度还是可以的,但是瓶颈就在OD ...
[转]EXCEL如何使用动态公式
本文转自:http://tech.cncms.com/ruanjian/office/excel/95440.html 也许大家可能还不知道Excel中的动态公式是什么,所谓的动态公式,不是普通的公式 ...
c++获取sqlite3数据库表中所有字段的方法
常用方法: 1.使用sqlite3_get_table函数 2.获取sqlite创建表的sql语句字符串,然后进行解析获取到相应的字段 3.采用配置文件的方式,将所有字段名写入配置文件方法1:使用s ...

scrapy 的三个入门应用场景

场景一

场景二

场景三

scrapy 的三个入门应用场景的更多相关文章

随机推荐

热门专题