爬虫系列4：scrapy技术进阶之多页面爬取

多页面爬取有两种形式。

1）从某一个或者多个主页中获取多个子页面的url列表，parse()函数依次爬取列表中的各个子页面。

2）从递归爬取，这个相对简单。在scrapy中只要定义好初始页面以及爬虫规则rules，就能够实现自动化的递归爬取。

获取子页面url列表的代码示例如下：

#先获取url list，然后根据list爬取各个子页面内容

fromtutorial.items import DmozItem

classDmozSpider(scrapy.Spider):

    name = "dmoz"

    allowed_domains = ["dmoz.org"]

    start_urls =["http://www.dmoz.org/Computers/Programming/Languages/Python/",]

    def parse(self, response):

        for href inresponse.css("ul.directory.dir-col > li > a::attr('href')"):

#获取当前页面的url：respone.url

#通过拼接response.url和href.extract()，将相对网址转换为绝对网址

            url =response.urljoin(response.url, href.extract())

            yield scrapy.Request(url, callback=self.parse_dir_contents)

         #负责子页面内容的爬取

    def parse_dir_contents(self, response):

        for sel in response.xpath('//ul/li'):

            item = DmozItem()

            item['title'] =sel.xpath('a/text()').extract()

            item['link'] = sel.xpath('a/@href').extract()

            item['desc'] =sel.xpath('text()').extract()

            yield item

爬虫系列4：scrapy技术进阶之多页面爬取的更多相关文章

爬虫系列3：scrapy技术进阶（xpath、rules、shell等）
本文主要介绍与scrapy应用紧密相关的关键技术,不求很深入,但求能够提取要点.内容包括: 1.xpath选择器:选择页面中想要的内容 2.rules规则:定义爬虫要爬取的域 3.scrapy she ...
爬虫系列5：scrapy动态页面爬取的另一种思路
前面有篇文章给出了爬取动态页面的一种思路,即应用Selenium+Firefox(参考<scrapy动态页面爬取>).但是selenium需要运行本地浏览器,比较耗时,不太适合大规模网页抓 ...
【图文详解】scrapy爬虫与动态页面——爬取拉勾网职位信息（2）
上次挖了一个坑,今天终于填上了,还记得之前我们做的拉勾爬虫吗?那时我们实现了一页的爬取,今天让我们再接再厉,实现多页爬取,顺便实现职位和公司的关键词搜索功能. 之前的内容就不再介绍了,不熟悉的请一定要 ...
Java分布式爬虫Nutch教程——导入Nutch工程，执行完整爬取
Java分布式爬虫Nutch教程--导入Nutch工程,执行完整爬取 by briefcopy · Published 2016年4月25日 · Updated 2016年12月11日在使用本教程之 ...
scrapy之盗墓笔记三级页面爬取
#今日目标 **scrapy之盗墓笔记三级页面爬取** 今天要爬取的是盗墓笔记小说,由分析该小说的主要内容在三级页面里,故需要我们一一解析 *代码实现* daomu.py ``` import sc ...
5、爬虫系列之scrapy框架
一 scrapy框架简介 1 介绍 (1) 什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架就是一个已经被集成了各种功能(高性能 ...
scrapy爬虫系列之一--scrapy的基本用法
功能点:scrapy基本使用爬取网站:传智播客老师完整代码:https://files.cnblogs.com/files/bookwed/first.zip 主要代码: ff.py # -*- ...
python爬虫系列：Scrapy安装与使用
这篇博文主要写Scrapy框架的安装与使用 Scrapy框架安装命令行进入C:\Anaconda2\Scripts目录,运行:conda install Scrapy 创建Scrapy项目 1)进入 ...
scrapy技术进阶-URL路径依赖
方法1: #!/usr/bin/python # -*- coding: gbk -*- import time from scrapy.spider import BaseSpider from s ...

随机推荐

centos7-jdk快速安装
安装之前先检查一下系统有没有自带open-jdk 命令: rpm -qa |grep java rpm -qa |grep jdk rpm -qa |grep gcj 如果没有输入信息表示没有安装. ...
maven生命周期绑定要点
生命周期不执行任何操作,都是抱插件大腿 maven-core-3.3.9-sources.jar下META-INF/plexus/components.xml的定义了三个生命周期的插件绑定参考:ht ...
Day2----Jmeter 压测
一.jmeter 压测1.一般压测时间为10-15分钟就行,设置时间在调度器配置--持续时间中设置,例如:想压10分钟,则持续时间输入:600 1.线程数:发送请求的用户数,即并发数 2.Ram-up ...
mfscli的使用方法(解决mfscgi响应慢的问题)
在moosefs中,mfscgi是一个python写的server程序,其中的数据是调用同样的python工具mfscli实现的. 每当用浏览器打开mfscgi的时候,它要把所有的表数据请求一遍,非常 ...
VMware如何进入安全模式
VMware进入安全模式和物理机一样:使光标处于在虚拟机中激活状态,启动系统时不停按F8即可. 安全模式--只加载必要的驱动和进程:在cmd可以看到部份命令不能执行或命令功能不能完全实现. 网络安全模 ...
h5的坑
转自 http://www.mahaixiang.cn 解决各种坑 http://www.mahaixiang.cn/ydseo/1529.html
vs2015 出现Lc.exe 已退出，代码为-1的问题，如何解决
今天在代码运行时,出现lc.exe已退出,代码为-1 的问题
学习笔记-AngularJs（六）
在学习笔记-AngularJs(五),通过引入bootstrap.css进行改写整个样式,这时学习项目也变得好看多了,现在我们又需要目录再进行一次改变,如下图: 这样就符合之前讲的对学习目录进行布置了 ...
Win10系列：VC++数据绑定
数据绑定是一种将后台数据绑定到前台控件的机制,通常用于动态地将对象或集合中所保存的数据显示到前台界面中.本节通过一个具体的示例来说明在Windows应用商店应用中如何通过数据绑定将保存在集合中的数据显 ...
U启动制作U盘启动盘详细教程
第一步打开u启动装机版,将准备好的u盘插入电脑usb接口并静待软件对u盘进行识别,由于此次u启动采用全新功能智能模式,可为u盘自动选择兼容性强与适应性高的方式进行制作,相较过去版本可省去多余的选择操 ...

爬虫系列4：scrapy技术进阶之多页面爬取

爬虫系列4：scrapy技术进阶之多页面爬取的更多相关文章

随机推荐

热门专题