Scrapy框架(八)--CrawlSpider

CrawlSpider类，Spider的一个子类
　　- 全站数据爬取的方式
　　　　- 基于Spider：手动请求
　　　　- 基于CrawlSpider
　　- CrawlSpider的使用：
　　　　- 创建一个工程
　　　　- cd XXX
　　- 创建爬虫文件（CrawlSpider）：
　　　　- scrapy genspider -t crawl xxx www.xxxx.com
　　　　- 链接提取器：
　　　　　　- 作用：根据指定的规则（allow）进行指定链接的提取
　　　　- 规则解析器：
　　　　　　- 作用：将链接提取器提取到的链接进行指定规则（callback）的解析

示例：爬取sun网站中的编号，新闻标题，新闻内容，标号

分析：爬取的数据没有在同一张页面中。
　　- 1.可以使用链接提取器提取所有的页码链接
　　- 2.让链接提取器提取所有的新闻详情页的链接

爬虫文件

# -*- coding: utf-8 -*-

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

from Sun.items import SunItem,DetailItem

class SunSpider(CrawlSpider):

    name = 'sun'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['http://wz.sun0769.com/political/index/politicsNewest?id=1&type=4']

    # 链接提取器：根据指定规则进行指定链接的提取

    link = LinkExtractor(allow=r'id=1&page=\d+')

    link_detail = LinkExtractor(allow=r'index\?id=\d+')  # 一个链接提取器对应一个规则解析器

    rules = (

        # 规则解析器：将链接提取器提取到的链接发送请求 并根据callback进行指定的解析操作

        Rule(link, callback='parse_item', follow=False),

        # follow=True 可以将链接提取器继续作用到 链接提取器提取的链接所对应的页面

        # 通过此设置可对所有的页码进行爬取 调度器有去重过滤功能

        Rule(link_detail, callback='parse_detail', follow=False),

    )

    # 以下两个方法不可以进行请求传参

    # 两个方法都把数据存储到item中 可采用两个item

    def parse_item(self, response):

        li_list = response.xpath('/html/body/div[2]/div[3]/ul[2]/li')

        for li in li_list:

            new_num = li.xpath('./span[1]/text()').extract_first()

            title = li.xpath('./span[3]/a/text()').extract_first()

            item = SunItem()

            item['new_num'] = new_num

            item['title'] = title

            yield item

    def parse_detail(self, response):

        print(111)

        item = DetailItem()

        new_id = response.xpath('/html/body/div[3]/div[2]/div[2]/div[1]/span[4]/text()').extract_first()

        content = response.xpath('/html/body/div[3]/div[2]/div[2]/div[2]//text()').extract_first()

        print(new_id, content)

        item['new_id'] = new_id

        item['content'] = content

        yield item

items.py

class SunPipeline:

    def process_item(self, item, spider):

        if item.__class__.__name__ == 'SunItem':  # 获取当前的item的类名的字符串

            new_num = item['new_num']

            title = item['title']

        else:

            print(22)

            new_id = item['new_id']

            content = item['content']

            print(new_id,content)

        return item

注：在写正则表达式时，需要对特殊的符号进行转义。

Scrapy框架(八)--CrawlSpider的更多相关文章

爬虫scrapy框架之CrawlSpider
爬虫scrapy框架之CrawlSpider 引入提问:如果想要通过爬虫程序去爬取全站数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模 ...
Python网络爬虫之Scrapy框架（CrawlSpider）
目录 Python网络爬虫之Scrapy框架(CrawlSpider) CrawlSpider使用爬取糗事百科糗图板块的所有页码数据 Python网络爬虫之Scrapy框架(CrawlSpider) ...
python爬虫入门（八）Scrapy框架之CrawlSpider类
CrawlSpider类通过下面的命令可以快速创建 CrawlSpider模板的代码: scrapy genspider -t crawl tencent tencent.com CrawSpid ...
Scrapy框架之CrawlSpider
提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基 ...
16.Python网络爬虫之Scrapy框架（CrawlSpider）
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
scrapy框架之CrawlSpider操作
提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基 ...
爬虫开发11.scrapy框架之CrawlSpider操作
提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基 ...
scrapy框架基于CrawlSpider的全站数据爬取
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
scrapy框架之(CrawlSpider)
一.CrawlSpider简介如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调pa ...
16，Python网络爬虫之Scrapy框架（CrawlSpider）
今日概要 CrawlSpider简介 CrawlSpider使用基于CrawlSpider爬虫文件的创建链接提取器规则解析器引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话, ...

随机推荐

力扣393(java)-UTF-8编码验证（中等）
题目: 给定一个表示数据的整数数组 data ,返回它是否为有效的 UTF-8 编码. UTF-8 中的一个字符可能的长度为 1 到 4 字节,遵循以下的规则: 对于 1 字节的字符,字节的第一位设 ...
京东：Flink SQL 优化实战
简介: 本文着重从 shuffle.join 方式的选择.对象重用.UDF 重用等方面介绍了京东在 Flink SQL 任务方面做的优化措施. 本文作者为京东算法服务部的张颖和段学浩,并由 Apach ...
内含干货PPT下载｜一站式数据管理DMS及最新解决方案发布
简介: 今天主要给大家介绍一站式数据管理平台DMS以及解决方案的发布.议题包含企业数据管理当前的一些痛,DMS一站式数据管理平台以及其核心技术,实时数仓解决方案以及相应的应用实践. "数聚 ...
[Mobi] 什么是手机 Root 和 Magisk、Magisk App
手机进行 Root 操作就是让我们能够拥有超级权限,包括被手机厂商所禁止的一些操作. 传统 Root 手段会修改系统文件,因而一些安全性要求较高的 App 会禁止自己在 Root 过的手机上运行. M ...
[FAQ] Solidity 并发执行 ? 重入攻击 ?
Solidity 实现的合约中,函数操作都是原子操作,旷工本地执行,取得共识后发布到区块链上. 实际发布到区块链上的不存在并发,全节点同步状态到本地. Solidity 中有三种方式进行转账,addr ...
dotnet 已知问题使用 Directory.EnumerateXXX 方法枚举 C 盘根路径可能错误的问题
在 dotnet 里面,可以使用 Directory.EnumerateXXX 系列方法进行枚举文件或文件夹.在准备枚举驱动器根路径的文件或文件夹时,可能获取到错误的路径.错误的步骤在于传入的是如 C ...
vue--v-if和v-show的区别（个人项目中的理解应用）
在面试的时候,一道vue基础到不能再基础的面试题叫做v-if与v-show的区别,当然答案网上一搜一大堆,基本两句话就能说明: 1.相同点:都是根据指令是否渲染该组件 2.不同点:v-if仅重新渲染当 ...
从原始边列表到邻接矩阵Python实现图数据处理的完整指南
本文分享自华为云社区<从原始边列表到邻接矩阵Python实现图数据处理的完整指南>,作者: 柠檬味拥抱. 在图论和网络分析中,图是一种非常重要的数据结构,它由节点(或顶点)和连接这些节点的 ...
1、Linux基础
1.centos 安装 2.磁盘分区表示方法 1.2.3.4:主分区,最多4个主分区,后数据为逻辑分区主分区可以激活,但一个硬盘只能激活一个主分区被激活的主分区就是用来引导操作系统的主分区扩展分 ...
elasticsearch02-Request Body深入搜索
目录 02. Request Body深入搜索 1.1 term查询 1.1.1 term 与 terms 1.1.2 range 范围查询 1.1.3 Constant Score 1.2 全文查询 ...

Scrapy框架(八)--CrawlSpider

Scrapy框架(八)--CrawlSpider的更多相关文章

随机推荐

热门专题