Scrapy框架(八)--CrawlSpider

CrawlSpider类，Spider的一个子类
　　- 全站数据爬取的方式
　　　　- 基于Spider：手动请求
　　　　- 基于CrawlSpider
　　- CrawlSpider的使用：
　　　　- 创建一个工程
　　　　- cd XXX
　　- 创建爬虫文件（CrawlSpider）：
　　　　- scrapy genspider -t crawl xxx www.xxxx.com
　　　　- 链接提取器：
　　　　　　- 作用：根据指定的规则（allow）进行指定链接的提取
　　　　- 规则解析器：
　　　　　　- 作用：将链接提取器提取到的链接进行指定规则（callback）的解析

示例：爬取sun网站中的编号，新闻标题，新闻内容，标号

分析：爬取的数据没有在同一张页面中。
　　- 1.可以使用链接提取器提取所有的页码链接
　　- 2.让链接提取器提取所有的新闻详情页的链接

爬虫文件

# -*- coding: utf-8 -*-

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

from Sun.items import SunItem,DetailItem

class SunSpider(CrawlSpider):

    name = 'sun'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['http://wz.sun0769.com/political/index/politicsNewest?id=1&type=4']

    # 链接提取器：根据指定规则进行指定链接的提取

    link = LinkExtractor(allow=r'id=1&page=\d+')

    link_detail = LinkExtractor(allow=r'index\?id=\d+')  # 一个链接提取器对应一个规则解析器

    rules = (

        # 规则解析器：将链接提取器提取到的链接发送请求 并根据callback进行指定的解析操作

        Rule(link, callback='parse_item', follow=False),

        # follow=True 可以将链接提取器继续作用到 链接提取器提取的链接所对应的页面

        # 通过此设置可对所有的页码进行爬取 调度器有去重过滤功能

        Rule(link_detail, callback='parse_detail', follow=False),

    )

    # 以下两个方法不可以进行请求传参

    # 两个方法都把数据存储到item中 可采用两个item

    def parse_item(self, response):

        li_list = response.xpath('/html/body/div[2]/div[3]/ul[2]/li')

        for li in li_list:

            new_num = li.xpath('./span[1]/text()').extract_first()

            title = li.xpath('./span[3]/a/text()').extract_first()

            item = SunItem()

            item['new_num'] = new_num

            item['title'] = title

            yield item

    def parse_detail(self, response):

        print(111)

        item = DetailItem()

        new_id = response.xpath('/html/body/div[3]/div[2]/div[2]/div[1]/span[4]/text()').extract_first()

        content = response.xpath('/html/body/div[3]/div[2]/div[2]/div[2]//text()').extract_first()

        print(new_id, content)

        item['new_id'] = new_id

        item['content'] = content

        yield item

items.py

class SunPipeline:

    def process_item(self, item, spider):

        if item.__class__.__name__ == 'SunItem':  # 获取当前的item的类名的字符串

            new_num = item['new_num']

            title = item['title']

        else:

            print(22)

            new_id = item['new_id']

            content = item['content']

            print(new_id,content)

        return item

注：在写正则表达式时，需要对特殊的符号进行转义。

Scrapy框架(八)--CrawlSpider的更多相关文章

爬虫scrapy框架之CrawlSpider
爬虫scrapy框架之CrawlSpider 引入提问:如果想要通过爬虫程序去爬取全站数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模 ...
Python网络爬虫之Scrapy框架（CrawlSpider）
目录 Python网络爬虫之Scrapy框架(CrawlSpider) CrawlSpider使用爬取糗事百科糗图板块的所有页码数据 Python网络爬虫之Scrapy框架(CrawlSpider) ...
python爬虫入门（八）Scrapy框架之CrawlSpider类
CrawlSpider类通过下面的命令可以快速创建 CrawlSpider模板的代码: scrapy genspider -t crawl tencent tencent.com CrawSpid ...
Scrapy框架之CrawlSpider
提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基 ...
16.Python网络爬虫之Scrapy框架（CrawlSpider）
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
scrapy框架之CrawlSpider操作
提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基 ...
爬虫开发11.scrapy框架之CrawlSpider操作
提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基 ...
scrapy框架基于CrawlSpider的全站数据爬取
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
scrapy框架之(CrawlSpider)
一.CrawlSpider简介如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调pa ...
16，Python网络爬虫之Scrapy框架（CrawlSpider）
今日概要 CrawlSpider简介 CrawlSpider使用基于CrawlSpider爬虫文件的创建链接提取器规则解析器引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话, ...

随机推荐

如何 0 改造，让单体/微服务应用成为 Serverless Application
简介: 随着 2013 年以 Docker 为代表的容器技术.CNCF 基金会以及 K8s 的发展等,云原生开始被广大开发者所熟知.云原生时代之前还有两个阶段:一是自建 IDC 机房,二是简单地把原有 ...
阿里云 EventBridge 事件驱动架构实践
简介:我们认为 EventBridge 是云原生时代新的计算驱动力,这些数据可以驱动云的计算能力,创造更多业务价值. 作者:周新宇本文内容整理自中国开源年会演讲首先做一个自我介绍,我是 Ro ...
鸿蒙HarmonyOS实战-ArkUI动画（页面转场动画）
前言页面转场动画是指在应用程序中,当用户导航到另一个页面时,使用动画效果来过渡页面之间的切换.这样做的目的是为了提升用户体验,使页面之间的切换更加平滑和有趣. 常见的页面转场动画包括淡入淡出.滑动. ...
[FAQ] 你所看过的 APP 流氓提示语有哪些
分享案例来自产品:网抑云. 当你要进行一些常规操作,比如评论时,进行弹窗伺候: |----------------------| | | | 为提高您的账号安全性,请先绑定手机号 ...
[FAQ] jsoneditor 如何切换 mode 或者选择 modes
1. 用于切换编辑器模式:text.tree.code JSONEditor.setMode(mode) 2. 让 mode 变成可以选择的: const options = { modes: ['t ...
[FAQ] Truffle Deployer 合约传参问题: Invalid number of parameters for "undefined". Got 0 expected 1!
在使用 `truffle migrate` 时,如果合约的构造函数需要传参,而部署脚本里没有传的时候,就会报这个错. 未传参时: const Migrations = artifacts.requir ...
Pod进阶篇-Pod生命周期和健康探测以及startupProbe（6）
一.Pod容器探测和钩子 1.1 容器钩子:postStart和preStop postStart:容器创建成功后,运行前的任务,用于资源部署.环境准备等. preStop:在容器被终止前的任务,用于 ...
MyBatis源码之MyBatis中SQL语句执行过程
MyBatis源码之MyBatis中SQL语句执行过程 SQL执行入口我们在使用MyBatis编程时有两种方式: 方式一代码如下: SqlSession sqlSession = sqlSessio ...
前端如何操作动态渲染的多个checkbox列表单选
input[type=checkbox]:after{ content:""; display:inline-block; width:16px; ...
java引入jep实现四则运算包含负数且规范两位小数
1.在pom中引入依赖  <dependency> <groupId>jep</groupId> <artifactId&g ...

Scrapy框架(八)--CrawlSpider

Scrapy框架(八)--CrawlSpider的更多相关文章

随机推荐

热门专题