Scrapy框架(二)--持久化存储

持久化存储

scrapy的高性能持久化存储操作，有两种方式：基于终端指令的持久化存储和基于管道的持久化存储操作。

基于终端指令的持久化存储

保证爬虫文件的parse方法中有可迭代类型对象（通常为列表or字典）的返回，该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作。

执行指令：
执行输出指定格式进行存储：将爬取到的数据写入不同格式的文件中进行存储
scrapy crawl 爬虫名称 -o xxx.json
scrapy crawl 爬虫名称 -o xxx.xml
scrapy crawl 爬虫名称 -o xxx.csv

# -*- coding: utf-8 -*-

import scrapy

class QiushiSpider(scrapy.Spider):

    name = 'qiushi'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['https://www.qiushibaike.com/text/']

    def parse(self, response):

        # # 基于终端的持久化存储

        div_list = response.xpath('//div[@class="col1 old-style-col1"]/div')

        all_data = []

        for div in div_list:

            # xpath返回的是列表 列表中是Selector对象

            # extract() 可将对象中的data参数存储的字符串取出

            # author = div.xpath('./div[1]/a[2]/h2/text()')[0].extract()

            author = div.xpath('./div[1]/a[2]/h2/text()').extract_first()  # 在确定列表只有一个元素的情况下使用

            # 列表调用extract() 将列表中每一个Selector对象的data字符串取出来

            content = div.xpath('./a[1]/div[1]/span//text()').extract()

            content = ''.join(content)

            dic = {

                'author': author,

                'content': content

            }

            all_data.append(dic)

            # 基于终端持久化存储 要求是存储parse方法的返回值 'json', 'jsonlines', 'jl', 'csv', 'xml', 'marshal', 'pickle'

        return all_data

- 要求：只可以将parse方法的返回值存储到本地的文本文件中
- 注意：持久化存储对应的文本文件的类型只可以为：'json', 'jsonlines', 'jl', 'csv', 'xml', 'marshal', 'pickle
- 指令：scrapy crawl xxx -o filePath
- 好处：简介高效便捷
- 缺点：局限性比较强（数据只可以存储到指定后缀的文本文件中）

基于管道的持久化存储操作

我们首先来认识如下两个文件：
　　items.py：数据结构模板文件。定义数据属性。
　　pipelines.py：管道文件。接收数据（items），进行持久化操作。

持久化流程：

　　1.爬虫文件爬取到数据后，需要将数据封装到items对象中。
　　2.使用yield关键字将items对象提交给pipelines管道进行持久化操作。
　　3.在管道文件中的process_item方法中接收爬虫文件提交过来的item对象，然后编写持久化存储的代码将item对象中存储的数据进行持久化存储
　　4.settings.py配置文件中开启管道

爬虫文件：qiushi.py

# -*- coding: utf-8 -*-

import scrapy

from qiuShi.items import QiushiItem

class QiushiSpider(scrapy.Spider):

    name = 'qiushi'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['https://www.qiushibaike.com/text/']

    def parse(self, response):

        # 基于管道的持久化存储

        div_list = response.xpath('//div[@class="col1 old-style-col1"]/div')

        for div in div_list:

            # xpath返回的是列表 列表中是Selector对象

            # extract() 可将对象中的data参数存储的字符串取出

            # author = div.xpath('./div[1]/a[2]/h2/text()')[0].extract()

            author = div.xpath('./div[1]/a[2]/h2/text()').extract_first()  # 在确定列表只有一个元素的情况下使用

            # 列表调用extract() 将列表中每一个Selector对象的data字符串取出来

            content = div.xpath('./a[1]/div[1]/span//text()').extract()

            content = ''.join(content)

            item = QiushiItem()

            item['author'] = author

            item['content'] = content

            yield item  # 将item提交给管道

items文件：items.py

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy

class QiushiItem(scrapy.Item):

    # define the fields for your item here like:

    author = scrapy.Field()

    content = scrapy.Field()  # 存储的数据用item封装 固定形式

管道文件:pipelines.py

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html

import pymysql

class QiushiPipeline:

    # 持久化存储

    fp = None

    # 重写父类方法 该方法只在爬虫开始时执行一次

    def open_spider(self, spider):

        print('爬取开始...')

        self.fp = open('qishi.txt', 'w', encoding='utf-8')

    def process_item(self, item, spider):

        author = item['author']

        content = item['content']

        self.fp.write(author + ':' + content + '\n')

        return item  # 可以将item交给下一个被执行的管道类

    # 重写父类方法 该方法只在爬虫结束时 执行一次

    def close_spider(self, spider):

        print('爬取结束！')

        self.fp.close()

# 管道文件中的一个管道类 对应将数据存储到一个平台或者载体中

class mysqlPipeline:
"""存入数据库"""

    conn = None

    cursor = None

    def open_spider(self, spider):

        self.conn = pymysql.Connect(host='127.0.0.1', port=3306, user='root', password='', db='qiushi', charset='utf8')

    def process_item(self, item, spider):

        self.cursor = self.conn.cursor()

        try:

            self.cursor.execute('insert into qiushi values("%s","%s")' % (item['author'], item['content']))

            self.conn.commit()

        except Exception as e:

            print(e)

            self.conn.rollback()

        return item

    def close_spider(self, spider):

        self.cursor.close()

        self.conn.close()

# 管道中的item会被提交到优先级最高的类

配置文件:settings.py

# 开启管道 300为优先级 数值越小 优先级越高

ITEM_PIPELINES = {

   'qiuShi.pipelines.QiushiPipeline': 300,

   'qiuShi.pipelines.mysqlPipeline': 301

}

Scrapy框架(二)--持久化存储的更多相关文章

scrapy框架的持久化存储
一 . 基于终端指令的持久化存储保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作. 执行输出指定格式进行存 ...
（六--二）scrapy框架之持久化操作
scrapy框架之持久化操作基于终端指令的持久化存储基于管道的持久化存储 1 基于终端指令的持久化存储保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过 ...
scrapy 爬虫框架之持久化存储
scrapy 持久化存储一.主要过程: 以爬取校花网为例 : http://www.xiaohuar.com/hua/ 1. spider 回调函数返回item 时要用y ...
scrapy框架之持久化操作
1.基于终端指令的持久化存储保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作. 执行输出指定格式进行存储: ...
爬虫开发8.scrapy框架之持久化操作
今日概要基于终端指令的持久化存储基于管道的持久化存储今日详情 1.基于终端指令的持久化存储保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的 ...
小爬爬5:scrapy介绍3持久化存储
一.两种持久化存储的方式 1.基于终端指令的吃持久化存储: 特点:终端指令的持久化存储,只可以将parse方法的返回值存储到磁盘文件因此我们需要将上一篇文章中的author和content作为返回值 ...
爬虫(十五)：Scrapy框架(二) Selector、Spider、Downloader Middleware
1. Scrapy框架 1.1 Selector的用法我们之前介绍了利用Beautiful Soup.正则表达式来提取网页数据,这确实非常方便.而Scrapy还提供了自己的数据提取方法,即Selec ...
Python项目--Scrapy框架(二)
本文主要是利用scrapy框架爬取果壳问答中热门问答, 精彩问答的相关信息环境 win8, python3.7, pycharm 正文 1. 创建scrapy项目文件在cmd命令行中任意目录下执行 ...
Scrapy 框架，持久化文件相关
持久化相关相关文件 items.py 数据结构模板文件.定义数据属性. pipelines.py 管道文件.接收数据(items),进行持久化操作. 持久化流程 1.爬虫文件爬取到数据后,需要将数据 ...
10 Scrapy框架持久化存储
一.基于终端指令的持久化存储保证parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作. 执行输出指定格式进行存储:将爬取到的 ...

随机推荐

OceanBase初体验之部署生产标准的三节点分布式集群
前置条件 OceanBase 数据库集群至少由三个节点组成,所以先准备好3台服务器: IP 配置操作系统 x.x.x.150 Intel x86 12C 64G内存 1T SSD CentOS 7. ...
ECharts海量数据渲染解决卡顿的4种方式
场景周五进行需求评审的时候: 出现了一个图表,本身一个图表本没有什么稀奇的: 可是产品经理在图表的上的备注,让我觉得这个事情并不简单: 那个图表的时间跨度可以是月,年,而且时间间隔很短: 这让我意识 ...
Dubbo 3.0 前瞻系列 | 2020双11，Dubbo3.0 在考拉的超大规模实践
很多开发者一直以来好奇:阿里自己有没有在用Dubbo,会不会用Dubbo?在刚刚结束的双11,我们了解到阿里云今年提出了"三位一体"的理念,即将"自研技术".& ...
Flink 1.12 资源管理新特性回顾
简介: 介绍 Flink 1.12 资源管理的一些特性,包括内存管理.资源调度.扩展资源框架. 本文由社区志愿者陈政羽整理,Apache Flink Committer.阿里巴巴技术专家宋辛童,Apa ...
[PHP] Laravel 依赖注入使用不当引起的内存溢出
业务逻辑: 正常在 controller 方法的参数中注入某个类,方法中使用这个类时发生内存超出提示. 分析: 过往显示,正常使用依赖注入是不存在问题的,那么很有可能是哪里发生了循环引用,导致一直请求 ...
WPF 不安装 WindowsAppSDK 使用 WinRT 功能的方法
安装 Microsoft.WindowsAppSDK 库会限制应用程序只能分发 windows 10 应用,如果自己的应用程序依然需要兼容 Win7 等旧系统,那直接采用安装 WindowsAppSD ...
记因为 NVIDIA 显驱错误而让 WPF 应用启动闪退问题
本文记录一个因为 NVIDIA 显卡驱动错误而让 WPF 应用启动闪退问题表现是 WPF 应用程序,在启动时,立刻闪退.在事件管理器看到的异常代码是 0xC0000005(Access Violat ...
国内常用源开发环境换源(flutter换源，python换源，Linux换源，npm换源)
国内开源镜像站点大学清华大学开源软件镜像站 (使用较多) 中国科学技术大学开源软件镜像 (使用较多) 浙江大学开源镜像站 (主要是各发行版Linux,pip等常用库) 哈尔滨工业大学开源镜像站 ( ...
vue项目hbuilder打包-微信登录调取手机微信登录权限
这个笔记得做好. 1.vue页面的点击事件 import {login,loginy,wxLog,wxLogin,logout} from '../network/login' wxloginBtn( ...
keepalived（1）- keepalived集群概述
目录 1. 高可用集群概述 2. keepalived概述 2.1 keepalived介绍 2.2 keepalived体系架构 2.3 keepalived实现原理 2.4 keepalived配 ...

Scrapy框架(二)--持久化存储

Scrapy框架(二)--持久化存储的更多相关文章

随机推荐

热门专题