Scrapy框架(二)--持久化存储

持久化存储

scrapy的高性能持久化存储操作，有两种方式：基于终端指令的持久化存储和基于管道的持久化存储操作。

基于终端指令的持久化存储

保证爬虫文件的parse方法中有可迭代类型对象（通常为列表or字典）的返回，该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作。

执行指令：
执行输出指定格式进行存储：将爬取到的数据写入不同格式的文件中进行存储
scrapy crawl 爬虫名称 -o xxx.json
scrapy crawl 爬虫名称 -o xxx.xml
scrapy crawl 爬虫名称 -o xxx.csv

# -*- coding: utf-8 -*-

import scrapy

class QiushiSpider(scrapy.Spider):

    name = 'qiushi'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['https://www.qiushibaike.com/text/']

    def parse(self, response):

        # # 基于终端的持久化存储

        div_list = response.xpath('//div[@class="col1 old-style-col1"]/div')

        all_data = []

        for div in div_list:

            # xpath返回的是列表 列表中是Selector对象

            # extract() 可将对象中的data参数存储的字符串取出

            # author = div.xpath('./div[1]/a[2]/h2/text()')[0].extract()

            author = div.xpath('./div[1]/a[2]/h2/text()').extract_first()  # 在确定列表只有一个元素的情况下使用

            # 列表调用extract() 将列表中每一个Selector对象的data字符串取出来

            content = div.xpath('./a[1]/div[1]/span//text()').extract()

            content = ''.join(content)

            dic = {

                'author': author,

                'content': content

            }

            all_data.append(dic)

            # 基于终端持久化存储 要求是存储parse方法的返回值 'json', 'jsonlines', 'jl', 'csv', 'xml', 'marshal', 'pickle'

        return all_data

- 要求：只可以将parse方法的返回值存储到本地的文本文件中
- 注意：持久化存储对应的文本文件的类型只可以为：'json', 'jsonlines', 'jl', 'csv', 'xml', 'marshal', 'pickle
- 指令：scrapy crawl xxx -o filePath
- 好处：简介高效便捷
- 缺点：局限性比较强（数据只可以存储到指定后缀的文本文件中）

基于管道的持久化存储操作

我们首先来认识如下两个文件：
　　items.py：数据结构模板文件。定义数据属性。
　　pipelines.py：管道文件。接收数据（items），进行持久化操作。

持久化流程：

　　1.爬虫文件爬取到数据后，需要将数据封装到items对象中。
　　2.使用yield关键字将items对象提交给pipelines管道进行持久化操作。
　　3.在管道文件中的process_item方法中接收爬虫文件提交过来的item对象，然后编写持久化存储的代码将item对象中存储的数据进行持久化存储
　　4.settings.py配置文件中开启管道

爬虫文件：qiushi.py

# -*- coding: utf-8 -*-

import scrapy

from qiuShi.items import QiushiItem

class QiushiSpider(scrapy.Spider):

    name = 'qiushi'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['https://www.qiushibaike.com/text/']

    def parse(self, response):

        # 基于管道的持久化存储

        div_list = response.xpath('//div[@class="col1 old-style-col1"]/div')

        for div in div_list:

            # xpath返回的是列表 列表中是Selector对象

            # extract() 可将对象中的data参数存储的字符串取出

            # author = div.xpath('./div[1]/a[2]/h2/text()')[0].extract()

            author = div.xpath('./div[1]/a[2]/h2/text()').extract_first()  # 在确定列表只有一个元素的情况下使用

            # 列表调用extract() 将列表中每一个Selector对象的data字符串取出来

            content = div.xpath('./a[1]/div[1]/span//text()').extract()

            content = ''.join(content)

            item = QiushiItem()

            item['author'] = author

            item['content'] = content

            yield item  # 将item提交给管道

items文件：items.py

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy

class QiushiItem(scrapy.Item):

    # define the fields for your item here like:

    author = scrapy.Field()

    content = scrapy.Field()  # 存储的数据用item封装 固定形式

管道文件:pipelines.py

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html

import pymysql

class QiushiPipeline:

    # 持久化存储

    fp = None

    # 重写父类方法 该方法只在爬虫开始时执行一次

    def open_spider(self, spider):

        print('爬取开始...')

        self.fp = open('qishi.txt', 'w', encoding='utf-8')

    def process_item(self, item, spider):

        author = item['author']

        content = item['content']

        self.fp.write(author + ':' + content + '\n')

        return item  # 可以将item交给下一个被执行的管道类

    # 重写父类方法 该方法只在爬虫结束时 执行一次

    def close_spider(self, spider):

        print('爬取结束！')

        self.fp.close()

# 管道文件中的一个管道类 对应将数据存储到一个平台或者载体中

class mysqlPipeline:
"""存入数据库"""

    conn = None

    cursor = None

    def open_spider(self, spider):

        self.conn = pymysql.Connect(host='127.0.0.1', port=3306, user='root', password='', db='qiushi', charset='utf8')

    def process_item(self, item, spider):

        self.cursor = self.conn.cursor()

        try:

            self.cursor.execute('insert into qiushi values("%s","%s")' % (item['author'], item['content']))

            self.conn.commit()

        except Exception as e:

            print(e)

            self.conn.rollback()

        return item

    def close_spider(self, spider):

        self.cursor.close()

        self.conn.close()

# 管道中的item会被提交到优先级最高的类

配置文件:settings.py

# 开启管道 300为优先级 数值越小 优先级越高

ITEM_PIPELINES = {

   'qiuShi.pipelines.QiushiPipeline': 300,

   'qiuShi.pipelines.mysqlPipeline': 301

}

Scrapy框架(二)--持久化存储的更多相关文章

scrapy框架的持久化存储
一 . 基于终端指令的持久化存储保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作. 执行输出指定格式进行存 ...
（六--二）scrapy框架之持久化操作
scrapy框架之持久化操作基于终端指令的持久化存储基于管道的持久化存储 1 基于终端指令的持久化存储保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过 ...
scrapy 爬虫框架之持久化存储
scrapy 持久化存储一.主要过程: 以爬取校花网为例 : http://www.xiaohuar.com/hua/ 1. spider 回调函数返回item 时要用y ...
scrapy框架之持久化操作
1.基于终端指令的持久化存储保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作. 执行输出指定格式进行存储: ...
爬虫开发8.scrapy框架之持久化操作
今日概要基于终端指令的持久化存储基于管道的持久化存储今日详情 1.基于终端指令的持久化存储保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的 ...
小爬爬5:scrapy介绍3持久化存储
一.两种持久化存储的方式 1.基于终端指令的吃持久化存储: 特点:终端指令的持久化存储,只可以将parse方法的返回值存储到磁盘文件因此我们需要将上一篇文章中的author和content作为返回值 ...
爬虫(十五)：Scrapy框架(二) Selector、Spider、Downloader Middleware
1. Scrapy框架 1.1 Selector的用法我们之前介绍了利用Beautiful Soup.正则表达式来提取网页数据,这确实非常方便.而Scrapy还提供了自己的数据提取方法,即Selec ...
Python项目--Scrapy框架(二)
本文主要是利用scrapy框架爬取果壳问答中热门问答, 精彩问答的相关信息环境 win8, python3.7, pycharm 正文 1. 创建scrapy项目文件在cmd命令行中任意目录下执行 ...
Scrapy 框架，持久化文件相关
持久化相关相关文件 items.py 数据结构模板文件.定义数据属性. pipelines.py 管道文件.接收数据(items),进行持久化操作. 持久化流程 1.爬虫文件爬取到数据后,需要将数据 ...
10 Scrapy框架持久化存储
一.基于终端指令的持久化存储保证parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作. 执行输出指定格式进行存储:将爬取到的 ...

随机推荐

基于 K8s 的交付难题退退退！| 独家交付秘籍（第三回）
简介: 经过仔细研究,我们发现秘籍中提到许多帮助解决交付问题的招式,而其中一个让我们印象很深,是关于在原有社区版容器底座 Kubernetes(以下简称 K8s)的基础上,对容器底座进行改进,可更好的 ...
iofsstat：帮你轻松定位 IO 突高，前因后果一目了然 | 龙蜥技术
简介:磁盘被打满到底是真实的业务需求量上来了呢?还是有什么野进程在占用 IO? iofsstat 帮你精准定位. 编者按:sysAK(system analyse kit),是龙蜥社区系统运维 SI ...
【ClickHouse 技术系列】- 在 ClickHouse 中处理实时更新
简介:本文翻译自 Altinity 针对 ClickHouse 的系列技术文章.面向联机分析处理(OLAP)的开源分析引擎 ClickHouse,因其优良的查询性能,PB级的数据规模,简单的架构,被 ...
[Docker] 假如宿主机 Nginx 代理到 Docker 的 PHP
其实没有多少区别,同样 php 镜像启动服务暴露一个端口,nginx 的 proxy_pass 代理过去,唯一要注意的是 nginx 配置的项目路径. nginx 配置的 root 是本地项目路径,给 ...
[FAQ] Composer, Content-Length mismatch
1. $ composer config repos.packagist composer https://php.cnpkg.org$ composer config cache-files-max ...
🎊这个 OpenTiny 开源项目的 CLI 可太牛了，两行命令创建一个美观大气的 Vue Admin 后台管理系统，有手就会，连我的设计师朋友都学会啦啦
大家好,我是 Kagol,OpenTiny 开源社区运营,TinyVue 跨端.跨框架组件库核心贡献者,专注于前端组件库建设和开源社区运营. 近期尝试了下 OpenTiny 的 CLI 工具,不得不说 ...
大模型必备 - 中文最佳向量模型 acge_text_embedding
近期,上海合合信息科技股份有限公司发布的文本向量化模型 acge_text_embedding 在中文文本向量化领域取得了重大突破,荣获 Massive Text Embedding Benchmar ...
VUE中具名插槽和匿名插槽的使用
在我的项目中由于使用的是vue+element一个自用框架进行开发,插槽用法相较简单比如在列表字段columns使用slotname即可 <template v-slot:_spec=&quo ...
[WC/CTS2024] 线段树题解
Link 纪念一下场切题. 题意:给定一棵(分点不一定为中点)的线段树,给定若干个询问区间,问有多少个线段树上结点的集合,知道了这些结点对应的区间和就可以知道任何一个询问区间的和. 从询问区间开始考虑 ...
JUC并发编程学习笔记（十八）深入理解CAS
深入理解CAS 什么是CAS 为什么要学CAS:大厂你必须深入研究底层!有所突破! java层面的cas------->compareAndSet compareAndSet(int expec ...

Scrapy框架(二)--持久化存储

Scrapy框架(二)--持久化存储的更多相关文章

随机推荐

热门专题