scrapy框架之持久化操作

基于终端指令的持久化存储
基于管道的持久化存储

1 基于终端指令的持久化存储

保证爬虫文件的parse方法中有可迭代类型对象（通常为列表or字典）的返回，该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作。

执行输出指定格式进行存储：将爬取到的数据写入不同格式的文件中进行存储

    scrapy crawl 爬虫名称 -o xxx.json

    scrapy crawl 爬虫名称 -o xxx.xml

    scrapy crawl 爬虫名称 -o xxx.csv

以爬取糗事百科(https://www.qiushibaike.com/text/)为例

import scrapy

class QiubaiSpider(scrapy.Spider):

    name = 'qiubai'                                  # 表示该爬虫文件的名称

    allowed_domains = ['www.qiushibaike.com/text/']

    start_urls = ['https://www.qiushibaike.com/text/']

　　
　　# 解析函数

    def parse(self, response): # response就是对起始url发起请求后,对应的响应对象

        author_list = response.xpath('//div[@id="content-left"]/div')

        all_data = []

        for div in author_list:
　　　　　　　# extract_first()可以将xpath返回列表中第一个列表元素进行extract解析操作

            author = div.xpath('./div/a[2]/h2/text()').extract_first()
　　　　　　　# extract()可以将Selector对象中存储的数据进行解析操作
　　　　　　　 author = div.xpath('./div/a[2]/h2/text()').extract()

            content = div.xpath('./a/div/span/text()').extract_first()

            dict={

                'author':author,

                'content':content

            }

            all_data.append(dict)

        return all_data  # 可迭代的对象

在终端写入

执行输出指定格式进行存储：将爬取到的数据写入不同格式的文件中进行存储

    scrapy crawl 爬虫名称 -o xxx.json

    scrapy crawl 爬虫名称 -o xxx.xml

    scrapy crawl 爬虫名称 -o xxx.csv

2 基于管道的持久化存储

scrapy框架中已经为我们专门集成好了高效、便捷的持久化操作功能，我们直接使用即可。要想使用scrapy的持久化操作功能，我们首先来认识如下两个文件：

    items.py：数据结构模板文件。定义数据属性。

    pipelines.py：管道文件。接收数据（items），进行持久化操作。

持久化流程：

    1.爬虫文件爬取到数据后，需要将数据封装到items对象中。

    2.使用yield关键字将items对象提交给pipelines管道进行持久化操作。

    3.在管道文件中的process_item方法中接收爬虫文件提交过来的item对象，然后编写持久化存储的代码将item对象中存储的数据进行持久化存储

    4.settings.py配置文件中开启管道

1 爬虫文件qiubai.py

# -*- coding: utf- -*-

import scrapy

from ..items import FirstProjectItem

'''基于管道存储'''

'''

 爬虫文件中解析数据

 【items.py】将解析到的数据值全部分装在item对象中

 pipelines.py

 settings.py配置文件

'''

class QiubaiSpider(scrapy.Spider):

    name = 'qiubai'

    allowed_domains = ['www.qiushibaike.com/text/']

    start_urls = ['https://www.qiushibaike.com/text/']

    def parse(self, response):

        author_list = response.xpath('//div[@id="content-left"]/div')

　　　　 for div in author_list:

            author = div.xpath('./div/a[2]/h2/text()').extract_first()

            # author = div.xpath('./div/a[2]/h2/text()')[].extract()

            content = div.xpath('./a/div/span/text()').extract_first()

　　　　　　　　----------------------------------------------------

            items = FirstProjectItem()

            items["author"] = author         重点

            items["content"] = content

            # 提交给管道

            yield items
　　　　　　　　----------------------------------------------------

2 items.py

import scrapy

# items会实例化一个items对象； 用来存储解析到的数据值

class FirstProjectItem(scrapy.Item):

    # define the fields for your item here like:
　　　-----------------------------------------

    author = scrapy.Field()

    content = scrapy.Field()    重点  你在第一步中有几个要持久化的这就写上对应的
     -----------------------------------------

3 pipelines.py

# 爬虫文件每向管道提交一次item则process_item方法就会被执行一次
class FirstProjectPipeline(object):
　　　　　　　　　　　　　　　　# item就是爬虫文件提交过来的

    def process_item(self, item, spider):

        return item

4 settings.py

# 第67行
ITEM_PIPELINES = {

   'first_project.pipelines.FirstProjectPipeline': ,

}

依据上面四步我们就学会了基本的“基于管道的持久化”的步骤，但是我们要在piplines.py做一些操作

只是修改第3步pipelines.py

# -*- coding: utf- -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

class FirstProjectPipeline(object):

# 每次都会打开多次文件，我们重写 open_spider方法来开文件一次

    fp = None

    def open_spider(self, spider):

        print('开始爬虫')

        self.fp = open('qiubai1.txt', 'w', encoding='utf-8')

    def process_item(self, item, spider):

        self.fp.write(item['author']+':'+item["content"]+"\n")    # 生成qiubai1.txt文件

        return item

    def close_spider(self,spider):

        print('结束爬虫')

        self.fp.close()

3 写入数据库

import pymysql
class MysqlPipline(object):

    cursor = None

    conn = None

    def open_spider(self, spider):

        print('mysql开始')

        self.conn = pymysql.connect(host='127.0.0.1', user='root', password='123456', port=3306, db='s18',charset='utf8')

    def process_item(self, item, spider):

        sql = "insert into t_qiubai VALUES ('%s','%s')"%(item["author"], item["content"])

        self.cursor = self.conn.cursor()

        try:

            self.cursor.execute(sql)

            self.conn.commit()

        except Exception as e:

            self.conn.rollback()

        return item

    def close_spider(self, spider):

        print('mysql结束')

        self.cursor.close()

        self.conn.close()

settings.py

ITEM_PIPELINES = {

   'first_project.pipelines.FirstProjectPipeline': ,

   'first_project.pipelines.MysqlPipline': ,           # settings 配置      值越小 越优先

}

4 写入redis数据库

wins安装redis

import redis

class RedisPipline(object):

    r = None

    def open_spider(self, spider):

        print('redis开始')

        self.r = redis.Redis(host='127.0.0.1', port=6379)

    def process_item(self, item, spider):

        dict = {

            'author':item['author'],

            'content':item['content']

        }

        self.r.lpush('data', dict)

        return item

    def close_spider(self, spider):

        print('redis结束')

settings.py设置

ITEM_PIPELINES = {

   'first_project.pipelines.FirstProjectPipeline': 300,

   'first_project.pipelines.RedisPipline': 500,

}

我们可以去redis里面查看

key *   # 查看所有的key

lrange key 0 -1  # 从头到尾查看key

（六--二）scrapy框架之持久化操作的更多相关文章

scrapy框架之持久化操作
1.基于终端指令的持久化存储保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作. 执行输出指定格式进行存储: ...
爬虫开发8.scrapy框架之持久化操作
今日概要基于终端指令的持久化存储基于管道的持久化存储今日详情 1.基于终端指令的持久化存储保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的 ...
scrapy框架之分布式操作
分布式概念分布式爬虫: 1.概念:多台机器上可以执行同一个爬虫程序,实现网站数据的分布爬取. 2.原生的scrapy是不可以实现分布式爬虫? a)调度器无法共享 b)管道无法共享 3.scrapy- ...
6 scrapy框架之分布式操作
分布式爬虫一.redis简单回顾 1.启动redis: mac/linux: redis-server redis.conf windows: redis-server.exe redis-wi ...
scrapy框架的持久化存储
一 . 基于终端指令的持久化存储保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作. 执行输出指定格式进行存 ...
爬虫开发14.scrapy框架之分布式操作
分布式爬虫一.redis简单回顾 1.启动redis: mac/linux: redis-server redis.conf windows: redis-server.exe redis-wi ...
scrapy框架之CrawlSpider操作
提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基 ...
爬虫开发11.scrapy框架之CrawlSpider操作
提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基 ...
Scrapy 框架，持久化文件相关
持久化相关相关文件 items.py 数据结构模板文件.定义数据属性. pipelines.py 管道文件.接收数据(items),进行持久化操作. 持久化流程 1.爬虫文件爬取到数据后,需要将数据 ...

随机推荐

computed、methods、watch
computed:计算属性将被混入到 Vue 实例中.所有 getter 和 setter 的 this 上下文自动地绑定为 Vue 实例. methods:methods 将被混入到 Vue 实例中 ...
Day3-R-Aggressive cows POJ2456
Farmer John has built a new long barn, with N (2 <= N <= 100,000) stalls. The stalls are locat ...
Centos7 下vmware NAT模式配置网络连接与DNS
NAT模式配置网络 1.首先查看NAT模式下的网络从这边可以知道我的vmware下的nat模式的网络是192.168.109.*网段上图这个网段也可以修改为别的网段 2.NAT模式下的网关 3.配 ...
Python入门知识总结【新手必学】
Python 基础学习输入和输出list 和 tuple条件判断循环dict 和 set感觉python这门语言用途较广,先熟悉下其语法.PS:另外很多人在学习Python的过程中,往往因为没有好的教 ...
如何利用TableView显示自定义nib中创建的UITableViewCell或子类?
1.创建nib文件 cell.xib 2.在nib中拖一个UITableView出来,设置其reuse Identifier,再根据cell UI需要拖出view摆放好 3.创建ViewControl ...
fiddler抓取URL之过滤设置
Fiddler是强大的抓包工具,它的原理是以web代理服务器的形式进行工作的,使用的代理地址是:127.0.0.1,端口默认为8888,我们也可以通过设置进行修改. 只要是开启了fiddler,我们的 ...
DEDE后台升级后不显示编辑器
dede5.7不显示编辑器不能编辑文章的解决办法:进入系统后台系统配置-系统基本参数-核心设置将fck换成ckeditor保存,当然需要fck编辑器也可以到dede官网下载.dede5.7不显示编辑器 ...
[转载]@Component 和 @Bean 的区别
@Component 和 @Bean 的区别 @Component 和 @Bean 的区别 Spring帮助我们管理Bean分为两个部分,一个是注册Bean,一个装配Bean. 完成这两个动作有三种方 ...
论文阅读：Blink-Fast Connectivity Recovery Entirely in the Data Plane
1.背景在网络中,链路故障的发生在所难免,为了降低故障带来的影响,就需要重新路由,将数据传输到合适的链路上.当因为链路故障发生处的不同,也有不同的解决方法. AS(Autonomous System ...
CSAPP读书笔记--第八章异常控制流
第八章异常控制流 2017-11-14 概述控制转移序列叫做控制流.目前为止,我们学过两种改变控制流的方式: 1)跳转和分支: 2)调用和返回. 但是上面的方法只能控制程序本身,发生以下系统状态的 ...

（六--二）scrapy框架之持久化操作