11，scrapy框架持久化存储

今日总结

基于终端指令的持久化存储
基于管道的持久化存储

今日详情

1.基于终端指令的持久化存储

保证爬虫文件的parse方法中有可迭代类型对象（通常为列表or字典）的返回，该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作。

执行输出指定格式进行存储：将爬取到的数据写入不同格式的文件中进行存储

    scrapy crawl 爬虫名称 -o xxx.json

    scrapy crawl 爬虫名称 -o xxx.xml

    scrapy crawl 爬虫名称 -o xxx.csv

2.基于管道的持久化存储

scrapy框架中已经为我们专门集成好了高效、便捷的持久化操作功能，我们直接使用即可。要想使用scrapy的持久化操作功能，我们首先来认识如下两个文件：

    items.py：数据结构模板文件。定义数据属性。

    pipelines.py：管道文件。接收数据（items），进行持久化操作。

持久化流程：

    .爬虫文件爬取到数据后，需要将数据封装到items对象中。

    .使用yield关键字将items对象提交给pipelines管道进行持久化操作。

    .在管道文件中的process_item方法中接收爬虫文件提交过来的item对象，然后编写持久化存储的代码将item对象中存储的数据进行持久化存储

    .settings.py配置文件中开启管道

小试牛刀：将boss招聘网站中的招聘爬虫的数据爬取下来，然后进行持久化存储

- 爬虫文件：boss.py

# -*- coding: utf-8 -*-

import scrapy

from bossPro.items import BossproItem

class BossSpider(scrapy.Spider):

    name = 'boss'

    # allowed_domains = ['www.xxx.com']

    start_urls = [

        'https://www.zhipin.com/job_detail/?query=python%E7%88%AC%E8%99%AB&scity=101010100&industry=&position=']

    url = 'https://www.zhipin.com/c101010100/?query=python爬虫&page=%d&ka=page-2'

    page = 1

    #  解析+管道持久化存储

    def parse(self, response):

        li_list = response.xpath('//div[@class="job-list"]/ul/li')

        for li in li_list:

            job_name = li.xpath('.//div[@class="info-primary"]/h3/a/div/text()').extract_first()

            salary = li.xpath('.//div[@class="info-primary"]/h3/a/span/text()').extract_first()

            company = li.xpath('.//div[@class="company-text"]/h3/a/text()').extract_first()

            # print(company)

            item = BossproItem()

            item['job_name'] = job_name

            item['salary'] = salary

            item['company'] = company

            yield item

        if self.page <= 3:

            print(f'执行第{self.page+1}页')

            self.page += 1

            new_url = format(self.url % self.page)

            yield scrapy.Request(url=new_url, callback=self.parse)

- items文件：items.py

import scrapy

class BossproItem(scrapy.Item):

    # define the fields for your item here like:

    job_name = scrapy.Field()

    salary = scrapy.Field()

    company = scrapy.Field()

- 管道文件：pipelines.py

import os

import pymysql

from redis import Redis

# 文件存储

class BossproPipeline(object):

    fp = None

    def open_spider(self, spider):

        print('开始爬虫.............................')

        if not os.path.exists('./boss'):

            os.mkdir('./boss')

        self.fp = open('./boss/boss.txt', 'w', encoding='utf8')

    def close_spider(self, spider):

        print('结束爬虫.............................')

        self.fp.close()

    def process_item(self, item, spider):

        self.fp.write(item['job_name']+':'+item['salary']+':'+item['company']+'\n')

        return item

# mysql数据库存储

class mysqlPipeline(object):

    conn = None

    cursor =None

    def open_spider(self,spider):

        self.conn = pymysql.Connect(host='127.0.0.1', port=3306, user='root', password='', db='boss', charset="utf8")

        print(self.conn)

    def process_item(self, item, spider):

        self.cursor = self.conn.cursor()

        try:

            print('insert into boss values ("%s","%s","%s")'%(item['job_name'],item['salary'],item['company']))

            self.cursor.execute('insert into boss(job_name,salary,company) values ("%s","%s","%s")'%(item['job_name'],item['salary'],item['company']))

            self.conn.commit()

        except Exception as e:

            self.conn.rollback()

    def close_spider(self,spider):

        self.conn.close()

        self.cursor.close()

# redis存储

class redisPipeLine(object):

    conn = None

    def open_spider(self,spider):

        self.conn = Redis(host='127.0.0.1', port=6379, db=2, charset='utf-8')

        print(self.conn)

    def process_item(self, item, spider):

        # print(item['salary'],)

        dic = {

            'name': item['job_name'],

            'salary': item['salary'],

            'company': item['company']

        }

        self.conn.lpush('boss', dic)

- 配置文件：settings.py

#开启管道

ITEM_PIPELINES = {

   'bossPro.pipelines.BossproPipeline': 300,

   'bossPro.pipelines.mysqlPipeline': 301,

   'bossPro.pipelines.redisPipeLine': 302,

}

- 面试题：如果最终需要将爬取到的数据值一份存储到磁盘文件，一份存储到数据库中，则应该如何操作scrapy？　　

- 答：管道文件中的代码为

#该类为管道类，该类中的process_item方法是用来实现持久化存储操作的。

class DoublekillPipeline(object):

    def process_item(self, item, spider):

        #持久化操作代码 （方式1：写入磁盘文件）

        return item

#如果想实现另一种形式的持久化操作，则可以再定制一个管道类：

class DoublekillPipeline_db(object):

    def process_item(self, item, spider):

        #持久化操作代码 （方式1：写入数据库）

        return item

 在settings.py开启管道操作代码为：

#下列结构为字典，字典中的键值表示的是即将被启用执行的管道文件和其执行的优先级。

ITEM_PIPELINES = {

   'doublekill.pipelines.DoublekillPipeline': 300,

    'doublekill.pipelines.DoublekillPipeline_db': 200,

}

#上述代码中，字典中的两组键值分别表示会执行管道文件中对应的两个管道类中的process_item方法，实现两种不同形式的持久化操作。

11，scrapy框架持久化存储的更多相关文章

11.scrapy框架持久化存储
今日概要基于终端指令的持久化存储基于管道的持久化存储今日详情 1.基于终端指令的持久化存储保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的 ...
scrapy框架持久化存储
基于终端指令的持久化存储基于管道的持久化存储 1.基于终端指令的持久化存储保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文 ...
scrapy 框架持久化存储
1.基于终端的持久化存储保证爬虫文件的parse方法中有可迭代类型对象(通常为列表或字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作. # 执行输出指定格式进行存储:将 ...
10 Scrapy框架持久化存储
一.基于终端指令的持久化存储保证parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作. 执行输出指定格式进行存储:将爬取到的 ...
scrapy 框架持久化存储的三个方法存入 mysql 文件 redis
这里就不做详细讲解了毕竟不是一句两句能说的清楚,所以我把代码和注释放到了这里谢谢! import pymysql from redis import Redis # 写入mysql class W ...
scrapy之持久化存储
scrapy之持久化存储 scrapy持久化存储一般有三种,分别是基于终端指令保存到磁盘本地,存储到MySQL,以及存储到Redis. 基于终端指令的持久化存储 scrapy crawl xxoo - ...
Scarpy框架持久化存储
一.介绍持久化存储操作分为两类:磁盘文件和数据库. 而磁盘文件存储方式又分为:基于终端指令和基于管道二.基于终端指令的持久化存储 Scrapy是通过 scrapy 命令行工具进行控制的. 这里我们 ...
爬虫开发11.scrapy框架之CrawlSpider操作
提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基 ...
11 Scrapy框架之递归解析和post请求
一.递归爬取解析多页页面数据 - 需求:将糗事百科所有页码的作者和段子内容数据进行爬取切持久化存储 - 需求分析:每一个页面对应一个url,则scrapy工程需要对每一个页码对应的url依次发起请求, ...

随机推荐

python复数
复数的概念在很久以前,数学家们被下面的等式困扰.x2=-1这是因为任何实数(无论正负)乘以自己总会得到一个非负数.一个数怎么可以乘以自己得到一负数?没有这样的实数存在.就这样18世纪,数学家们发了一个 ...
blog 题解目录
洛谷: 1.P2430 严酷的训练 2.CF784E Twisted Circuit 3.P1886 滑动窗口 4.P1090 合并果子 5.P1119 灾后重建 6.P1690 贪婪的Copy 7. ...
win10+asp+access 父路径开启无效
如题: 在win10环境下,布署asp+access,发现在用到"../website/"时就出错,提示不能使用父路径可是我在IIS 的asp中明明打开了父路径的如下但是偏偏 ...
HTTPS的加密流程（通俗易懂，不可错过）
为什么要有HTTPS 都说进技术的产生就是为了解决旧技术的一些弊端. HTTP具有相当优秀的一面,但是凡事有利也有弊,在HTTP进行高速通信的过程中可能产生以下几个问题: HTTP采用明文传输.明文传 ...
sql server 2012不能全部用到CPU的逻辑核心数的问题
最近在工作中遇到了,sql server 2012 不能把CPU 的核心全部用到的问题.通过分析工具看到总共CPU核心有72核,但sql 只能用到40核心,想信也有很多人遇到这问题,那么今天这节就先 ...
Aizu 2300 Calender Colors（暴力）
状压以后,直接暴力枚举,2^20约等于1e6,而且满足bitcount = m的状态很少. #include<bits/stdc++.h> using namespace std; +; ...
hdu-1179 Ollivanders: Makers of Fine Wands since 382 BC.---二分图匹配模板
题目链接: http://acm.hdu.edu.cn/showproblem.php?pid=1179 题目大意: 有n个人要去买魔杖,有m根魔杖(和哈利波特去买魔杖的时候一样,是由魔杖选人).接下 ...
CDQ分治入门
前言 \(CDQ\)分治是一个神奇的算法. 它有着广泛的用途,甚至在某些题目中还能取代\(KD-Tree\).树套树等恶心的数据结构成为正解,而且常数还小得多. 不过它也有一定的缺点,如必须离线操作, ...
c++连接mysql并提示“无法解析的外部符号 _mysql_server_init@12”解决方法&提示缺少“libmysql.dll”
课程作业要用c++连接mysql server,但是出现些小问题,经查阅资料已经解决,做一下笔记. 环境:vs2017, mysql版本是8.0.16-winx64. 设置项目属性项目 - C ...
codeforces 1114C
题目连接 : https://codeforces.com/contest/1114/problem/C 题目大意:给一个整数n(1e18>=n>=0),和一个整数k(1e12>=k ...