scrapy的使用-Pipelines

#------------------简单的对item操作方式----------------------------#

import json

class QsbkPipeline(object):

    def __init__(self):

        self.fp=open('qsbk1.json','w',encoding="utf-8")

    def open_spider(self,spider):

        print('爬虫开始。。。。。')

    def process_item(self, item, spider):

        # item_json=json.dumps(dict(item),ensure_ascii=False)

        # self.fp.write(item_json+'\n')

        return item

    def close_spider(self,spider):

        self.fp.close()

        print('爬虫结束。。。。。')

#------------------对item操作的一种方式(高级方式推荐方式之一)----------------------------#

from scrapy.exporters import JsonItemExporter #以二进制写入,全部完成后写入（列表形式）

class QsbkPipeline(object):

    def __init__(self):

        self.fp=open('qsbk1.json','wb')

        self.exporter = JsonItemExporter(self.fp,ensure_ascii=False,encoding='utf-8')

        self.exporter.start_exporting()

    def open_spider(self,spider):

        print('爬虫开始。。。。。')

    def process_item(self, item, spider):

        self.exporter.export_item(item) #二进制写入开始

        return item

    def close_spider(self,spider):

        self.exporter.finish_exporting() #二进制写入关闭

        self.fp.close()

        print('爬虫结束。。。。。')

#-----------------------另一种对item操作方式（高级方式推荐方式之一，强烈推介）----------------------#

from scrapy.exporters import JsonLinesItemExporter #以二进制写入,完成一个就写#入一个

class QsbkPipeline(object):

    def __init__(self):

        self.fp=open('qsbk2.json','wb')

        self.exporter = JsonLinesItemExporter(self.fp,ensure_ascii=False,encoding='utf-8')

        self.exporter.start_exporting()

    def open_spider(self,spider):

        print('爬虫开始。。。。。')

    def process_item(self, item, spider):

        self.exporter.export_item(item) #二进制写入开始

        return item

    def close_spider(self,spider):

        self.fp.close()

        print('爬虫结束。。。。。')

#注释：

#四个函数分别为 1.初始化爬虫函数（初始化前需要的功能所执行函数）

#             2.开启爬虫函数（爬虫开始函数所执行功能）

#             3.爬虫进行中执行的函数（进行中函数所执行的功能，将数据清理，去重等#写在这里）

#             4.关闭爬虫执行的函数（关闭爬虫函数所执行功能）

scrapy的使用-Pipelines的更多相关文章

Scrapy持久化(items+pipelines)
一.items保存爬取的文件 items.py import scrapy class QuoteItem(scrapy.Item): # define the fields for your ite ...
scrapy pipelines导出各种格式
scrapy在使用pipelines的时候,我们经常导出csv,json.jsonlines等等格式.每次都需要写一个类去导出,很麻烦. 这里我整理一个pipeline文件,支持多种格式的. # -* ...
scrapy爬虫成长日记之将抓取内容写入mysql数据库
前面小试了一下scrapy抓取博客园的博客(您可在此查看scrapy爬虫成长日记之创建工程-抽取数据-保存为json格式的数据),但是前面抓取的数据时保存为json格式的文本文件中的.这很显然不满足我 ...
关于Scrapy框架的基本概念
Scrapy爬取网页基本概念 Scrapy爬取网页基本概念怎么样用Scrapy生成project? scrapy startproject xxx 如何用Scrapy爬取网页? import scr ...
使用scrapy爬虫,爬取起点小说网的案例
爬取的页面为https://book.qidian.com/info/1010734492#Catalog 爬取的小说为凡人修仙之仙界篇,这边小说很不错. 正文的章节如下图所示其中下面的章节为加密部 ...
爬虫系列---scrapy全栈数据爬取框架(Crawlspider)
一简介 crawlspider 是Spider的一个子类,除了继承spider的功能特性外,还派生了自己更加强大的功能. LinkExtractors链接提取器,Rule规则解析器. 二强大的链接 ...
七月在线爬虫班学习笔记（六）——scrapy爬虫整体示例
第六课主要内容: 爬豆瓣文本例程 douban 图片例程 douban_imgs 1.爬豆瓣文本例程 douban 目录结构 douban --douban --spiders --__init__. ...
Scrapy代码实战
1.Spider爬虫代码 # -*- coding: utf-8 -*- import scrapy from yszd.items import YszdItem class YszdSpiderS ...
爬虫(二)之scrapy框架
01-scrapy介绍 02-项目的目录结构: scrapy.cfg 项目的主配置信息.(真正爬虫相关的配置信息在settings.py 文件中) items.py 设置数据存储模板,用于结构化数据, ...

随机推荐

力扣（LeetCode）4的幂个人题解
给定一个整数 (32 位有符号整数),请编写一个函数来判断它是否是 4 的幂次方. 示例 1: 输入: 16 输出: true 示例 2: 输入: 5 输出: false 进阶:你能不使用循环或者递归 ...
Java IO入门
目录一. 数据源(流) 二. 数据传输三. 总结我们从两个方面来理解Java IO,数据源(流).数据传输,即IO的核心就是对数据源产生的数据进行读写并高效传输的过程. 一. 数据源(流) 数据 ...
使用idea来部署git项目
使用idea来部署git项目一).将项目交由git管理 VCS ---->import into Version Cntorl ------>create Git Repository ...
函数式接口的使用 (Function、Predicate、Supplier、Consumer)
参考:https://blog.csdn.net/jmj18756235518/article/details/81490966 函数式接口定义:有且只有一个抽象方法的接口 Function< ...
RabbitMQ的入门学习
RabbitMq消息队列参考:https://blog.csdn.net/hellozpc/article/details/81436980 什么是消息队列 MQ :message Queue ,实 ...
HDFS之NameNode
NameNode&Secondary NameNode工作机制 1)第一阶段:namenode启动 (1)第一次启动namenode格式化后,创建fsimage和edits文件.如果不是第一次 ...
使用Cap解决.Netcore分布式事务
一.什么是Cap CAP 是一个基于 .NET Standard 的 C# 库,它是一种处理分布式事务的解决方案,同样具有 EventBus 的功能,它具有轻量级.易使用.高性能等特点. 在我们 ...
P1055 ISBN号码
题目描述每一本正式出版的图书都有一个ISBN号码与之对应,ISBN码包括99位数字.11位识别码和33位分隔符,其规定格式如x-xxx-xxxxx-x,其中符号-就是分隔符(键盘上的减号),最后一位 ...
Coroutines in Android - One Shot and Multiple Values
Coroutines in Android - One Shot and Multiple Values 在Android中, 我们用到的数据有可能是一次性的, 也有可能是需要多个值的. 本文介绍An ...
深入理解inode和硬链接和软连接和挂载点
inode 一.inode是什么? 理解inode,要从文件储存说起. 扇区文件储存在硬盘上,硬盘的最小存储单位叫做"扇区"(Sector).每个扇区储存512字节(相当于0.5 ...

scrapy的使用-Pipelines

scrapy的使用-Pipelines的更多相关文章

随机推荐

热门专题