scrapy的使用-Pipelines

#------------------简单的对item操作方式----------------------------#

import json

class QsbkPipeline(object):

    def __init__(self):

        self.fp=open('qsbk1.json','w',encoding="utf-8")

    def open_spider(self,spider):

        print('爬虫开始。。。。。')

    def process_item(self, item, spider):

        # item_json=json.dumps(dict(item),ensure_ascii=False)

        # self.fp.write(item_json+'\n')

        return item

    def close_spider(self,spider):

        self.fp.close()

        print('爬虫结束。。。。。')

#------------------对item操作的一种方式(高级方式推荐方式之一)----------------------------#

from scrapy.exporters import JsonItemExporter #以二进制写入,全部完成后写入（列表形式）

class QsbkPipeline(object):

    def __init__(self):

        self.fp=open('qsbk1.json','wb')

        self.exporter = JsonItemExporter(self.fp,ensure_ascii=False,encoding='utf-8')

        self.exporter.start_exporting()

    def open_spider(self,spider):

        print('爬虫开始。。。。。')

    def process_item(self, item, spider):

        self.exporter.export_item(item) #二进制写入开始

        return item

    def close_spider(self,spider):

        self.exporter.finish_exporting() #二进制写入关闭

        self.fp.close()

        print('爬虫结束。。。。。')

#-----------------------另一种对item操作方式（高级方式推荐方式之一，强烈推介）----------------------#

from scrapy.exporters import JsonLinesItemExporter #以二进制写入,完成一个就写#入一个

class QsbkPipeline(object):

    def __init__(self):

        self.fp=open('qsbk2.json','wb')

        self.exporter = JsonLinesItemExporter(self.fp,ensure_ascii=False,encoding='utf-8')

        self.exporter.start_exporting()

    def open_spider(self,spider):

        print('爬虫开始。。。。。')

    def process_item(self, item, spider):

        self.exporter.export_item(item) #二进制写入开始

        return item

    def close_spider(self,spider):

        self.fp.close()

        print('爬虫结束。。。。。')

#注释：

#四个函数分别为 1.初始化爬虫函数（初始化前需要的功能所执行函数）

#             2.开启爬虫函数（爬虫开始函数所执行功能）

#             3.爬虫进行中执行的函数（进行中函数所执行的功能，将数据清理，去重等#写在这里）

#             4.关闭爬虫执行的函数（关闭爬虫函数所执行功能）

scrapy的使用-Pipelines的更多相关文章

Scrapy持久化(items+pipelines)
一.items保存爬取的文件 items.py import scrapy class QuoteItem(scrapy.Item): # define the fields for your ite ...
scrapy pipelines导出各种格式
scrapy在使用pipelines的时候,我们经常导出csv,json.jsonlines等等格式.每次都需要写一个类去导出,很麻烦. 这里我整理一个pipeline文件,支持多种格式的. # -* ...
scrapy爬虫成长日记之将抓取内容写入mysql数据库
前面小试了一下scrapy抓取博客园的博客(您可在此查看scrapy爬虫成长日记之创建工程-抽取数据-保存为json格式的数据),但是前面抓取的数据时保存为json格式的文本文件中的.这很显然不满足我 ...
关于Scrapy框架的基本概念
Scrapy爬取网页基本概念 Scrapy爬取网页基本概念怎么样用Scrapy生成project? scrapy startproject xxx 如何用Scrapy爬取网页? import scr ...
使用scrapy爬虫,爬取起点小说网的案例
爬取的页面为https://book.qidian.com/info/1010734492#Catalog 爬取的小说为凡人修仙之仙界篇,这边小说很不错. 正文的章节如下图所示其中下面的章节为加密部 ...
爬虫系列---scrapy全栈数据爬取框架(Crawlspider)
一简介 crawlspider 是Spider的一个子类,除了继承spider的功能特性外,还派生了自己更加强大的功能. LinkExtractors链接提取器,Rule规则解析器. 二强大的链接 ...
七月在线爬虫班学习笔记（六）——scrapy爬虫整体示例
第六课主要内容: 爬豆瓣文本例程 douban 图片例程 douban_imgs 1.爬豆瓣文本例程 douban 目录结构 douban --douban --spiders --__init__. ...
Scrapy代码实战
1.Spider爬虫代码 # -*- coding: utf-8 -*- import scrapy from yszd.items import YszdItem class YszdSpiderS ...
爬虫(二)之scrapy框架
01-scrapy介绍 02-项目的目录结构: scrapy.cfg 项目的主配置信息.(真正爬虫相关的配置信息在settings.py 文件中) items.py 设置数据存储模板,用于结构化数据, ...

随机推荐

逆向分析objc，所有类的信息都能在动态调试中获取。
因为objc是动态绑定的,程序运行时必须知道如何绑定,依靠的就是类描述.只要知道类描述是如何组织的就可以获取一切有用的信息.不知道是幸运还是不幸,这些信息全部都在运行的程序中.即使没有IDA这样的工具 ...
万恶之源-python基本数据类型
万恶之源-基本数据类型(dict) 本节主要内容: 字典的简单介绍字典增删改查和其他操作 3. 字典的嵌套⼀一. 字典的简单介绍字典(dict)是python中唯⼀一的⼀一个映射类型.他是以{ ...
投票通过，PHP 8 确认引入 Union Types 2.0
关于是否要在 PHP 8 中引入 Union Types 的投票已于近日结束,投票结果显示有 61 名 PHP 开发组成员投了赞成票,5 名投了反对票. 还留意到鸟哥在投票中投了反对票~) 因此根据投 ...
java引用知识
最近从新拜读<深入理解Java虚拟机:JVM高级特性与最佳实践>这本书,看到有关引用的相关知识,以前没有好的习惯,这次看完在博客上记录下引用:如果reference类型中的数据存储的数值 ...
Linux 基本命令操作（文件共享）一
前言:在学习Linux过程中,遇到一些经典而又基本的命令操作,想记录下来去帮助刚学Linux的同学.下面是有关相关的操作,我会进行详细的分解步骤:希望能够帮助到你们.由于时间仓促,再加上笔者的能力有限 ...
Linux下用Docker部署接口安全的运行环境
背景:MySQL数据库运行在宿主机上(Linux) 需求:Redis.服务.页面分别运行在独立的docker中,并处于同一网络,容器内部重要目录要挂载在物理目录,保证数据安全方法: 一.设置网络环境 ...
asp.net core 从 3.0 到 3.1
asp.net core 从 3.0 到 3.1 Intro 今天 .net core 3.1 正式发布了,.net core 3.1 正式版已发布,3.1 主要是对 3.0 的 bug 修复,以及一 ...
灵魂拷问：为什么 Java 字符串是不可变的？
在逛 programcreek 的时候,发现了一些精妙绝伦的主题.比如说:为什么 Java 字符串是不可变的?像这类灵魂拷问的主题,非常值得深思. 对于绝大多数的初级程序员来说,往往停留在" ...
Django如何启动源码分析
Django如何启动源码分析启动我们启动Django是通过python manage.py runsever的命令解决这句话就是执行manage.py文件,并在命令行发送一个runsever字 ...
fsockopen与HTTP 1.1/HTTP 1.0
在前面的例子中,HTTP请求信息头有些指定了 HTTP 1.1,有些指定了 HTTP/1.0,有些又没有指定,那么他们之间有什么区别呢? 关于HTTP 1.1与HTTP 1.0的一些基本情况,可以参考 ...

scrapy的使用-Pipelines

scrapy的使用-Pipelines的更多相关文章

随机推荐

热门专题