python爬虫之scrapy的pipeline的使用

scrapy的pipeline是一个非常重要的模块，主要作用是将return的items写入到数据库、文件等持久化模块，下面我们就简单的了解一下pipelines的用法。

案例一：

items池

class ZhihuuserItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    id = scrapy.Field()

    name = scrapy.Field()

    avatar_url = scrapy.Field()

    headline = scrapy.Field()

    description = scrapy.Field()

    url = scrapy.Field()

    url_token = scrapy.Field()

    gender = scrapy.Field()

    cover_url = scrapy.Field()

    type = scrapy.Field()

    badge = scrapy.Field()

    answer_count = scrapy.Field()

    articles_count = scrapy.Field()

    commercial_question = scrapy.Field()

    favorite_count = scrapy.Field()

    favorited_count = scrapy.Field()

    follower_count = scrapy.Field()

    following_columns_count = scrapy.Field()

    following_count = scrapy.Field()

    pins_count = scrapy.Field()

    question_count = scrapy.Field()

    thank_from_count = scrapy.Field()

    thank_to_count = scrapy.Field()

    thanked_count = scrapy.Field()

    vote_from_count = scrapy.Field()

    vote_to_count = scrapy.Field()

    voteup_count = scrapy.Field()

    following_favlists_count = scrapy.Field()

    following_question_count = scrapy.Field()

    following_topic_count = scrapy.Field()

    marked_answers_count = scrapy.Field()

    mutual_followees_count = scrapy.Field()

    participated_live_count = scrapy.Field()

    locations = scrapy.Field()

    educations = scrapy.Field()

    employments = scrapy.Field()

items

写入MongoDB数据库的基本配置

#配置MongoDB数据库的连接信息

MONGO_URL = '172.16.5.239'

MONGO_PORT = 27017

MONGO_DB = 'zhihuuser'

#参数等于False，就等于告诉你这个网站你想取什么就取什么，不会读取每个网站的根目录下的禁止爬取列表(例如：www.baidu.com/robots.txt）

ROBOTSTXT_OBEY = False

执行pipelines下的写入操作

ITEM_PIPELINES = {

   'zhihuuser.pipelines.MongoDBPipeline': 300,

}

settings.py

pipelines.py：
　　1、首先我们要从settings文件中读取数据的地址、端口、数据库名称（没有会自动创建）。
　　2、拿到数据库的基本信息后进行连接。
　　3、将数据写入数据库
　　4、关闭数据库
　　注意：只有打开和关闭是只执行一次，而写入操作会根据具体的写入次数而定。

import pymongo

class MongoDBPipeline(object):

    """

    1、连接数据库操作

    """

    def __init__(self,mongourl,mongoport,mongodb):

        '''

        初始化mongodb数据的url、端口号、数据库名称

        :param mongourl:

        :param mongoport:

        :param mongodb:

        '''

        self.mongourl = mongourl

        self.mongoport = mongoport

        self.mongodb = mongodb

    @classmethod

    def from_crawler(cls,crawler):

        """

        1、读取settings里面的mongodb数据的url、port、DB。

        :param crawler:

        :return:

        """

        return cls(

            mongourl = crawler.settings.get("MONGO_URL"),

            mongoport = crawler.settings.get("MONGO_PORT"),

            mongodb = crawler.settings.get("MONGO_DB")

        )

    def open_spider(self,spider):

        '''

        1、连接mongodb数据

        :param spider:

        :return:

        '''

        self.client = pymongo.MongoClient(self.mongourl,self.mongoport)

        self.db = self.client[self.mongodb]

    def process_item(self,item,spider):

        '''

        1、将数据写入数据库

        :param item:

        :param spider:

        :return:

        '''

        name = item.__class__.__name__

        # self.db[name].insert(dict(item))

        self.db['user'].update({'url_token':item['url_token']},{'$set':item},True)

        return item

    def close_spider(self,spider):

        '''

        1、关闭数据库连接

        :param spider:

        :return:

        '''

        self.client.close()

python爬虫之scrapy的pipeline的使用的更多相关文章

教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scr ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
0.Python 爬虫之Scrapy入门实践指南（Scrapy基础知识）
目录 0.0.Scrapy基础 0.1.Scrapy 框架图 0.2.Scrapy主要包括了以下组件: 0.3.Scrapy简单示例如下: 0.4.Scrapy运行流程如下: 0.5.还有什么? 0. ...
Linux 安装python爬虫框架 scrapy
Linux 安装python爬虫框架 scrapy http://scrapy.org/ Scrapy是python最好用的一个爬虫框架.要求: python2.7.x. 1. Ubuntu14.04 ...
Python爬虫框架Scrapy实例（三）数据存储到MongoDB
Python爬虫框架Scrapy实例(三)数据存储到MongoDB任务目标:爬取豆瓣电影top250,将数据存储到MongoDB中. items.py文件复制代码# -*- coding: utf-8 ...
《Python3网络爬虫开发实战》PDF+源代码+《精通Python爬虫框架Scrapy》中英文PDF源代码
下载:https://pan.baidu.com/s/1oejHek3Vmu0ZYvp4w9ZLsw <Python 3网络爬虫开发实战>中文PDF+源代码下载:https://pan. ...
Python爬虫框架Scrapy教程(1)—入门
最近实验室的项目中有一个需求是这样的,需要爬取若干个(数目不小)网站发布的文章元数据(标题.时间.正文等).问题是这些网站都很老旧和小众,当然也不可能遵守 Microdata 这类标准.这时候所有网页 ...
《精通Python爬虫框架Scrapy》学习资料
<精通Python爬虫框架Scrapy>学习资料百度网盘:https://pan.baidu.com/s/1ACOYulLLpp9J7Q7src2rVA
Python 爬虫6——Scrapy的安装和使用
前面我们简述了使用Python自带的urllib和urllib2库完成的一下爬取网页数据的操作,但其实能完成的功能都很简单,假如要进行复制的数据匹配和高效的操作,可以引入第三方的框架,例如Scrapy ...

随机推荐

[tool] AI视频翻译解决英文视频字幕问题(类似youtube自动生成字幕)
1.网易见外是网易人工智能事业部旗下的AI视频翻译产品. 字幕支持手工编辑和下载不过网易见外只支持WEB在线操作并且只支持单个上传操作目前没有客户端 2.人人译视界 (IOS 安卓 PC客户端 ...
【转】用ffmpeg转多音轨的mkv文件
命令: ffmpeg -i AmericanCaptain.mkv -map 0:v -vcodec copy -map 0:a:1 -acodec copyAmericanCaptain.mp4 - ...
jenkins+svn+python+appium启动+mail+html报告
第一步:jenkins从svn中获取最新的测试代码 1.jenkins启动,进入jenkins目录,使用“java -jar jenkins.war”启动(安装后,jenkins已自启动,不用再自己启 ...
洛谷题解 P1031 【均分纸牌】
这道题很简单原理是从左到右一个一个排,把差值m加起来加到后面一堆牌里具体ac代码如下: #include<cstdio> #include<iostream> #inclu ...
错误 103 未能加载文件或程序集“Telerik.Web.UI”或它的某一个依赖项。磁盘空间不足。 (异常来自 HRESULT:0x80070070)
运行vs2010时出现错误: 错误 103 未能加载文件或程序集“Telerik.Web.UI”或它的某一个依赖项.磁盘空间不足. (异常来自 HRESULT:0x80070070) 处理方式:清理C ...
docker学习(1)--基础概念
转载请注明源文章出处:http://www.cnblogs.com/lighten/p/6841677.html 1.前言 docker的官网:这里.下一段摘自官网描述. docker是世界领先的软件 ...
SQL Server 分析函数和排名函数
分析函数基于分组,计算分组内数据的聚合值,经常会和窗口函数OVER()一起使用,使用分析函数可以很方便地计算同比和环比,获得中位数,获得分组的最大值和最小值.分析函数和聚合函数不同,不需要GROUP ...
go项目
1.循环使用缓存每条日志需要开辟缓存块来存储内容,以减少频繁的内存分配与回收.日志结构体定义如下: type MLogger struct { // freeList is a list of by ...
React 系列 - 写出优雅的路由
前言自前端框架风靡以来,路由一词在前端的热度与日俱增,他是几乎所有前端框架的核心功能点.不同于后端,前端的路由往往需要表达更多的业务功能,例如与菜单耦合.与标题耦合.与"面包屑" ...
01 Django REST Framework 介绍
01-Django REST Framework的介绍 Django REST框架是一个用于构建Web API的强大而灵活的工具包. 您可能希望使用REST框架的一些原因: 1. Web可浏览API对 ...

python爬虫之scrapy的pipeline的使用

python爬虫之scrapy的pipeline的使用的更多相关文章

随机推荐

热门专题