python爬虫之scrapy的pipeline的使用

scrapy的pipeline是一个非常重要的模块，主要作用是将return的items写入到数据库、文件等持久化模块，下面我们就简单的了解一下pipelines的用法。

案例一：

items池

class ZhihuuserItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    id = scrapy.Field()

    name = scrapy.Field()

    avatar_url = scrapy.Field()

    headline = scrapy.Field()

    description = scrapy.Field()

    url = scrapy.Field()

    url_token = scrapy.Field()

    gender = scrapy.Field()

    cover_url = scrapy.Field()

    type = scrapy.Field()

    badge = scrapy.Field()

    answer_count = scrapy.Field()

    articles_count = scrapy.Field()

    commercial_question = scrapy.Field()

    favorite_count = scrapy.Field()

    favorited_count = scrapy.Field()

    follower_count = scrapy.Field()

    following_columns_count = scrapy.Field()

    following_count = scrapy.Field()

    pins_count = scrapy.Field()

    question_count = scrapy.Field()

    thank_from_count = scrapy.Field()

    thank_to_count = scrapy.Field()

    thanked_count = scrapy.Field()

    vote_from_count = scrapy.Field()

    vote_to_count = scrapy.Field()

    voteup_count = scrapy.Field()

    following_favlists_count = scrapy.Field()

    following_question_count = scrapy.Field()

    following_topic_count = scrapy.Field()

    marked_answers_count = scrapy.Field()

    mutual_followees_count = scrapy.Field()

    participated_live_count = scrapy.Field()

    locations = scrapy.Field()

    educations = scrapy.Field()

    employments = scrapy.Field()

items

写入MongoDB数据库的基本配置

#配置MongoDB数据库的连接信息

MONGO_URL = '172.16.5.239'

MONGO_PORT = 27017

MONGO_DB = 'zhihuuser'

#参数等于False，就等于告诉你这个网站你想取什么就取什么，不会读取每个网站的根目录下的禁止爬取列表(例如：www.baidu.com/robots.txt）

ROBOTSTXT_OBEY = False

执行pipelines下的写入操作

ITEM_PIPELINES = {

   'zhihuuser.pipelines.MongoDBPipeline': 300,

}

settings.py

pipelines.py：
　　1、首先我们要从settings文件中读取数据的地址、端口、数据库名称（没有会自动创建）。
　　2、拿到数据库的基本信息后进行连接。
　　3、将数据写入数据库
　　4、关闭数据库
　　注意：只有打开和关闭是只执行一次，而写入操作会根据具体的写入次数而定。

import pymongo

class MongoDBPipeline(object):

    """

    1、连接数据库操作

    """

    def __init__(self,mongourl,mongoport,mongodb):

        '''

        初始化mongodb数据的url、端口号、数据库名称

        :param mongourl:

        :param mongoport:

        :param mongodb:

        '''

        self.mongourl = mongourl

        self.mongoport = mongoport

        self.mongodb = mongodb

    @classmethod

    def from_crawler(cls,crawler):

        """

        1、读取settings里面的mongodb数据的url、port、DB。

        :param crawler:

        :return:

        """

        return cls(

            mongourl = crawler.settings.get("MONGO_URL"),

            mongoport = crawler.settings.get("MONGO_PORT"),

            mongodb = crawler.settings.get("MONGO_DB")

        )

    def open_spider(self,spider):

        '''

        1、连接mongodb数据

        :param spider:

        :return:

        '''

        self.client = pymongo.MongoClient(self.mongourl,self.mongoport)

        self.db = self.client[self.mongodb]

    def process_item(self,item,spider):

        '''

        1、将数据写入数据库

        :param item:

        :param spider:

        :return:

        '''

        name = item.__class__.__name__

        # self.db[name].insert(dict(item))

        self.db['user'].update({'url_token':item['url_token']},{'$set':item},True)

        return item

    def close_spider(self,spider):

        '''

        1、关闭数据库连接

        :param spider:

        :return:

        '''

        self.client.close()

python爬虫之scrapy的pipeline的使用的更多相关文章

教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scr ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
0.Python 爬虫之Scrapy入门实践指南（Scrapy基础知识）
目录 0.0.Scrapy基础 0.1.Scrapy 框架图 0.2.Scrapy主要包括了以下组件: 0.3.Scrapy简单示例如下: 0.4.Scrapy运行流程如下: 0.5.还有什么? 0. ...
Linux 安装python爬虫框架 scrapy
Linux 安装python爬虫框架 scrapy http://scrapy.org/ Scrapy是python最好用的一个爬虫框架.要求: python2.7.x. 1. Ubuntu14.04 ...
Python爬虫框架Scrapy实例（三）数据存储到MongoDB
Python爬虫框架Scrapy实例(三)数据存储到MongoDB任务目标:爬取豆瓣电影top250,将数据存储到MongoDB中. items.py文件复制代码# -*- coding: utf-8 ...
《Python3网络爬虫开发实战》PDF+源代码+《精通Python爬虫框架Scrapy》中英文PDF源代码
下载:https://pan.baidu.com/s/1oejHek3Vmu0ZYvp4w9ZLsw <Python 3网络爬虫开发实战>中文PDF+源代码下载:https://pan. ...
Python爬虫框架Scrapy教程(1)—入门
最近实验室的项目中有一个需求是这样的,需要爬取若干个(数目不小)网站发布的文章元数据(标题.时间.正文等).问题是这些网站都很老旧和小众,当然也不可能遵守 Microdata 这类标准.这时候所有网页 ...
《精通Python爬虫框架Scrapy》学习资料
<精通Python爬虫框架Scrapy>学习资料百度网盘:https://pan.baidu.com/s/1ACOYulLLpp9J7Q7src2rVA
Python 爬虫6——Scrapy的安装和使用
前面我们简述了使用Python自带的urllib和urllib2库完成的一下爬取网页数据的操作,但其实能完成的功能都很简单,假如要进行复制的数据匹配和高效的操作,可以引入第三方的框架,例如Scrapy ...

随机推荐

linux下c程序 daemon、fork与创建pthread的顺序问题
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/shuyun123456789/article/details/34418875 近期发如今写linu ...
md5之守株待兔
第一个实验吧的题目,不太会做,参考了很多大佬的经验,最后发现这个题目很简单,大概这就是入门的感觉吧!如果你多次尝试点开题目给的连接,就会发现,系统的密钥一直会变,可是我的密钥却保持一个,这就让我们联想 ...
[matlab] 17.网格矩阵
生成网格矩阵,并且根据条件筛选,重新赋值为0,1二值图像 clear all;close all; %生成二值图 index= randperm(2500,1000); %生成10个不重复随机指标 Z ...
[python] 解决pip install download速度过慢问题更换豆瓣源
""" python建立pip.ini.py 2016年4月30日 03:35:11 codegay """ import os ini=& ...
WPF中修改DataGrid单元格值并保存
编辑DataGrid中的单元格的内容然后保存是非常常用的功能.主要涉及到的方法就是DataGrid的CellEditEnding 和BeginningEdit .其中BeginningEdit 是当 ...
转://Oracle Golden Gate 概念和原理
引言:Oracle Golden Gate是Oracle旗下一款支持异构平台之间高级复制技术,是Oracle力推一种HA高可用产品,简称“OGG”,可以实现Active-Active 双业务中心架构 ...
mysql 监控工具（windows版本）
文章转自 https://www.cnblogs.com/wucj/p/7152020.html 工具下载 http://www.profilesql.com/download/
MySql 建表出现的问题：[ERR] 1064 - You have an error in your SQL syntax; check the manual.......
使用 MySql 建表出现的问题在使用 Navicat Premium 运行 sql 语句进行建表时,MySQL 报错如下: 建表语句: DROP DATABASE IF EXISTS javawe ...
Java消息队列——JMS概述
一.什么是JMS JMS即Java消息服务(Java Message Service)应用程序接口,是一个Java平台中关于面向消息中间件(MOM)的API,用于在两个应用程序之间,或分布式系统中发送 ...
C# 对象池的实现(能限制最大实例数量，类似于WCF的MaxInstanceCount功能)
对象池服务可以减少从头创建每个对象的系统开销.在激活对象时,它从池中提取.在停用对象时,它放回池中,等待下一个请求.我们来看下主线程中,如何与对象池打交道: static void Main(stri ...

python爬虫之scrapy的pipeline的使用

python爬虫之scrapy的pipeline的使用的更多相关文章

随机推荐

热门专题