在scrapy中使用mongodb管道

pipelines.py

import json

from scrapy.conf import settings

from pymongo import MongoClient

class SunPipeline(object):

    def open_spider(self,spider):

        self.file = open('dongguan.json','w')

    def process_item(self, item, spider):

        str_data = json.dumps(dict(item),ensure_ascii=False) + ',\n'

        self.file.write(str_data)

        return item

    def close_spider(self,spider):

        self.file.close()

class MongoPipeline(object):

    def __init__(self):

        # 获取数据库参数

        host = settings['MONGO_HOST']

        port = settings['MONGO_PORT']

        dbname = settings['MONGO_DBNAME']

        colname = settings['MONGO_COLNAME']

        # 连接数据库

        self.client = MongoClient(host, port)

        # 选择数据库

        self.db = self.client[dbname]

        # 选择集合

        self.col = self.db[colname]

    def process_item(self, item, spider):

        data = dict(item)

        self.col.insert(data)

        return item

    def __del__(self):

        # 关闭数据库链接

        self.client.close()

settings.py

BOT_NAME = 'Sun'

SPIDER_MODULES = ['Sun.spiders']

NEWSPIDER_MODULE = 'Sun.spiders'

MONGO_HOST = '127.0.0.1'

MONGO_PORT = 27017

MONGO_DBNAME = 'Sun'

MONGO_COLNAME = 'dongguan'

ITEM_PIPELINES = {

   'Sun.pipelines.SunPipeline': 300,

   'Sun.pipelines.MongoPipeline': 301,

}

在scrapy中使用mongodb管道的更多相关文章

mongodb 中 Aggregation 的管道和分片集合（ Pipeline and Sharded Collections）
mongodb 中的aggretion 中,如果管道中存在一个与之相匹配的shard key ,那么这个管道只运行在与之相匹配的shard 中,在以前(3.2),pipeline 被分流,最后又由pr ...
scrapy框架之Pipeline管道类
Item Pipeline简介 Item管道的主要责任是负责处理有蜘蛛从网页中抽取的Item,他的主要任务是清洗.验证和存储数据.当页面被蜘蛛解析后,将被发送到Item管道,并经过几个特定的次序处理数 ...
论Scrapy中的数据持久化
引入 Scrapy的数据持久化,主要包括存储到数据库.文件以及内置数据存储. 那我们今天就来讲讲如何把Scrapy中的数据存储到数据库和文件当中. 终端指令存储保证爬虫文件的parse方法中有可迭代 ...
新版 Scrapy 中 sys.conf.settings 的替代方法
新版 Scrapy 中 sys.conf.settings 的替代方法在 scrapy 项目目录下,有个 settings.py 文件,此文件是用来存放爬虫项目的各种配置,比如说 MongoDB 的 ...
爬虫07 /scrapy图片爬取、中间件、selenium在scrapy中的应用、CrawlSpider、分布式、增量式
爬虫07 /scrapy图片爬取.中间件.selenium在scrapy中的应用.CrawlSpider.分布式.增量式目录爬虫07 /scrapy图片爬取.中间件.selenium在scrapy ...
python的scrapy框架的使用和xpath的使用 && scrapy中request和response的函数参数 && parse()函数运行机制
这篇博客主要是讲一下scrapy框架的使用,对于糗事百科爬取数据并未去专门处理最后爬取的数据保存为json格式一.先说一下pyharm怎么去看一些函数在源码中的代码实现按着ctrl然后点击函数就 ...
C#中使用命名管道进行进程通信的实例
原文:C#中使用命名管道进行进程通信的实例 1 新建解决方案NamedPipeExample 在解决方案下面新建两个项目:Client和Server,两者的输出类型均为"Windows 应用 ...
如何在.Net中使用MongoDB
最近在研究mongodb,针对.net 中使用mongodb的文章要么是早期的驱动版本,要么资料很少,所以写个随笔记录一下本文主要记录 1.什么是MongoDB 2.MongoDB windows ...
Scrapy中使用Django的Model访问数据库
Scrapy中使用Django的Model进行数据库访问当已存在Django项目的时候,直接引入Django的Model来使用比较简单 # 使用以下语句添加Django项目的目录到path impo ...

随机推荐

JQuery选择器和DOM的操作-入门学习
嘿嘿,今天学习了JQuery,前面的一周都在学习javascript,今天学习了JQuery,虽然javascript的类库有很多个,例如:Prototype,Dojo,JQuery等,javascr ...
phpStorm中使用xdebug断点调试php代码
配置好xdebug,也能使得phpstorm像java哪像跑断点调试,爽的一笔!!! 下载xdebug并配置 [XDebug] zend_extension=php_xdebug-2.4.0rc3-5 ...
apache使某目录下的文件能够列表显示出来
想要使web目录下,某目录下的文件列表显示而不是显示"You don't have permission to access / on this server" 需要在httpd. ...
canvas - drawImage()方法绘制图片不显示的问题
canvas有个很强大的api是drawImage()(w3c): 他的主要功能就是绘制图片.视频,甚至其他画布等. 问题: 慕名赶来,却一脚踩空,低头一看,地上一个大坑. 事情是这样的,在我看完 ...
Oracle —— 如何执行SQL文件
在Command模式下(笔者使用的是 PL/SQL Comand Window),输入 @文件路径\文件名如: @D:\ORA_SQL\INSERT_SQL.sql
jQuery属性操作（二）
挂载到$上的几个属性操作方法分析,发现属性操作用到了sizzle封装的方法 attr: function( elem, name, value ) { var hooks, ret, ...
EXCEL小技巧：如何统计非空单元格
http://club.excelhome.net/thread-1187271-1-1.html 下面教大家如果用函数统计非空单元格的数量首先我们来介绍几个统计函数: 1.COUNT(value1 ...
linux下文件描述符的介绍
当某个程序打开文件时,操作系统返回相应的文件描述符,程序为了处理该文件必须引用此描述符.所谓的文件描述符是一个低级的正整数.最前面的三个文件描述符(0,1,2)分别与标准输入(stdin),标准输出( ...
Windows Server 2012升级R2过程中意外关闭恢复原系统方法
2012升级R2过程中强制关闭了计算机,导致再次启动后蓝屏提示"BAD_SYSTEM_CONFIG_INFO".用2012安装盘进入尝试修复失败(安全模式什么的都不用想),进入命令 ...
web自动化时，sendkeys输入长文本时浏览器响应慢或错误时处理
在做某个测试时,要在文本框中输入大量的文本,文件内容如下: "-----BEGIN CERTIFICATE-----\nMIIBozCCAQwCAQEwDQYJKoZIhvcNAQEFBQA ...

在scrapy中使用mongodb管道

在scrapy中使用mongodb管道的更多相关文章

随机推荐

热门专题