scrapy+mongodb

我们都知道scrapy适合爬取大量的网站信息，爬取到的信息储存到数据库显然需要更高的效率，scrapy配合mongodb是非常合适的，这里记录一下如何在scrapy中配置mongodb。

文件结构

$ scrapy startproject myscrapy

当我们创建一个scrapy工程的时候，scrapy会自动给我们创建目录结构，像下面这样：

├── scrapy.cfg

└── myscrapy

    ├── __init__.py

    ├── items.py

    ├── pipelines.py

    ├── settings.py

    └── spiders

        └── __init__.py

提取数据

items.py文件用于定义存储“容器”，用来存储将要抓取的数据。

MyscrapyItem()类继承自Item (文档)，主要包含一些Scrapy已经为我们创建好的预定义对象：

import scrapy

class MyscrapyItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    pass

添加一些想要收集的项。用户想要每条问题的标题和URL。那么，照这样更新items.py：

from scrapy.item import Item, Field

class MyscrapyItem(Item):

    title = Field()
    url = Field()

创建蜘蛛

$ scrapy genspider myspider baidu.com

这样，scrapy会为我们在spiders目录下生成一个myspider.py的文件

import scrapy
from myscrapy.items import MyscrapyItem  # 导入我们的item类

class MyspiderSpider(scrapy.Spider):

    name = 'myspider'

    allowed_domains = ['baidu.com']

    start_urls = ['http://baidu.com/']

    def parse(self, response):
        item = MyscrapyItem()  # 实例化item类

        item['title'] = response.title  # 此行为伪代码
        item['url] = response.url
        yield item  # 这句会将item数据交给pipelines处理

最初一些变量的含义很容易理解（文档）：

定义蜘蛛的名字。
allowed_domains 包含构成许可域的基础URL，供蜘蛛去爬。
start_urls 是一个URL列表，蜘蛛从这里开始爬。蜘蛛从start_urls中的URL下载数据，所有后续的URL将从这些数据中获取。

抓取数据的伪代码已经写好了，接下来要将拿到的数据存储到数据库中

在MongoDB中存储数据

每当有一项返回，我们想验证数据，然后添加进一个Mongo集合。

第一步是创建一个我们计划用来保存所有抓取数据的数据库。打开settings.py，指定管道然后加入数据库设置：

ITEM_PIPELINES = {

   'myscrapy.pipelines.MyscrapyPipeline': 300,

}

MONGODB_SERVER = "localhost"

MONGODB_PORT = 27017

MONGODB_DB = "crawl"

MONGODB_COLLECTION = "item"

管道管理

我们建立了爬虫去抓取数据，而且已经设置了数据库配置。现在要在pipelines.py中通过一个管道连接两个部分。

连接数据库

首先，让我们定义一个函数去连接数据库：

import pymongo

from scrapy.conf import settings

class MyscrapyPipeline(object):

    def __init__(self):

        connection = pymongo.Connection(

            settings['MONGODB_SERVER'],

            settings['MONGODB_PORT']

        )

        db = connection[settings['MONGODB_DB']]

        self.collection = db[settings['MONGODB_COLLECTION']]

    def process_item(self, item, spider):

        return item

这里，我们创建一个类，MongoDBPipeline()，我们有一个构造函数初始化类，它定义Mongo的设置然后连接数据库。

处理数据

下一步，我们需要定义一个函数去处理被解析的数据：

import pymongo

from scrapy.conf import settings

from scrapy.exceptions import DropItem

from scrapy import log

class MyscrapyPipeline(object):

    def __init__(self):

        connection = pymongo.Connection(

            settings['MONGODB_SERVER'],

            settings['MONGODB_PORT']

        )

        db = connection[settings['MONGODB_DB']]

        self.collection = db[settings['MONGODB_COLLECTION']]

    def process_item(self, item, spider):

        valid = True

        for data in item:

            if not data:

                valid = False

                raise DropItem("Missing {0}!".format(data))

        if valid:

            self.collection.insert(dict(item))  # 将item解包后存入mongodb中

            log.msg("Question added to MongoDB database!",

                    level=log.DEBUG, spider=spider)

        return item

现在可以运行我们的scrapy了！

在总的myscrapy目录下运行下面命令：

$ $ scrapy crawl myscrapy

如果日志打印成功，可以去mongodb里找我们对应的数据库和集合，去查看数据。

scrapy+mongodb的更多相关文章

python scrapy+Mongodb爬取蜻蜓FM，酷我及懒人听书
1.初衷:想在网上批量下载点听书.脱口秀之类,资源匮乏,大家可以一试 2.技术:wireshark scrapy jsonMonogoDB 3.思路:wireshark分析移动APP返回的各种连接分类 ...
scrapy Mongodb 储存
pipelines.py # -*- coding: utf-8 -*- # Define your item pipelines here # # Don't forget to add your ...
scrapy+mongodb报错 TypeError: name must be an instance of str
经过各种排查,最后找到原因,在settings文件中配置文件大小写写错了,在pipelines中 mongo_db=crawler.settings.get('MONGODB_DB'),get 获取的 ...
利用Scrapy爬取所有知乎用户详细信息并存至MongoDB
欢迎大家关注腾讯云技术社区-博客园官方主页,我们将持续在博客园为大家推荐技术精品文章哦~ 作者 :崔庆才本节分享一下爬取知乎用户所有用户信息的 Scrapy 爬虫实战. 本节目标本节要实现的内容有 ...
scrapy微信爬虫使用总结
scrapy+selenium+Chrome+微信公众号爬虫概述 1.微信公众号爬虫思路: 参考:记一次微信公众号爬虫的经历 2.scrapy框架图 3.scrapy经典教程参考: python ...
以豌豆荚为例，用 Scrapy 爬取分类多级页面
本文转载自以下网站:以豌豆荚为例,用 Scrapy 爬取分类多级页面 https://www.makcyun.top/web_scraping_withpython17.html 需要学习的地方: 1 ...
爬虫框架Scrapy初步使用
本文转载自: Scrapy 爬取并分析酷安 6000 款 App,找到良心佳软(抓取篇) https://www.makcyun.top/web_scraping_withpython10.html ...
python爬虫框架scrapy 豆瓣实战
Scrapy 官方介绍是 An open source and collaborative framework for extracting the data you need from websit ...
python爬虫 | 一条高效的学习路径
数据是创造和决策的原材料,高质量的数据都价值不菲.而利用爬虫,我们可以获取大量的价值数据,经分析可以发挥巨大的价值,比如: 豆瓣.知乎:爬取优质答案,筛选出各话题下热门内容,探索用户的舆论导向. 淘宝 ...

随机推荐

docker上传自己的镜像
https://blog.csdn.net/boonya/article/details/74906927 需要注意的就是命名规范 docker push 注册用户名/镜像名
[Windows Doc]微软官方文档
desktop: https://docs.microsoft.com/en-us/windows/desktop/index server:https://docs.microsoft.com/en ...
win 10 dpi 缩放
win 10 dpi dwm 效果,影响最大的函数有参考资料:https://blog.csdn.net/chenlycly/article/details/53142098 GetSystemMe ...
【转】Unity四元数和向量相乘作用及其运算规则
作用:四元数和向量相乘表示这个向量按照这个四元数进行旋转之后得到的新的向量. 比如:向量vector3(0,0,10),绕着Y轴旋转90度,得到新的向量是vector3(10,0,0). 在unity ...
JAVA集合2--Collection架构
Collectin有两个分支:List和Set List是有序集合,可以有重复元素:而Set不允许有重复元素为了方便,抽象出AbstractCollection这个抽象类,其实现了Collectio ...
Linux 日志文件管理——限制大小
设计思路: 1 用一个INI配置文件管理日志目录,日志文件限制的大小,特殊的日志名,特殊日志的大小限制. 2 读取INI文件中的所有信息:每一个日志目录对应的大小限制,每一个特殊日志对应的大小限制.如 ...
Python核心编程笔记第三章
3.1 语句和语法 3.1.1 注释( # ) 3.1.2 继续( \ ) 一般使用换行分隔,也就是说一行一个语句.一行过长的语句可以使用反斜杠( \ ) 分 ...
smbclient匿名访问win7共享文件夹
windows: 首先需要开启Guest用户,设置密码为空. 然后需要在管理工具下的本地安全策略中检查本地策略\用户权限分配\拒绝从网络访问这台计算机如果有Guest或Guests则删掉. 然后正常共 ...
ueditor复制文本有多余的空行问题
今天从ueditor中复制文本,粘贴到记事本中发现每一行后面都多了一个空行. Ueditor中的文本如图: 本来只有三行,全选复制所有内容,再粘贴到记事本中发现有每一行文本后面都有多余的空行: 如果我 ...
命名空间的using声明
using声明具有如下的形式: using namespace::name; 一旦声明了上述语句,就可以直接访问命名空间中的名字: #include<iostream> //using声明 ...