用Pymongo保存数据

爬取豆瓣电影top250movie.douban.com/top250的电影数据，并保存在MongoDB中。

items.py

class DoubanspiderItem(scrapy.Item):

    # 电影标题

    title = scrapy.Field()

    # 电影评分

    score = scrapy.Field()

    # 电影信息

    content = scrapy.Field()

    # 简介

    info = scrapy.Field()

spiders/douban.py

import scrapy

from doubanSpider.items import DoubanspiderItem

class DoubanSpider(scrapy.Spider):

    name = "douban"

    allowed_domains = ["movie.douban.com"]

    start = 0

    url = 'https://movie.douban.com/top250?start='

    end = '&filter='

    start_urls = [url + str(start) + end]

    def parse(self, response):

        item = DoubanspiderItem()

        movies = response.xpath("//div[@class=\'info\']")

        for each in movies:

            title = each.xpath('div[@class="hd"]/a/span[@class="title"]/text()').extract()

            content = each.xpath('div[@class="bd"]/p/text()').extract()

            score = each.xpath('div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text()').extract()

            info = each.xpath('div[@class="bd"]/p[@class="quote"]/span/text()').extract()

            item['title'] = title[0]

            # 以;作为分隔，将content列表里所有元素合并成一个新的字符串

            item['content'] = ';'.join(content)

            item['score'] = score[0]

            item['info'] = info[0]

            # 提交item

            yield item

        if self.start <= 225:

            self.start += 25

            yield scrapy.Request(self.url + str(self.start) + self.end, callback=self.parse)

pipelines.py



from scrapy.conf import settings

import pymongo

class DoubanspiderPipeline(object):

    def __init__(self):

        # 获取setting主机名、端口号和数据库名

        host = settings['MONGODB_HOST']

        port = settings['MONGODB_PORT']

        dbname = settings['MONGODB_DBNAME']

        # pymongo.MongoClient(host, port) 创建MongoDB链接

        client = pymongo.MongoClient(host=host,port=port)

        # 指向指定的数据库

        mdb = client[dbname]

        # 获取数据库里存放数据的表名

        self.post = mdb[settings['MONGODB_DOCNAME']]

    def process_item(self, item, spider):

        data = dict(item)

        # 向指定的表里添加数据

        self.post.insert(data)

        return item

settings.py

BOT_NAME = 'doubanSpider'

SPIDER_MODULES = ['doubanSpider.spiders']

NEWSPIDER_MODULE = 'doubanSpider.spiders'

ITEM_PIPELINES = {

        'doubanSpider.pipelines.DoubanspiderPipeline' : 300

        }

# Crawl responsibly by identifying yourself (and your website) on the user-agent

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36'

# MONGODB 主机环回地址127.0.0.1

MONGODB_HOST = '127.0.0.1'

# 端口号，默认是27017

MONGODB_PORT = 27017

# 设置数据库名称

MONGODB_DBNAME = 'DouBan'

# 存放本次数据的表名称

MONGODB_DOCNAME = 'DouBanMovies'

运行

启动MongoDB数据库需要两个命令：

mongod：是mongoDB数据库进程本身

mongo：是命令行shell客户端

sudo mongod # 首先启动数据库服务，再执行Scrapy

sudo mongo # 启动数据库shell

在mongo shell下使用命令:

# 查看当前数据库

> db

# 列出所有的数据库

> show dbs

# 连接DouBan数据库

> use DouBan

# 列出所有表

> show collections

# 查看表里的数据

> db.DouBanMoives.find()

scrapy之Pymongo的更多相关文章

python爬虫的scrapy安装+pymongo的安装
我的:python2.7版本 32位注意scrapy只支持2.7及以上的版本. 1.安装python 2.安装pip 安装pip就不赘述了,网上很多教学 pip安装时要注意更新,如果pip版本 ...
利用scrapy和MongoDB来开发一个爬虫
今天我们利用scrapy框架来抓取Stack Overflow里面最新的问题(),并且将这些问题保存到MongoDb当中,直接提供给客户进行查询. 安装在进行今天的任务之前我们需要安装二个框架,分别 ...
Python爬虫从入门到放弃（二十）之 Scrapy分布式原理
关于Scrapy工作流程回顾 Scrapy单机架构上图的架构其实就是一种单机架构,只在本机维护一个爬取队列,Scheduler进行调度,而要实现多态服务器共同爬取数据关键就是共享爬取队列. 分布式架 ...
Python爬虫【五】Scrapy分布式原理笔记
Scrapy单机架构在这里scrapy的核心是scrapy引擎,它通过里面的一个调度器来调度一个request的队列,将request发给downloader,然后来执行request请求但是这些 ...
scrapy学习笔记(三)：使用item与pipeline保存数据
scrapy下使用item才是正经方法.在item中定义需要保存的内容,然后在pipeline处理item,爬虫流程就成了这样: 抓取 --> 按item规则收集需要数据 -->使用pip ...
Python 爬虫之 Scrapy 分布式原理以及部署
Scrapy分布式原理关于Scrapy工作流程 Scrapy单机架构上图的架构其实就是一种单机架构,只在本机维护一个爬取队列,Scheduler进行调度,而要实现多态服务器共同爬取数据关键就是共享 ...
scrapy分布式原理
scrapy分布式原理关于Scrapy工作流程回顾 Scrapy单机架构上图的架构其实就是一种单机架构,只在本机维护一个爬取队列,Scheduler进行调度,而要实现多态服务器共同爬取数据关键 ...
爬虫（十七）：scrapy分布式原理
一:scrapy工作流程 scrapy单机架构: 单主机爬虫架构: 分布式爬虫架构: 这里重要的就是我的队列通过什么维护?这里一般我们通过Redis为维护,Redis,非关系型数据库,Key-Valu ...
Python之爬虫（二十二） Scrapy分布式原理
关于Scrapy工作流程回顾 Scrapy单机架构上图的架构其实就是一种单机架构,只在本机维护一个爬取队列,Scheduler进行调度,而要实现多态服务器共同爬取数据关键就是共享爬取队列. 分布式架 ...

随机推荐

C++的全部目标就是最优化资源的利用，以人付出更多为代价。Python刚好是另一个极端（Bjarne就说，一个人至少应该掌握两种计算机语言）
说 C++ 反人类,是如果把 C++ 看作人(程序员)和资源(电子系统)的桥梁,他的全部目标就是最优化资源的利用,以人付出更多为代价.Python刚好是另一个极端.做好两个一起学.Bjarne就说,一 ...
【opencv】caffe 读入空图导致opencv错误
OpenCV Error: Assertion failed (ssize.area() > ) /modules/imgproc/src/imgwarp. 根据错误提示,查看一下opencv源 ...
Safe Or Unsafe--hdu2527（哈夫曼树求WPL）
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=2527 用优先队列模拟 #include<iostream> #include<std ...
Shiro框架简介
Apache Shiro是Java的一个安全框架.对比另一个安全框架Spring Sercurity,它更简单和灵活. Shiro可以帮助我们完成:认证.授权.加密.会话管理.Web集成.缓存等. A ...
awk经常使用字符串处理函数
gsub(regexp, replacement [, target]) Search target for all of the longest, leftmost, nonoverlapping ...
001-shell基础，创建，运行
一.概述 Shell 是一个用 C 语言编写的程序.Shell 既是一种命令语言,又是一种程序设计语言. Shell 是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服 ...
node.js---sails项目开发
http://sailsdoc.swift.ren/ 这里有 sails中文文档 node.js---sails项目开发(1)安装,启动sails node.js---sails项目开发(2)安装测试 ...
mysql监控优化（一）连接数和缓存
一.mysql的连接数 MYSQL数据库安装完成后,默认最大连接数是100,一般流量稍微大一点的论坛或网站这个连接数是远远不够的,连接数少的话,在大并发下连接数会不够用,会有很多线程在等待其他连接释放 ...
《FLASH PROGRAMMING 那些事》总结
注明来自 http://www.ssdfans.com/?p=5589 以MLC为例: 对FGF(Floating Gate Flash)技术的,MLC programming一般分两步走:先prog ...
EventFiringWebDriver网页事件监听（二）
public class SeleniumDemo { /** * @param args */ public static void main(String[] args) { WebDriver ...

scrapy之Pymongo

用Pymongo保存数据

items.py

spiders/douban.py

pipelines.py

settings.py

运行

scrapy之Pymongo的更多相关文章

随机推荐

热门专题