爬取豆瓣电影TOP 250的电影存储到mongodb中

1.创建项目sp1

PS D:\scrapy> scrapy.exe startproject douban

2.创建一个爬虫

PS D:\scrapy\tencent> scrapy genspider doubanmovie "movie.douban.com"

3.编辑爬虫内容doubanmovie.py

# -*- coding: utf-8 -*-

import scrapy

from douban.items import DoubanItem

class DoubanmovieSpider(scrapy.Spider):

    name = 'doubanmovie'

    allowed_domains = ['movie.douban.com']

    offset = 0

    base_url = "https://movie.douban.com/top250?start="

    start_urls = [base_url + str(offset), ]

    def parse(self, response):

        movies = response.xpath("//div[@class='info']")

        for i in movies:

            # 标题

            title = i.xpath(".//span[@class='title'][1]/text()").extract()[0].strip()

            # 信息

            bd = i.xpath(".//div[@class='bd']/p/text()").extract()[0].strip()

            # 评分

            star = i.xpath(".//div[@class='star']/span[@class='rating_num']/text()").extract()[0].strip()

            # 简介

            quote = i.xpath(".//p[@class='quote']/span/text()").extract()

            if quote:

                quote = quote[0].strip()

            yield DoubanItem(title=title, bd=bd, star=star, quote=quote)

        # 当url页面小与 225 时让URL继续翻页

        if self.offset < 225:

            self.offset += 25

            yield scrapy.Request(self.base_url + str(self.offset), callback=self.parse)

4 .设置items.py 的内容接收格式

import scrapy

class DoubanItem(scrapy.Item):

    # 标题

    title = scrapy.Field()

    # 信息

    bd = scrapy.Field()

    # 评分

    star = scrapy.Field()

    # 简介

    quote = scrapy.Field()

5 .settings.py 中设置将格式化后的数据传给 pipelines 处理保存

# 下载后的文件如何处理

ITEM_PIPELINES = {

   'douban.pipelines.DoubanPipeline': 300,

}

# 头部信息

DEFAULT_REQUEST_HEADERS = {

  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

  # 没有 User-Agent 会报 403 错误

  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36',

}

# MONGODB 主机配置

MONGODB_HOST = "192.8.11.100"

MONGODB_PORT = 27017

MONGODB_DBNAME = "Douban"

MONGODB_SHEETNAME = "douban_top_250"

6 .pipelines.py设置保存数据到Mongodb数据库中

import pymongo

from scrapy.conf import settings

class DoubanPipeline(object):

    def __init__(self):

        # 获取settings 中 mongo 的配置信息

        host = settings["MONGODB_HOST"]

        port = settings["MONGODB_PORT"]

        dbname = settings["MONGODB_DBNAME"]

        sheeiname = settings["MONGODB_SHEETNAME"]

        # 创建MongoDB数据库连接

        client = pymongo.MongoClient(host=host, port=port,)

        # 连接密码（待测试）

        # client.authenticate("用户", "密码")

        # 指定数据库

        mydb = client[dbname]

        # 存放数据的数据库表名

        self.sheet = mydb[sheeiname]

    def process_item(self, item, spider):

        data = dict(item)

        self.sheet.insert(data)

        return item

7 .运行爬虫程序

PS D:\scrapy\douban> scrapy crawl doubanmovie

8. 检查日志信息

爬取豆瓣电影TOP 250的电影存储到mongodb中的更多相关文章

python定时器爬取豆瓣音乐Top榜歌名
python定时器爬取豆瓣音乐Top榜歌名作者:vpoet mail:vpoet_sir@163.com 注:这些小demo都是前段时间为了学python写的,现在贴出来纯粹是为了和大家分享一下 # ...
python3爬取豆瓣排名前250电影信息
#!/usr/bin/env python # -*- coding: utf-8 -*- # @File : doubanmovie.py # @Author: Anthony.waa # @Dat ...
Python爬虫：现学现用xpath爬取豆瓣音乐
爬虫的抓取方式有好几种,正则表达式,Lxml(xpath)与BeautifulSoup,我在网上查了一下资料,了解到三者之间的使用难度与性能三种爬虫方式的对比. 这样一比较我我选择了Lxml(xpa ...
爬虫——正则表达式爬取豆瓣电影TOP前250的中英文名
正则表达式爬取豆瓣电影TOP前250的中英文名 1.首先要实现网页的数据的爬取.新建test.py文件 test.py 1 import requests 2 3 def get_Html_text( ...
Python开发爬虫之静态网页抓取篇：爬取“豆瓣电影 Top 250”电影数据
所谓静态页面是指纯粹的HTML格式的页面,这样的页面在浏览器中展示的内容都在HTML源码中. 目标:爬取豆瓣电影TOP250的所有电影名称,网址为:https://movie.douban.com/t ...
用python爬取豆瓣电影Top 250
首先,打开豆瓣电影Top 250,然后进行网页分析.找到它的Host和User-agent,并保存下来. 然后,我们通过翻页,查看各页面的url,发现规律: 第一页:https://movie.dou ...
python爬虫08 | 你的第二个爬虫，要过年了，爬取豆瓣最受欢迎的250部电影慢慢看
马上就要过年啦过年在家干啥咧准备好被七大姑八大姨轮番「轰炸」了没? 你的内心 os 是这样的但实际上你是这样的应付完之后闲暇时刻不妨看看电影接下来咱们就来爬取豆瓣上评分最高的 250部电影 ...
爬虫系列1：Requests+Xpath 爬取豆瓣电影TOP
爬虫1:Requests+Xpath 爬取豆瓣电影TOP [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]: ...
Python爬取豆瓣电影top
Python爬取豆瓣电影top250 下面以四种方法去解析数据,前面三种以插件库来解析,第四种以正则表达式去解析. xpath pyquery beaufifulsoup re 爬取信息:名称评分 ...

随机推荐

NOIP2018D1T1 铺设道路
原题:NOIP2013D1T1 积木大赛题目地址:P5019 铺设道路思路:玄学瞎搞将每块区域插入一个小根堆,这里的小根堆用优先队列实现,即运用一个 \(pair\) , \(first\) 为 ...
题解-AtCoder Code-Festival2017qualA-E Modern Painting
Problem CODE-FESTIVAL 2017 qual A 洛谷账户的提交通道题意:有一个\(n\)行\(m\)列的方格,在边界外有可能有机器人(坐标为\((0,x),(n+1,x),(x, ...
ASP.NET如何下载大文件
关于此代码的几点说明: 1. 将数据分成较小的部分,然后将其移动到输出流以供下载,从而获取这些数据. 2. 根据下载的文件类型来指定 Response.ContentType .(参考OSChina的 ...
优秀员工的修炼——通往专家、管理之路
(一)好员工的素质好员工的类型有很多种,尝试着抽象出一个定义吧--好员工是那些主管分配其任务放心.同事喜欢与其共事.对自己工作负责.志在自我提升和价值实现的人.知识经济时代,好员工首先是做好自我管理 ...
谓词逻辑 p->q 的真假
若p为假,则q可取真或假,p->q为永真若p为真,q为假,则p->q为假若p为真,q为真,则p->q为真 p q p->q 0 0 1 0 1 1 1 0 0 1 1 1 ...
[C]*和&
一 .& c的&被称为“寻址运算符”,作用是指向某变量的指针: 请看以下代码: int main(void){ int int_1 = 16; printf(" ...
基于MVC 的Quartz.Net组件实现的定时执行任务调度
新建mvc项目之后,首先引用Quartz组件.工具-->NuGet包管理器-->管理解决方案的 NuGet包管理器组件安装完成. Quartz.Net一个最简单任务至少包括三部分实现:j ...
C#方法的重写
问题一:什么是重写? “重写”父类方法就是修改它的实现方式或者说在子类中对它进行重新编写. 问题二:为什么要重写父类的方法通常,子类继承父类的方法,在调用对象继承方法的时候,调用和执行的是 ...
姿势摆好，一招学会android的布局优化！
作为android应用来讲,无论应用本身多么美观,功能多么强大,内容多么丰富.但如果App本身打开界面缓慢超过手机16ms刷新一次页面的时间,就会产生卡顿.用户体验都会变得极差,导致用户量减少.所以我 ...
Confluence 6 属性的一个活动
为了启用属性,使用上面描述的方法.针对所有的用户,属性每一个访问的页面,将会在你的应用服务器中进行记录,直到你对 Confluence 进行重启.请注意每次用户访问一个链接,一个单一的属性将会被打印出 ...

爬取豆瓣电影TOP 250的电影存储到mongodb中

爬取豆瓣电影TOP 250的电影存储到mongodb中

爬取豆瓣电影TOP 250的电影存储到mongodb中的更多相关文章

随机推荐

热门专题