python爬虫入门（九）Scrapy框架之数据库保存

豆瓣电影TOP 250爬取-->>>数据保存到MongoDB

要求：

1.爬取豆瓣top 250电影名字、演员列表、评分和简介

2.设置随机UserAgent和Proxy

3.爬取到的数据保存到MongoDB数据库

items.py

# -*- coding: utf-8 -*-

import scrapy

class DoubanItem(scrapy.Item):

    # define the fields for your item here like:

    # 标题

    title = scrapy.Field()

    # 信息

    bd = scrapy.Field()

    # 评分

    star = scrapy.Field()

    # 简介

    quote = scrapy.Field()

doubanmovie.py

# -*- coding: utf-8 -*-

import scrapy

from douban.items import DoubanItem

class DoubamovieSpider(scrapy.Spider):

    name = "doubanmovie"

    allowed_domains = ["movie.douban.com"]

    offset = 0

    url = "https://movie.douban.com/top250?start="

    start_urls = (

            url+str(offset),

    )

    def parse(self, response):

        item = DoubanItem()

        movies = response.xpath("//div[@class='info']")

        for each in movies:

            # 标题

            item['title'] = each.xpath(".//span[@class='title'][1]/text()").extract()[0]

            # 信息

            item['bd'] = each.xpath(".//div[@class='bd']/p/text()").extract()[0]

            # 评分

            item['star'] = each.xpath(".//div[@class='star']/span[@class='rating_num']/text()").extract()[0]

            # 简介

            quote = each.xpath(".//p[@class='quote']/span/text()").extract()

            if len(quote) != 0:

                item['quote'] = quote[0]

            yield item

        if self.offset < 225:

            self.offset += 25

            yield scrapy.Request(self.url + str(self.offset), callback = self.parse)

pipelines.py

# -*- coding: utf-8 -*-

import pymongo

from scrapy.conf import settings

class DoubanPipeline(object):

    def __init__(self):

        host = settings["MONGODB_HOST"]

        port = settings["MONGODB_PORT"]

        dbname = settings["MONGODB_DBNAME"]

        sheetname= settings["MONGODB_SHEETNAME"]

        # 创建MONGODB数据库链接

        client = pymongo.MongoClient(host = host, port = port)

        # 指定数据库

        mydb = client[dbname]

        # 存放数据的数据库表名

        self.sheet = mydb[sheetname]

    def process_item(self, item, spider):

        data = dict(item)

        self.sheet.insert(data)

        return item

settings.py

DOWNLOAD_DELAY = 2.5

COOKIES_ENABLED = False

DOWNLOADER_MIDDLEWARES = {

    'douban.middlewares.RandomUserAgent': 100,

    'douban.middlewares.RandomProxy': 200,

}

USER_AGENTS = [

    'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0)',

    'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.2)',

    'Opera/9.27 (Windows NT 5.2; U; zh-cn)',

    'Opera/8.0 (Macintosh; PPC Mac OS X; U; en)',

    'Mozilla/5.0 (Macintosh; PPC Mac OS X; U; en) Opera 8.0',

    'Mozilla/5.0 (Linux; U; Android 4.0.3; zh-cn; M032 Build/IML74K) AppleWebKit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30',

    'Mozilla/5.0 (Windows; U; Windows NT 5.2) AppleWebKit/525.13 (KHTML, like Gecko) Chrome/0.2.149.27 Safari/525.13'

]

PROXIES = [

        {"ip_port" :"121.42.140.113:16816", "user_passwd" : "****"},

        #{"ip_prot" :"121.42.140.113:16816", "user_passwd" : ""}

        #{"ip_prot" :"121.42.140.113:16816", "user_passwd" : ""}

        #{"ip_prot" :"121.42.140.113:16816", "user_passwd" : ""}

]

ITEM_PIPELINES = {

    'douban.pipelines.DoubanPipeline': 300,

}

# MONGODB 主机名

MONGODB_HOST = "127.0.0.1"

# MONGODB 端口号

MONGODB_PORT = 27017

# 数据库名称

MONGODB_DBNAME = "Douban"

# 存放数据的表名称

MONGODB_SHEETNAME = "doubanmovies"

middlewares.py

#!/usr/bin/env python

# -*- coding:utf-8 -*-

import random

import base64

from settings import USER_AGENTS

from settings import PROXIES

# 随机的User-Agent

class RandomUserAgent(object):

    def process_request(self, request, spider):

        useragent = random.choice(USER_AGENTS)

        #print useragent

        request.headers.setdefault("User-Agent", useragent)

class RandomProxy(object):

    def process_request(self, request, spider):

        proxy = random.choice(PROXIES)

        if proxy['user_passwd'] is None:

            # 没有代理账户验证的代理使用方式

            request.meta['proxy'] = "http://" + proxy['ip_port']

        else:

            # 对账户密码进行base64编码转换

            base64_userpasswd = base64.b64encode(proxy['user_passwd'])

            # 对应到代理服务器的信令格式里

            request.headers['Proxy-Authorization'] = 'Basic ' + base64_userpasswd

            request.meta['proxy'] = "http://" + proxy['ip_port']

python爬虫入门（九）Scrapy框架之数据库保存的更多相关文章

python爬虫入门(六) Scrapy框架之原理介绍
Scrapy框架 Scrapy简介 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬 ...
Python爬虫进阶之Scrapy框架安装配置
Python爬虫进阶之Scrapy框架安装配置初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此 ...
爬虫入门之Scrapy 框架基础功能(九)
Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非 ...
python爬虫学习之Scrapy框架的工作原理
一.Scrapy简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 其最初是为了页面抓取 (更确切来说, 网 ...
零基础写python爬虫之使用Scrapy框架编写爬虫
网络爬虫,是在网上进行数据抓取的程序,使用它能够抓取特定网页的HTML数据.虽然我们利用一些库开发一个爬虫程序,但是使用框架可以大大提高效率,缩短开发时间.Scrapy是一个使用Python编写的,轻 ...
PYTHON 爬虫笔记十一:Scrapy框架的基本使用
Scrapy框架详解及其基本使用 scrapy框架原理 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了 ...
python 爬虫相关含Scrapy框架
1.从酷狗网站爬取新歌首发的新歌名字.播放时长.链接等 from bs4 import BeautifulSoup as BS import requests import re import js ...
Python爬虫知识点四--scrapy框架
一.scrapy结构数据解释: 1.名词解析: o 引擎(Scrapy Engine)o 调度器(Scheduler)o 下载器(Downloader)o 蜘蛛(Spiders)o 项目管 ...
爬虫入门之Scrapy框架实战(新浪百科豆瓣)(十二)
一新浪新闻爬取 1 爬取新浪新闻(全站爬取) 项目搭建与开启 scrapy startproject sina cd sina scrapy genspider mysina http://roll ...

随机推荐

小知识点BeanUtils.copyProperties
通过BeanUtils.copyProperties可以时间拷贝对象中的值,下面的new String[]{"cid","agreeFlag"," ...
[WinForm]dataGridView动态加载以本地图片显示列
增加一个图片列: C# private void btnQuery_Click(object sender, EventArgs e) { StringBuilder sb=new StringBui ...
【Android 应用开发】Android 平台 HTTP网速测试案例 API 分析
作者 : 万境绝尘转载请注明出处 : http://blog.csdn.net/shulianghan/article/details/25996817 工信部规定的网速测试标准 : 除普通网页测速 ...
修改DrawerLayout 和toolbar 配合navigation的颜色
大家都知道DrawerLayout 和toolbar 结合能出来高大上的效果. 使用到一个ActionBarDrawerToggle类. 那么怎么修改DrawerToggle的颜色呢,搜索了很多中文网 ...
Java 截取中英文混合字符串
题目: 编写一个截取字符串的函数,输入为一个字符串和字节数,输出为按字节截取的字符串. 但是要保证汉字不被截半个,如"我ABC"4,应该截为"我AB",输入&q ...
hibernate关联对象的增删改查------查
本篇博客是之前博客hibernate关联对象的增删改查------查的后继,本篇代码的设定都在前文已经写好,因此读这篇之前,请先移步上一篇博客 //代码片5 SessionFactory sessi ...
VectorDrawable与AnimatedVectorDrawable
VectorDrawable Android L开始提供了新的API VectorDrawable 可以使用SVG类型的资源,也就是矢量图.先来一个例子吧. <?xml version=&qu ...
Mac OS X 10.8.4下面XZ Utils（*.tar.xz）压缩解压缩命令工具的安装
主要参考:http://bbs.chinaunix.net/thread-3610738-1-1.html 现在很多找到的软件都是tar.xz的格式的,xz 是一个使用 LZMA压缩算法的无损数据压缩 ...
巧用FineReport搭建成本管控监测系统
一.应用背景企业在近几年快速发展,规模也越来越大,而信息传递与反馈手段却仍然比较落后,随着信息技术的不断发展,人们开始通过尝试利用技术手段改善这种环境.企业的项目不断增多,而作为高层管理者,通过层级 ...
JNI技术简介-android学习之旅（92）
分为5步 !!!注意本地方法是java中的方法,本地函数指的是c语言中的对应函数 1.在java类中声明本地方法 2.使用javah命令,生成包含jni本地函数原型的头文件 3. 实现jni本地函数 ...

python爬虫入门（九）Scrapy框架之数据库保存

豆瓣电影TOP 250爬取-->>>数据保存到MongoDB

python爬虫入门（九）Scrapy框架之数据库保存的更多相关文章

随机推荐

热门专题