Scrapy 学习笔记爬豆瓣 250

Scrapy 是比较上层的库，基于中间层开发，它基于高层，所以它依赖许多其它库。事件驱动的异步技术。

Scrapy 爬取网页，以豆瓣电影 Top 250 为例子。

首先打开命令提示符，输入。scrapy startproject douban

使用 Scrapy 提供的 cmd 命令

from scrapy import cmdline

cmdline.execute("scrapy crawl doubanmovie".split())

设置 settings.py

DOWNLOAD_DELAY = 2

RANDOMIZE_DOWNLOAD_DELAY = True

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.54 Safari/536.5'

COOKIES_ENABLED = True

FEED_URI = u'file:douban.csv'

FEED_FORMAT = 'csv'

class DoubanMovieItem(Item):

    title = Field()

    movieInfo = Field()

    star = Field()

    quote = Field()

主要的爬虫程序：

from scrapy import Request

from scrapy import Selector

from scrapy.spiders import Spider

from douban.items import DoubanMovieItem

class Douban(Spider):

    name = "douban"

    start_urls = ["https://movie.douban.com/top250"]

    url = 'https://movie.douban.com/top250'

    def parse(self, response):

        print("--- 爬取的内容 ---")

        print(response.url)

        item = DoubanMovieItem()

        selector = Selector(response)

        Movies = selector.xpath("//div[@class='info']")

        for eachMovice in Movies:

            title = eachMovice.xpath("div[@class='hd']/a/span/text()").extract()

            fullTitle = ''

            for each in title:

                fullTitle += each

            movieInfo = eachMovice.xpath("div[@class='bd']/p/text()").extract()

            # 评分，xpath 从的数组下标从 1 开始

            star = eachMovice.xpath("div[@class='bd']/div[@class='star']/span[2]/text()").extract()

            print(star)

            # 一句脍炙人口的话

            quote = eachMovice.xpath("div[@class='bd']/div[@class='star']/span[4]/text()").extract()

            if (quote):

                quote = quote[0]

            else:

                quote = ''

            item['title'] = fullTitle

            item['movieInfo'] = ";".join(movieInfo)

            item['star'] = star

            item['quote'] = quote

            yield item

        nextLink = selector.xpath("//div[@class='paginator']/span[@class='next']/a/@href").extract()

        if (nextLink):

            nextLink = nextLink[0]

            print("下一页", nextLink)

            yield Request(self.url + nextLink, callback=self.parse)

Scrapy 学习笔记爬豆瓣 250的更多相关文章

Scrapy:学习笔记(2)——Scrapy项目
Scrapy:学习笔记(2)——Scrapy项目 1.创建项目创建一个Scrapy项目,并将其命名为“demo” scrapy startproject demo cd demo 稍等片刻后,Scr ...
Scrapy:学习笔记(1)——XPath
Scrapy:学习笔记(1)——XPath 1.快速开始 XPath是一种可以快速在HTML文档中选择并抽取元素.属性和文本的方法. 在Chrome,打开开发者工具,可以使用$x工具函数来使用XPat ...
scrapy 学习笔记1
最近一段时间开始研究爬虫,后续陆续更新学习笔记爬虫,说白了就是获取一个网页的html页面,然后从里面获取你想要的东西,复杂一点的还有: 反爬技术(人家网页不让你爬,爬虫对服务器负载很大) 爬虫框架( ...
scrapy学习笔记(1)
初探scrapy,发现很多入门教程对应的网址都失效或者改变布局了,走了很多弯路.于是自己摸索做一个笔记. 环境是win10 python3.6(anaconda). 安装 pip install sc ...
Scrapy学习笔记(5)-CrawlSpider+sqlalchemy实战
基础知识 class scrapy.spiders.CrawlSpider 这是抓取一般网页最常用的类,除了从Spider继承过来的属性外,其提供了一个新的属性rules,它提供了一种简单的机制,能够 ...
scrapy 学习笔记2
本章学习爬虫的回调和跟踪链接使用参数回调和跟踪链接上一篇的另一个爬虫,这次是为了抓取作者信息 # -*- coding: utf-8 -*- import scrapy class Myspi ...
scrapy学习笔记一
以前写爬虫都是直接手写获取response然后用正则匹配,被大佬鄙视之后现在决定开始学习scrapy 一.安装 pip install scrapy 二.创建项目 scrapy startprojec ...
Scrapy爬虫笔记 - 爬取知乎
cookie是一种本地存储机制,cookie是存储在本地的 session其实就是将用户信息用户名.密码等)加密成一串字符串,返回给浏览器,以后浏览器每次请求都带着这个sessionId 状态码一般是 ...
Python爬虫框架Scrapy学习笔记原创
字号 scrapy [TOC] 开始 scrapy安装首先手动安装windows版本的Twisted https://www.lfd.uci.edu/~gohlke/pythonlibs/#twi ...

随机推荐

mysql5.7 修改用户密码
修改vi /etc/my.cnf,增加skip-grant-tables可以免密码登录mysql use mysql ; update user set authentication_string=P ...
极*Java速成教程 - (8)
Java高级特性注解注解可以在代码之外添加更多的信息,更加完整地描述程序,帮助编译器进行工作,或者实现某些特定的Java代码之外的功能. 注解可以简化某些重复的流程,自动化那些过程. 注解的使用 ...
Phone List POJ-3630 字典树 or 暴力
Phone List POJ-3630 字典树 or 暴力题意目前有 t 组数据, n 个电话号码,如果拨打号码的时候先拨通了某个号码,那么这一串号码就无法全部拨通. 举个例子 911 和 91 ...
Django 调试models 输出的SQL语句定位查看结果
django 调试models变得更为简单了,不用像之前的版本, 手工去调用django query, 才能打印出之前的代码是执行的什么SQL语句. 1.3开始只需在settings.py里,配置如下 ...
PY个欧拉筛
大数据用 python? 速度感人突然来了一发 python 欧拉筛,调了半天之后输入 1e7 过了几秒钟之后出解了,PY 果然神速没学过 PY 的小同学可以当做 VB 的阅读程序,反正语言隔离都 ...
TCP滑动窗体
TCP的滑动窗体攻克了端到端的流量控制问题,同意接受方对传输进行限制.直到它拥有足够的缓冲空间来容纳很多其他的数据.滑动窗体的大小由接收方确定,接收方在发送确认信号给发送方的同一时候告诉发送方自己的缓 ...
git将某个分支的代码完全覆盖另一个分支
假设每个人有个开发分支,想隔一段时间就把自己的开发分支上的代码保持和测试分支一直,则需要如下操作: 1.我想将test分支上的代码完全覆盖dev分支,首先切换到dev分支git checkout de ...
CentOS7编译安装MySQL8.0
1.下载mysql8.0.16源码包和cmake源码包 cd /usr/local/srcwget https://cdn.mysql.com//Downloads/MySQL-8.0/mysql-b ...
PAT Basic 1032 挖掘机技术哪家强 (20 分)
为了用事实说明挖掘机技术到底哪家强,PAT 组织了一场挖掘机技能大赛.现请你根据比赛结果统计出技术最强的那个学校. 输入格式: 输入在第 1 行给出不超过 1 的正整数 N,即参赛人数.随后 N 行, ...
Sublime3 配置node.js 环境 The process "node.exe" not found
配置中文显示调试结果 [下载地址](https://github.com/tanepiper/SublimeText-Nodejs) 1. 到上述地址下载压缩文件 2.将文件解压到sublime的插件 ...

Scrapy 学习笔记爬豆瓣 250

Scrapy 学习笔记爬豆瓣 250的更多相关文章

随机推荐

热门专题