Scrapy 通过登录的方式爬取豆瓣影评数据

爬虫

Scrapy

豆瓣

Fly

由于需要爬取影评数据在来做分析，就选择了豆瓣影评来抓取数据，工具使用的是Scrapy工具来实现。scrapy工具使用起来比较简单，主要分为以下几步：

1、创建一个项目 ==scrapy startproject Douban

得到一个项目目录如下：

├── Douban
│   ├── init.py
│   ├── items.py
│   ├── pipelines.py
│   ├── settings.py
│   └── spiders
│   └── init.py
└── scrapy.cfg

2 directories, 6 files
然后定义一个Item项
定义Item项，主要是为了方便得到爬取得内容。（根据个人需要定义吧，不定义也可以。）
定义一个爬虫类
由上面的目录上，知道放在spider下面。可以根据不同的需要继承 scrapy.Spider 或者是CrawlSpider。然后定义url以及parse方法
当然也可以使用命令来生成模板scrapy genspider douban douban.com
抓取内容
使用命令 scrapy crawl spidername

通过scrapy 参考手册的程序定义之后，会发现在爬不到数据，这是因为豆瓣使用了反爬虫机制。我们可以在setting.py内启动DOWNLOAD_DELAY=3 以及User-Agent代理：USER_AGENT = 'Douban (+http://www.douban.com)'

这样就可以开启爬虫了。
但是在爬取豆瓣影评数据的时候，会发现，最多只能爬取10页，然后豆瓣就需要你登录。不然就只能爬取10页数据（从浏览去看，也是只能看到10页数据）。

这就需要我们登录之后再去爬取数据了。
然后在Scrapy手册的Spider部分，发现了可以使用如下方式实现登录：

class MySpider(scrapy.Spider):
name = 'myspider'
def start_requests(self):
return [scrapy.FormRequest("http://www.example.com/login",
formdata={'user': 'john', 'pass': 'secret'},
callback=self.logged_in)]
def logged_in(self, response):
# here you would extract links to follow and return Requests for
# each of them, with another callback
pass

通过上面的方法，就可以实现登录豆瓣爬取想要的数据了。

** 本篇笔记初略的记录了如何登录豆瓣爬取数据。

下面试自己写的spider/Doubanspider.py的代码，仅供参考：

# -*- coding: utf-8 -*-
import scrapy
from scrapy.selector import Selector
from Douban.items import DoubanItem
class Doubanspider(scrapy.Spider):
# 定义爬虫的名字
name = "doubanmovie"
allowed_domains = ["douban.com"]
# 初始化url
# start_urls = (
# 'https://movie.douban.com/subject/26266072/comments',
# )
def start_requests(self):
# print u'开始'
return [scrapy.FormRequest('https://www.douban.com/login',
formdata={'form_email': 'your username', 'form_password': 'your password'}, callback = self.logged_in)]
def logged_in(self, response):
# 登陆完成之后开始爬取数据
# print u'成功？'
yield Request('https://movie.douban.com/subject/26266072/comments', callback = self.parse)
# 定义解析的方法
def parse(self, response):
# print u'爬取'
sel = Selector(response)
self.log("Hi, this is an item page! %s" % response.url)
item = DoubanItem()
# 每条短评的xpath
item['comment'] = sel.xpath('//div[@class = "comment"]/p[@class = ""]/text()[1]').extract()
# 每个评分的xpath
item['grade'] = sel.xpath('//div[@class = "comment"]/h3/span[@class = "comment-info"]/span[contains(@class,"allstar")]/@title').extract()
yield item
# 下一页的xpath，如有，则又发出新的请求
next_page = '//div[@id = "paginator"]/a[@class="next"]/@href'
if response.xpath(next_page):
url_nextpage = 'https://movie.douban.com/subject/26266072/comments' + response.xpath(next_page).extract()[0]
request = Request(url_nextpage, callback = self.parse)
yield request

items.py的定义如下：

import scrapy
class DoubanItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
comment = scrapy.Field()
grade = scrapy.Field()

再在setting里面设置好，就可以爬取数据了！

2016.8.30
Fly

Scrapy 通过登录的方式爬取豆瓣影评数据的更多相关文章

【python数据挖掘】爬取豆瓣影评数据
概述: 爬取豆瓣影评数据步骤: 1.获取网页请求 2.解析获取的网页 3.提速数据 4.保存文件源代码: # 1.导入需要的库 import urllib.request from bs4 impo ...
[超详细] Python3爬取豆瓣影评、去停用词、词云图、评论关键词绘图处理
爬取豆瓣电影<大侦探皮卡丘>的影评,并做词云图和关键词绘图第一步:找到评论的网页url.https://movie.douban.com/subject/26835471/comments ...
Python3.5爬取豆瓣电视剧数据并且同步到mysql中
#!/usr/local/bin/python # -*- coding: utf-8 -*- # Python: 3.5 # Author: zhenghai.zhang@xxx.com # Pro ...
python系列之（3）爬取豆瓣图书数据
上次介绍了beautifulsoup的使用,那就来进行运用下吧.本篇将主要介绍通过爬取豆瓣图书的信息,存储到sqlite数据库进行分析. 1.sqlite SQLite是一个进程内的库,实现了自给自足 ...
python爬虫-爬取豆瓣电影数据
#!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:27# 文件 :spider_05.py# IDE :PyChar ...
Python爬虫之抓取豆瓣影评数据
脚本功能: 1.访问豆瓣最受欢迎影评页面(http://movie.douban.com/review/best/?start=0),抓取所有影评数据中的标题.作者.影片以及影评信息 2.将抓取的信息 ...
Scrapy爬虫（4）爬取豆瓣电影Top250图片
在用Python的urllib和BeautifulSoup写过了很多爬虫之后,本人决定尝试著名的Python爬虫框架--Scrapy. 本次分享将详细讲述如何利用Scrapy来下载豆瓣电影To ...
Scrapy爬取豆瓣图书数据并写入MySQL
项目地址 BookSpider 介绍本篇涉及的内容主要是获取分类下的所有图书数据,并写入MySQL 准备 Python3.6.Scrapy.Twisted.MySQLdb等演示代码一.创建项目 ...
selenium自动化方式爬取豆瓣热门电影
爬取的代码如下: from selenium import webdriver from bs4 import BeautifulSoup import time #发送请求,获取响应 def get ...

随机推荐

C语言学习-数据结构 - 倒插法顺序表
// test20161106.cpp : Defines the entry point for the console application. // #include "stdafx. ...
asp.net mvc源码分析-DefaultModelBinder 自定义的普通数据类型的绑定和验证
原文:asp.net mvc源码分析-DefaultModelBinder 自定义的普通数据类型的绑定和验证在前面的文章中我们曾经涉及到ControllerActionInvoker类GetPara ...
Hibernate实体映射配置（XML）简单三步完美配置
我们在使用Hibernate框架的时候,非常纠结的地方就是实体和表之间的映射,今天借助汤老师的思路写了小教程,以后配置不用纠结了! 第一步:写注释格式为:?属性,表达的是本对象与?的?关系. 例:“ ...
安德鲁斯Selector简介
<? xml version="1.0" encoding="utf-8"? > <selector xmlns:android=" ...
于CentOS 6 安装 Wordpress
1.两种方式给Wordpress 首先,你可以去wordpress最新的官方网站看看wordpress多少下载.例wordpress 3.9.1下载地址: http://cn.wordpress.or ...
调查问卷Html5发展综述
[Html5可以离线操作.是否能开发Html5离线网络应用程序] 按常理Html5开发出来的是Web网页应用.则需网络连接才干下载并使用,作为Html5对离线应用开发的支持最大的特殊,支持离线须要满足 ...
[转]Mysql explain用法和性能分析
本文转自:http://blog.csdn.net/haifu_xu/article/details/16864933 from @幸福男孩 MySQL中EXPLAIN解释命令是显示mysql如何 ...
[转]C/C++：构建你自己的插件框架
本文译自Gigi Sayfan在DDJ上的专栏文章.Gigi Sayfan是北加州的一个程序员,email:gigi@gmail.com. 本文是一系列讨论架构.开发和部署C/C++跨平台插件框架的文 ...
CSS3自适配手机屏幕[转]
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content ...
visual studio code, asp.net5, mvc6资料汇总
最近在试探性地跟随微软最新发布的一些产品,现列下某些挺好的文章和链接 code.visualstudio.com http://blogs.msdn.com/b/cesardelatorre/arch ...

Scrapy 通过登录的方式爬取豆瓣影评数据

Scrapy 通过登录的方式爬取豆瓣影评数据

Scrapy 通过登录的方式爬取豆瓣影评数据的更多相关文章

随机推荐

热门专题