Scrapy 通过登录的方式爬取豆瓣影评数据

爬虫
Scrapy
豆瓣
Fly

由于需要爬取影评数据在来做分析,就选择了豆瓣影评来抓取数据,工具使用的是Scrapy工具来实现。scrapy工具使用起来比较简单,主要分为以下几步:

1、创建一个项目 ==scrapy startproject Douban

  • 得到一个项目目录如下:

    ├── Douban
    │   ├── init.py
    │   ├── items.py
    │   ├── pipelines.py
    │   ├── settings.py
    │   └── spiders
    │   └── init.py
    └── scrapy.cfg

    2 directories, 6 files

  • 然后定义一个Item项
    定义Item项,主要是为了方便得到爬取得内容。(根据个人需要定义吧,不定义也可以。)

  • 定义一个爬虫类
    由上面的目录上,知道放在spider下面。可以根据不同的需要继承 scrapy.Spider 或者是CrawlSpider。然后定义url以及parse方法
    当然也可以使用命令来生成模板scrapy genspider douban douban.com

  • 抓取内容
    使用命令 scrapy crawl spidername

具体可以参照Scrapy手册(scrapy tutorial)

通过scrapy 参考手册的程序定义之后,会发现在爬不到数据,这是因为豆瓣使用了反爬虫机制。我们可以在setting.py内启动DOWNLOAD_DELAY=3 以及User-Agent代理:USER_AGENT = 'Douban (+http://www.douban.com)'

这样就可以开启爬虫了。
但是在爬取豆瓣影评数据的时候,会发现,最多只能爬取10页,然后豆瓣就需要你登录。不然就只能爬取10页数据(从浏览去看,也是只能看到10页数据)。

这就需要我们登录之后再去爬取数据了。
然后在Scrapy手册的Spider部分,发现了可以使用如下方式实现登录:

  1. class MySpider(scrapy.Spider): 

  2. name = 'myspider' 


  3. def start_requests(self): 

  4. return [scrapy.FormRequest("http://www.example.com/login", 

  5. formdata={'user': 'john', 'pass': 'secret'}, 

  6. callback=self.logged_in)] 


  7. def logged_in(self, response): 

  8. # here you would extract links to follow and return Requests for 

  9. # each of them, with another callback 

  10. pass 

通过上面的方法,就可以实现登录豆瓣爬取想要的数据了。

** 本篇笔记初略的记录了如何登录豆瓣爬取数据。


下面试自己写的spider/Doubanspider.py的代码,仅供参考:

  1. # -*- coding: utf-8 -*- 


  2. import scrapy 

  3. from scrapy.selector import Selector 

  4. from Douban.items import DoubanItem 


  5. class Doubanspider(scrapy.Spider): 

  6. # 定义爬虫的名字 

  7. name = "doubanmovie" 

  8. allowed_domains = ["douban.com"] 


  9. # 初始化url 

  10. # start_urls = ( 

  11. # 'https://movie.douban.com/subject/26266072/comments', 

  12. # ) 


  13. def start_requests(self): 

  14. # print u'开始' 

  15. return [scrapy.FormRequest('https://www.douban.com/login', 

  16. formdata={'form_email': 'your username', 'form_password': 'your password'}, callback = self.logged_in)] 


  17. def logged_in(self, response): 

  18. # 登陆完成之后开始爬取数据 

  19. # print u'成功?' 

  20. yield Request('https://movie.douban.com/subject/26266072/comments', callback = self.parse) 


  21. # 定义解析的方法 

  22. def parse(self, response): 

  23. # print u'爬取' 

  24. sel = Selector(response) 

  25. self.log("Hi, this is an item page! %s" % response.url) 

  26. item = DoubanItem() 


  27. # 每条短评的xpath 

  28. item['comment'] = sel.xpath('//div[@class = "comment"]/p[@class = ""]/text()[1]').extract() 

  29. # 每个评分的xpath 

  30. item['grade'] = sel.xpath('//div[@class = "comment"]/h3/span[@class = "comment-info"]/span[contains(@class,"allstar")]/@title').extract() 


  31. yield item 


  32. # 下一页的xpath, 如有,则又发出新的请求 

  33. next_page = '//div[@id = "paginator"]/a[@class="next"]/@href' 


  34. if response.xpath(next_page): 

  35. url_nextpage = 'https://movie.douban.com/subject/26266072/comments' + response.xpath(next_page).extract()[0] 

  36. request = Request(url_nextpage, callback = self.parse) 

  37. yield request 


items.py的定义如下:

  1. import scrapy 


  2. class DoubanItem(scrapy.Item): 

  3. # define the fields for your item here like: 

  4. # name = scrapy.Field() 

  5. comment = scrapy.Field() 

  6. grade = scrapy.Field() 


再在setting里面设置好,就可以爬取数据了!


2016.8.30
Fly

Scrapy 通过登录的方式爬取豆瓣影评数据的更多相关文章

  1. 【python数据挖掘】爬取豆瓣影评数据

    概述: 爬取豆瓣影评数据步骤: 1.获取网页请求 2.解析获取的网页 3.提速数据 4.保存文件 源代码: # 1.导入需要的库 import urllib.request from bs4 impo ...

  2. [超详细] Python3爬取豆瓣影评、去停用词、词云图、评论关键词绘图处理

    爬取豆瓣电影<大侦探皮卡丘>的影评,并做词云图和关键词绘图第一步:找到评论的网页url.https://movie.douban.com/subject/26835471/comments ...

  3. Python3.5爬取豆瓣电视剧数据并且同步到mysql中

    #!/usr/local/bin/python # -*- coding: utf-8 -*- # Python: 3.5 # Author: zhenghai.zhang@xxx.com # Pro ...

  4. python系列之(3)爬取豆瓣图书数据

    上次介绍了beautifulsoup的使用,那就来进行运用下吧.本篇将主要介绍通过爬取豆瓣图书的信息,存储到sqlite数据库进行分析. 1.sqlite SQLite是一个进程内的库,实现了自给自足 ...

  5. python爬虫-爬取豆瓣电影数据

    #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:27# 文件 :spider_05.py# IDE :PyChar ...

  6. Python爬虫之抓取豆瓣影评数据

    脚本功能: 1.访问豆瓣最受欢迎影评页面(http://movie.douban.com/review/best/?start=0),抓取所有影评数据中的标题.作者.影片以及影评信息 2.将抓取的信息 ...

  7. Scrapy爬虫(4)爬取豆瓣电影Top250图片

      在用Python的urllib和BeautifulSoup写过了很多爬虫之后,本人决定尝试著名的Python爬虫框架--Scrapy.   本次分享将详细讲述如何利用Scrapy来下载豆瓣电影To ...

  8. Scrapy爬取豆瓣图书数据并写入MySQL

    项目地址 BookSpider 介绍 本篇涉及的内容主要是获取分类下的所有图书数据,并写入MySQL 准备 Python3.6.Scrapy.Twisted.MySQLdb等 演示 代码 一.创建项目 ...

  9. selenium自动化方式爬取豆瓣热门电影

    爬取的代码如下: from selenium import webdriver from bs4 import BeautifulSoup import time #发送请求,获取响应 def get ...

随机推荐

  1. js模块开发

    js模块开发(一) 现在嵌入页面里面的javascript代码越来越复杂,于是可能依赖也越来越严重,使用别人开发的js也越来越多,于是在理想情况下,我们只需要实现核心的业务逻辑,其他都可以加载别人已经 ...

  2. Notepad++ 配置 支持jquery、html、css、javascript、php代码提示

    原文:Notepad++ 配置 支持jquery.html.css.javascript.php代码提示 官网下载:http://notepad-plus-plus.org/ 获取插件的方法:打开软件 ...

  3. 找不到方法: Int32 System.Environment.get_CurrentManagedThreadId() .

    这个问题在本地运行没错...放到服务器上就出现这个问题.. 原因:是这个方法是.NETFRAMWORK4.5的..服务器上用的是4.0就会出现这个问题. 解决办法:在本地WEB项目右键把项目改到FRA ...

  4. dom01

    事件冒泡:即事件最开始由最具体的元素(文档中嵌套层次最深的那个节点)接收,然后逐级向上传播至最不具体的那个节点(文档). 事件捕获:即不太具体的节点应该更早接收到事件,而最具体的节点最后接收到事件. ...

  5. 探秘IntelliJ IDEA v13的应用服务器

    原文:探秘IntelliJ IDEA v13的应用服务器 IntelliJ IDEA v13应用out-of-the-box支持众多企业级和开源的服务器,包括:GlassFish.WebLogic. ...

  6. WEB开发中常用的正则表达式集合

    在计算机科学中,正则表达式用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串.在WEB开发中,正则表达式通常用来检测.查找替换某些符合规则的字符串,如检测用户输入E-mai格式是否正确,采集符 ...

  7. css3动画实例测试

    1.css3动画属性分析(2016-5-11) 1.transition: 规定属性变换规则,可以这样讲.transition(a,b,c,d); a:要变换的属性: b:过渡时间: c:运动方式: ...

  8. Linq无聊练习系列7----Insert,delete,update,attach操作练习

    /*********************Insert,delete,update,attach操作练习**********************************/            ...

  9. BT是如何下载的

    BT协议简介 一.BT下载是怎么来的? 在互联网上下载文件的方式大概有这么几种:FTP.HTTP.BT.eMule(电驴)等, 浏览器会直接支持FTP和HTTP下载,BT和eMule下载一般需要专用的 ...

  10. Django ORM 查询管理器

    Django ORM 查询管理器 ORM 查询管理器 对于 ORM 定义: 对象关系映射, Object Relational Mapping, ORM, 是一种程序设计技术,用于实现面向对象编程语言 ...