scrapy 模拟登录后再抓取

深度好文：

from scrapy.contrib.spiders.init import InitSpider

from scrapy.http import Request, FormRequest

from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor

from scrapy.contrib.spiders import Rule

class MySpider(InitSpider):

    name = 'myspider'

    allowed_domains = ['domain.com']

    login_page = 'http://www.domain.com/login'

    start_urls = ['http://www.domain.com/useful_page/',

                  'http://www.domain.com/another_useful_page/']

    rules = (

        Rule(SgmlLinkExtractor(allow=r'-\w+.html$'),

             callback='parse_item', follow=True),

    )

    def init_request(self):

        """This function is called before crawling starts."""

        return Request(url=self.login_page, callback=self.login)

    def login(self, response):

        """Generate a login request."""

        return FormRequest.from_response(response,

                    formdata={'name': 'herman', 'password': 'password'},

                    callback=self.check_login_response)

    def check_login_response(self, response):

        """Check the response returned by a login request to see if we are

        successfully logged in.

        """

        if "Hi Herman" in response.body:

            self.log("Successfully logged in. Let's start crawling!")

            # Now the crawling can begin..

            self.initialized()

        else:

            self.log("Bad times :(")

            # Something went wrong, we couldn't log in, so nothing happens.

    def parse_item(self, response):

        # Scrape data from page

备注: 该代码片段来自于: http://www.sharejs.com/codes/python/8544

使用header

request_headers = { 'User-Agent': 'PeekABoo/1.3.7' }

request = urllib2.Request('http://sebsauvage.net', None, request_headers)

urlfile = urllib2.urlopen(request)

scrapy 模拟登录后再抓取的更多相关文章

Scrapy 模拟登陆知乎--抓取热点话题
工具准备在开始之前,请确保 scrpay 正确安装,手头有一款简洁而强大的浏览器, 若是你有使用 postman 那就更好了. Python 1 scrapy genspid ...
scrapy模拟登录微博
http://blog.csdn.net/pipisorry/article/details/47008981 这篇文章是介绍使用scrapy模拟登录微博,并爬取微博相关内容.关于登录流程为嘛如此设置 ...
Scrapy 通过登录的方式爬取豆瓣影评数据
Scrapy 通过登录的方式爬取豆瓣影评数据爬虫 Scrapy 豆瓣 Fly 由于需要爬取影评数据在来做分析,就选择了豆瓣影评来抓取数据,工具使用的是Scrapy工具来实现.scrapy工具使用起来 ...
Charles 安装证书后依旧抓取不到https请求的解决方案
1.打开charles——>help——>SSL proxying——>Install Charles Root Certificate 证书安装后,抓取https的包 2.查看Pr ...
Python手动构造Cookie模拟登录后获取网站页面内容
最近有个好友让我帮忙爬取个小说,这个小说是前三十章直接可读,后面章节需要充值VIP可见.所以就需要利用VIP账户登录后,构造Cookie,再用Python的获取每章节的url,得到内容后再使用 PyQ ...
python requests 模拟登陆网站，抓取数据
抓取页面数据的时候,有时候我们需要登陆才可以获取页面资源,那么我们需要登陆以后才可以跳转到对应的资源页面,那么我们需要通过模拟登陆,登陆成功以后再次去抓取对应的数据. 首先我们需要通过手动方式来登陆一 ...
python爬虫之scrapy模拟登录
背景: 初来乍到的pythoner,刚开始的时候觉得所有的网站无非就是分析HTML.json数据,但是忽略了很多的一个问题,有很多的网站为了反爬虫,除了需要高可用代理IP地址池外,还需要登录.例如知乎 ...
C#模拟登录后请求查询
需求是这样子的,想开发一个外挂程序,能够抓取别的系统的数据,从而实现数据验证. 比如这样一个界面: 使用Chrome浏览器分析http请求和响应过程以及页面的html代码,发现这是一个ajax请求,于 ...
scrapy下载中间件结合selenium抓取全国空气质量检测数据
1.所需知识补充 1.下载中间件常用函数 process_request(self, request, spider): 当每个request通过下载中间件是,该方法被调用 process_reque ...

随机推荐

C语言文件读取
FILE *fp = fopen("data.txt","rt");fscanf(fp,"%d", &n ); /* 把数据放到数组 ...
一个非常简单的RPC服务
1.servicefunctions.php <?php class ServiceFunctions { public static function getDisplayName($f,$l ...
谷歌浏览器chrome与firefox的冲突（未解之谜）
那年,公司开发了一套在线制作电子书的系统 e-textbook. 我负责小学电脑科教材在线题目的制作. 利用 ps制作剪裁好图片,导入系统,制作题目,并通知同事添加代码. 检测时,却发现有一道图片拖放 ...
SQL_TRACE与tkprof分析
一. SQL_TRACE 当SQL语句出现性能问题时,我们可以用SQL_TRACE来跟踪SQL的执行情况,通过跟踪,我们可以了解一条SQL或者PL/SQL包的运行情况,SQL_TRACE命令会将SQL ...
转（JSONP处理跨域事件）
前言: 由于Sencha Touch 2这种开发模式的特性,基本决定了它原生的数据交互行为几乎只能通过AJAX来实现. 当然了,通过调用强大的PhoneGap插件然后打包,你可以实现100%的Soc ...
ibm硬件知识点
ibm http://www-03.ibm.com/systems/storage/disk/storwize_v3700/index.html Current software level: Ver ...
认识js函数对象（Function Object）
认识函数对象(Function Object) 可以用function关键字定义一个函数,对于每个函数可以为其指定一个函数名,通过函数名来进行调用.这些都是代码给用户的印象,而在JavaScript ...
vs2013创建mvc项目体系找不到指定文件
在Visual Studio 2013中创建新MVC项目,(2013默认创建的就是mvc5的项目) 断定后提示,体系找不到指定的文件.(Exception HRESULT:08x0070002): 究 ...
html之head,base,meta,title
一个简单的HTML最基本的必须的元素用于定义文档的头部,是所有头部元素的容器.头部描述了文档的各种属性和信息,绝大多数头部的数据都不会直接显示给读者. 下面这些标签可用在head部分:base,li ...
【dubbo】dubbo-admin在jdk 1.8上部署出错问题
今天在linux上部署dubbo-admin-2.5.4,一直报错: ERROR context.ContextLoader - Context initialization failedorg.sp ...

scrapy 模拟登录后再抓取

scrapy 模拟登录后再抓取的更多相关文章

随机推荐

热门专题