scrapy基础知识之 scrapy 三种模拟登录策略：

注意：模拟登陆时，必须保证settings.py里的 `COOKIES_ENABLED` (Cookies中间件) 处于开启状态

COOKIES_ENABLED = True或 # COOKIES_ENABLED = False

策略一：直接POST数据（比如需要登陆的账户信息)

# -*- coding: utf-8 -*-

import scrapy

class Renren1Spider(scrapy.Spider):

    name = "renren1"

    allowed_domains = ["renren.com"]

    def start_requests(self):

        url = 'http://www.renren.com/PLogin.do'

        # FormRequest 是Scrapy发送POST请求的方法

        yield scrapy.FormRequest(

                url = url,

                formdata = {"email" : "xx", "password" : "xx"},

                callback = self.parse_page)

    def parse_page(self, response):

        with open("mao2.html", "wb") as filename:

            filename.write(response.body)

策略二：标准的模拟登陆步骤

1.首先发送登录页面的get请求，获取到页面里的登录必须的参数（比如说zhihu登陆界面的 _xsrf）

2.然后和账户密码一起post到服务器，登录成功

# -*- coding: utf-8 -*-

import scrapy

class Renren2Spider(scrapy.Spider):

    name = "renren2"

    allowed_domains = ["renren.com"]

    start_urls = (

        "http://www.renren.com/PLogin.do",

    )

 # 处理start_urls里的登录url的响应内容，提取登陆需要的参数（如果需要的话)

    def parse(self, response):

        # 提取登陆需要的参数

        #_xsrf = response.xpath("//_xsrf").extract()[0]

        # 发送请求参数，并调用指定回调函数处理

        yield scrapy.FormRequest.from_response(

                response,

                formdata = {"email" : "xxx", "password" : "xxxxxxx"},#, "_xsrf" = _xsrf},

                callback = self.parse_page

            )

 # 获取登录成功状态，访问需要登录后才能访问的页面

    def parse_page(self, response):

        url = "http://www.renren.com/422167102/profile"

        yield scrapy.Request(url, callback = self.parse_newpage)

    # 处理响应内容

    def parse_newpage(self, response):

        with open("xiao.html", "wb") as filename:

            filename.write(response.body)

策略三：直接使用保存登陆状态的Cookie模拟登陆

如果实在没办法了，可以用这种方法模拟登录，虽然麻烦一点，但是成功率100%

# -*- coding: utf-8 -*-

import scrapy

class RenrenSpider(scrapy.Spider):

    name = "renren"

    allowed_domains = ["renren.com"]

    start_urls = (

        'http://www.renren.com/111111',

        'http://www.renren.com/222222',

        'http://www.renren.com/333333',

    )

    cookies = {

    "anonymid" : "ixrna3fysufnwv",

    "_r01_" : "1",

    "ap" : "327550029",

    "JSESSIONID" : "abciwg61A_RvtaRS3GjOv",

    "depovince" : "GW",

    "springskin" : "set",

    "jebe_key" : "f6fb270b-d06d-42e6-8b53-e67c3156aa7e%7Cc13c37f53bca9e1e7132d4b58ce00fa3%7C1484060607478%7C1%7C1486198628950",

    "t" : "691808127750a83d33704a565d8340ae9",

    "societyguester" : "691808127750a83d33704a565d8340ae9",

    "id" : "327550029",

    "xnsid" : "f42b25cf",

    "loginfrom" : "syshome"

    }

    # 可以重写Spider类的start_requests方法，附带Cookie值，发送POST请求

    def start_requests(self):

        for url in self.start_urls:

            yield scrapy.FormRequest(url, cookies = self.cookies, callback = self.parse_page)

    # 处理响应内容

    def parse_page(self, response):

        with open("deng.html", "wb") as filename:

            filename.write(response.body)

scrapy基础知识之 scrapy 三种模拟登录策略：的更多相关文章

scrapy基础知识之 Scrapy 和 scrapy-redis的区别：
Scrapy 和 scrapy-redis的区别 Scrapy 是一个通用的爬虫框架,但是不支持分布式,Scrapy-redis是为了更方便地实现Scrapy分布式爬取,而提供了一些以redis为基础 ...
JAVA基础知识之多线程——三种实现多线程的方法及区别
所有JAVA线程都必须是Thread或其子类的实例. 继承Thread类创建线程步骤如下, 定义Thead子类并实现run()方法,run()是线程执行体创建此子类实例对象,即创建了线程对象调用 ...
scrapy基础知识之scrapy自动下载图片pipelines
需要在settings.py配置: ITEM_PIPELINES = { 'scrapy.pipelines.images.ImagesPipeline': 1, }import os IMAGES_ ...
0.Python 爬虫之Scrapy入门实践指南（Scrapy基础知识）
目录 0.0.Scrapy基础 0.1.Scrapy 框架图 0.2.Scrapy主要包括了以下组件: 0.3.Scrapy简单示例如下: 0.4.Scrapy运行流程如下: 0.5.还有什么? 0. ...
[SQL] SQL 基础知识梳理（三） - 聚合和排序
SQL 基础知识梳理(三) - 聚合和排序 [博主]反骨仔 [原文]http://www.cnblogs.com/liqingwen/p/5926689.html 序这是<SQL 基础知识梳理 ...
Go基础知识梳理（三）
Go基础知识梳理(三) 结构 type Person struct { name string sex int } func main() { //推荐写法 person := Person{ nam ...
ASP.NET MVC：多语言的三种技术处理策略
ASP.NET MVC:多语言的三种技术处理策略背景本文介绍了多语言的三种技术处理策略,每种策略对应一种场景,这三种场景是: 多语言资源信息只被.NET使用. 多语言资源信息只被Javascrip ...
scrapy基础知识之 CrawlSpiders爬取lagou招聘保存在mysql（分布式）：
items.py import scrapy class LagouItem(scrapy.Item): # define the fields for your item here like: # ...
Java基础知识学习（三）
面向对象部分首先要了解面向对象的思想,与C#一致,都是面向对象的语言访问修饰符 public 共有的,对所有类可见. protected 受保护的,对同一包内的类和所有子类可见. private ...

随机推荐

Spring Boot 专题
Spring is a very popular Java-based framework for building web and enterprise applications. Unlike m ...
EF 导航属性的使用
using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Threa ...
PHP XDebug Sublime Text 单步调试
前置环境:已经安装好LNMP 1. 安装xdebug 可以通过pear包管理来安装 sudo apt-get install php-pear sudo pecl install xdebug 这里我 ...
小米手机销量暴跌36% 雷军做错了什么？（人的需求是复杂的，而不是仅仅是一个性价比；要做体验价格比，而不是配置价格比）good
小米手机销量暴跌36% 雷军做错了什么? 日前,小米科技创始人雷军在美国马萨诸塞州剑桥市出席了第20届哈佛中国论坛开幕式并发表了演讲.在演讲中,雷军说但小米却只用两年半的时间一跃成为了中国第一,世界第 ...
ML:吴恩达机器学习课程笔记(Week3~4)
Logistic Regression Regularization Neural Networks: Representation
Windows+Idea安装Hadoop开发环境
前言:这种问题,本来不应该写篇博客的,但是实在是折磨我太久了,现在终于修好了,必须记一下,否则对不起自己的时间,对自己的博客道歉 *** 简介环境:Windows 10+JDK1.8+Intelli ...
qtchooser - a wrapper used to select between Qt development binary（2种方法）
---------------------------------------------------------------------------------------------------- ...
Qt之Model-View架构（雨田哥的博客）
Qt之Model-View架构 Qt之Model-View架构简述效果图代码结尾简述为什么会用这个模式,这里我就不解释了,可以看下豆子哥的见解 .这里我只是如何去使用的.供大家共同探讨学 ...
android 写文件到sd卡问题小记
android 写文件到sd卡问题小记事情是这样子的.... 这天我开始编写项目调试工具,高大上不?-----其实就是记录实时网络请求和崩溃日志相关等的小工具(此处一个会心的微笑). 然后我是这样写 ...
Spring之Bean的装配
一.Bean的装配Bean的装配,即Bean对象的创建.容器根据代码要求创建Bean对象后再传递给代码的过程,称为Bean的装配.1.默认装配方式代码通过getBean()方式从容器获取指定的Bean ...

scrapy基础知识之 scrapy 三种模拟登录策略：

注意：模拟登陆时，必须保证settings.py里的 COOKIES_ENABLED (Cookies中间件) 处于开启状态

策略一：直接POST数据（比如需要登陆的账户信息)

策略二：标准的模拟登陆步骤

策略三：直接使用保存登陆状态的Cookie模拟登陆

scrapy基础知识之 scrapy 三种模拟登录策略：的更多相关文章

随机推荐

热门专题

注意：模拟登陆时，必须保证settings.py里的 `COOKIES_ENABLED` (Cookies中间件) 处于开启状态