Scrapy学习-9-FromRequest

用FromRequest模拟登陆知乎网站

实例

　　默认登陆成功以后的请求都会带上cookie

# -*- coding: utf-8 -*-

import re

import json

import datetime

try:

    import urlparse as parse

except:

    from urllib import parse

import scrapy

class ZhihuSpider(scrapy.Spider):

    name = "zhihu"

    allowed_domains = ["www.zhihu.com"]

    start_urls = ['https://www.zhihu.com/']

    headers = {

        "HOST": "www.zhihu.com",

        "Referer": "https://www.zhizhu.com",

        'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:51.0) Gecko/20100101 Firefox/51.0"

    }

    def parse(self, response):

        pass

    def start_requests(self):

        return [scrapy.Request('https://www.zhihu.com/#signin', headers=self.headers, callback=self.login)]

    def login(self, response):

        response_text = response.text

        match_obj = re.match('.*name="_xsrf" value="(.*?)"', response_text, re.DOTALL)

        xsrf = ''

        if match_obj:

            xsrf = (match_obj.group(1))

        if xsrf:

            post_url = "https://www.zhihu.com/login/phone_num"

            post_data = {

                "_xsrf": xsrf,

                "phone_num": "",

                "password": "admin123"

            }

            return [scrapy.FormRequest(

                url = post_url,

                formdata = post_data,

                headers=self.headers,

                callback=self.check_login

            )]

    def check_login(self, response):

        #验证服务器的返回数据判断是否成功

        text_json = json.loads(response.text)

        if "msg" in text_json and text_json["msg"] == "登录成功":

            for url in self.start_urls:

                yield scrapy.Request(url, dont_filter=True, headers=self.headers)

Scrapy学习-9-FromRequest的更多相关文章

Scrapy学习篇（十）之下载器中间件（Downloader Middleware）
下载器中间件是介于Scrapy的request/response处理的钩子框架,是用于全局修改Scrapy request和response的一个轻量.底层的系统. 激活Downloader Midd ...
Scrapy学习篇（七）之Item Pipeline
在之前的Scrapy学习篇(四)之数据的存储的章节中,我们其实已经使用了Item Pipeline,那一章节主要的目的是形成一个笼统的认识,知道scrapy能干些什么,但是,为了形成一个更加全面的体系 ...
Scrapy:学习笔记(2)——Scrapy项目
Scrapy:学习笔记(2)——Scrapy项目 1.创建项目创建一个Scrapy项目,并将其命名为“demo” scrapy startproject demo cd demo 稍等片刻后,Scr ...
Scrapy:学习笔记(1)——XPath
Scrapy:学习笔记(1)——XPath 1.快速开始 XPath是一种可以快速在HTML文档中选择并抽取元素.属性和文本的方法. 在Chrome,打开开发者工具,可以使用$x工具函数来使用XPat ...
scrapy学习（完全版）
scrapy1.6中文文档 scrapy1.6中文文档 scrapy中文文档 Scrapy框架下载页面解析页面并发深度安装 scrapy学习教程如果安装了anconda,可以在anacon ...
python爬虫之Scrapy学习
在爬虫的路上,学习scrapy是一个必不可少的环节.也许有好多朋友此时此刻也正在接触并学习scrapy,那么很好,我们一起学习.开始接触scrapy的朋友可能会有些疑惑,毕竟是一个框架,上来不知从何学 ...
转载一个不错的Scrapy学习博客笔记
背景: 最近在学习网络爬虫Scrapy,官网是 http://scrapy.org 官方描述:Scrapy is a fast high-level screen scraping and web c ...
Scrapy学习篇（十一）之设置随机User-Agent
大多数情况下,网站都会根据我们的请求头信息来区分你是不是一个爬虫程序,如果一旦识别出这是一个爬虫程序,很容易就会拒绝我们的请求,因此我们需要给我们的爬虫手动添加请求头信息,来模拟浏览器的行为,但是当我 ...
Scrapy学习篇（九）之文件与图片下载
Media Pipeline Scrapy为下载item中包含的文件(比如在爬取到产品时,同时也想保存对应的图片)提供了一个可重用的 item pipelines . 这些pipeline有些共同的方 ...
Scrapy学习笔记(5)-CrawlSpider+sqlalchemy实战
基础知识 class scrapy.spiders.CrawlSpider 这是抓取一般网页最常用的类,除了从Spider继承过来的属性外,其提供了一个新的属性rules,它提供了一种简单的机制,能够 ...

随机推荐

vue watch 监听
1.普通的watch data() { return { frontPoints: 0 } }, watch: { frontPoints(newValue, oldValue) { console. ...
CPP-基础：windows api 多线程---互斥量、信号量、临界值、事件区别
http://blog.csdn.net/wangsifu2009/article/details/6728155 四种进程或线程同步互斥的控制方法:1.临界区:通过对多线程的串行化来访问公共资源或一 ...
NYOJ-1057-寻找最大数（三）
http://acm.nyist.net/JudgeOnline/problem.php?pid=1057 寻找最大数(三) 时间限制:1000 ms | 内存限制:65535 KB 难度:2 描 ...
dubbo---------timeout与retires
相信很多人都见过这张图,这张图说明了提供者与消费者之间的关系,下面就介绍一下这个图是什么意思. 1.角色解释: Provider: 暴露服务的服务提供者. Consumer: 调用远程服务的服务消费者 ...
https原理解读
参考:架构师必读!以图文的方式解锁 HTTPS原理,10分钟还原HTTPS真像! 对于消息安全的定义是:即使消息被中间人拦截到,中间人也没办法解读出其中的消息. 对称加密要实现消息安全,首先想到的是 ...
Matplotlib基本图形之折线图
Matplotlib基本图形之折线图折线图特点折线图是用折线将各数据连起来组成的图形常用来观察数据随时间变化的趋势例如:股票价格,温度变化,等等示例代码: import os import tim ...
SQL server 数据库备份至服务器本地磁盘和其他服务器磁盘
前言因工作需要将数据库每日备份至服务器本地磁盘和其他服务器磁盘,对网上的例子进行改造,解决了SQL server数据库备份的问题. 一.将指定数据库备份到本地将数据库affair_stydy全备份 ...
向php数组添加元素的方法哪种更高效
$arr = array(); // 第一种 array_push($arr, 'test'); // 第二种 $arr[] = 'test'; 参考PHP官方文档:http://php.net/ma ...
【LeetCode】Remove Nth Node From End of List(删除链表的倒数第N个节点)
这道题是LeetCode里的第19道题. 题目要求: 给定一个链表,删除链表的倒数第 n 个节点,并且返回链表的头结点. 示例: 给定一个链表: 1->2->3->4->5, ...
[uiautomator篇] 基类
package com.softwinner.performance.benchmark; /** * UiAssistant public class * @author liuzhipeng ...

Scrapy学习-9-FromRequest

Scrapy学习-9-FromRequest的更多相关文章

随机推荐

热门专题