Scrapy模拟登录知乎

建立项目

scrapy startproject zhihu_login

scrapy genspider zhihu www.zhihu.com

编写spider

知乎的登录页url是http://www.zhihu.com/#signin, 为了方便重写sart_requests

# -*- coding: utf-8 -*-

import scrapy

class ZhihuSpider(scrapy.Spider):

    name = "zhihu"

    allowed_domains = ["www.zhihu.com"]

    def start_requests(self):

        # 返回值必须是一个序列

        return [scrapy.Request('http://www.zhihu.com/#signin')]

    def parse(self, response):

        print response

测试能不能正确返回, 返回结果是

[scrapy] DEBUG: Retrying <GET http://www.zhihu.com/robots.txt> (failed 1 times): 500 Internal Server Error

在settings中假如USER_AGENT再进行测试, 返回200, 说明是知乎验证浏览器的问题, 到此可以成功请求到

DEBUG: Crawled (200) <GET http://www.zhihu.com/robots.txt> (referer: None)

确定post都需要传入哪些参数, 使用开发者工具得到post值如下(没有出现验证码的情况)

_xsrf    (在html中可以找到)

email

password

remember_me

定义login函数, 用于post登录

以上找大了_xsrf的值

# -*- coding: utf-8 -*-

import scrapy

class ZhihuSpider(scrapy.Spider):

    name = "zhihu"

    allowed_domains = ["www.zhihu.com"]

    def start_requests(self):

        # 返回值必须是一个序列

        return [scrapy.Request('http://www.zhihu.com/#signin', callback=self.login)]

    def login(self, response):

        print '-------'     # 便于测试

        _xsrf = response.xpath(".//*[@id='sign-form-1']/input[2]/@value").extract()[0]

        print _xsrf

使用FormRequest登录

def login(self, response):

        print '-------'     # 便于测试

        _xsrf = response.xpath(".//*[@id='sign-form-1']/input[2]/@value").extract()[0]

        print _xsrf

        return [scrapy.FormRequest(

            url = 'http://www.zhihu.com/login/email',    # 这是post的真实地址

            formdata={

                '_xsrf': _xsrf,

                'email': 'xxxxxxxx',    # email

                'password': 'xxxxxxxx',    # password

                'remember_me': 'true',

            },

            headers=self.headers,

            callback=self.check_login,

        )]

检测是否登录成功, 知乎的response会返回一个json, 如果里面r为0的话说明成功登录

def check_login(self, response):

        if json.loads(response.body)['r'] == 0:

            yield scrapy.Request(

                                'http://www.zhihu.com',

                                headers=self.headers,

                                callback=self.page_content,

                                dont_filter=True,    # 因为是第二次请求, 设置为True, 默认是False, 否则报错

                                )

spider的完整代码

# -*- coding: utf-8 -*-

import scrapy

import json

class ZhihuSpider(scrapy.Spider):

    name = "zhihu"

    allowed_domains = ["www.zhihu.com"]

    headers = {

            'Host': 'www.zhihu.com',

            'Referer': 'http://www.zhihu.com',

            'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36',

        }

    def start_requests(self):

        # 返回值必须是一个序列

        return [scrapy.Request('http://www.zhihu.com/#signin', callback=self.login)]

    def login(self, response):

        print '-------'     # 便于测试

        _xsrf = response.xpath(".//*[@id='sign-form-1']/input[2]/@value").extract()[0]

        print _xsrf

        return [scrapy.FormRequest(

            url = 'http://www.zhihu.com/login/email',    # 这是post的真实地址

            formdata={

                '_xsrf': _xsrf,

                'email': 'xxxxxxxx',    # email

                'password': 'xxxxxxxx',    # password

                'remember_me': 'true',

            },

            headers=self.headers,

            callback=self.check_login,

        )]

    def check_login(self, response):

        if json.loads(response.body)['r'] == 0:

            yield scrapy.Request(

                                'http://www.zhihu.com',

                                headers=self.headers,

                                callback=self.page_content,

                                dont_filter=True,

                                )

    def page_content(self, response):

        with open('first_page.html', 'wb') as f:

            f.write(response.body)

        print 'done'

注: 也是刚学scrapy, 暂时不知道怎么处理验证码的情况, 还望大牛指教

Scrapy模拟登录知乎的更多相关文章

利用scrapy模拟登录知乎
闲来无事,写一个模拟登录知乎的小demo. 分析网页发现:登录需要的手机号,密码,_xsrf参数,验证码实现思路: 1.获取验证码 2.获取_xsrf 参数 3.携带参数,请求登录验证码url : ...
Python爬虫初学（三）—— 模拟登录知乎
模拟登录知乎这几天在研究模拟登录, 以知乎 - 与世界分享你的知识.经验和见解为例.实现过程遇到不少疑问,借鉴了知乎xchaoinfo的代码,万分感激! 知乎登录分为邮箱登录和手机登录两种方式,通过 ...
requests_模拟登录知乎
如何登录知乎? 首先要分析,进行知乎验证的时候,知乎服务器需要我们提交什么数据,提交的地址.先进行几次登录尝试,通过浏览器中network中查看数据流得知,模拟登录知乎需要提供5个数据,分别是_xsr ...
scrapy模拟登录微博
http://blog.csdn.net/pipisorry/article/details/47008981 这篇文章是介绍使用scrapy模拟登录微博,并爬取微博相关内容.关于登录流程为嘛如此设置 ...
python爬虫scrapy之登录知乎
下面我们看看用scrapy模拟登录的基本写法: 注意:我们经常调试代码的时候基本都用chrome浏览器,但是我就因为用了谷歌浏览器(它总是登录的时候不提示我用验证码,误导我以为登录时不需要验证码,其实 ...
【爬虫】python requests模拟登录知乎
需求:模拟登录知乎,因为知乎首页需要登录才可以查看,所以想爬知乎上的内容首先需要登录,那么问题来了,怎么用python进行模拟登录以及会遇到哪些问题? 前期准备: 环境:ubuntu,python2. ...
Python爬虫入门（基础实战）—— 模拟登录知乎
模拟登录知乎这几天在研究模拟登录, 以知乎 - 与世界分享你的知识.经验和见解为例.实现过程遇到不少疑问,借鉴了知乎xchaoinfo的代码,万分感激! 知乎登录分为邮箱登录和手机登录两种方式,通过 ...
2020.10.20 利用POST请求模拟登录知乎
前两天学习了Python的requests模块的相关内容,对于用GET和PSOT请求访问网页以抓取需要的内容有了初步的了解,想要再从一些复杂的网站积累些经验.最开始我采用最简单的get(url)方法想 ...
Java爬虫——模拟登录知乎
登录界面,首先随意输入一个账号,登录查看发送表单的请求可以发现请求是Post : https://www.zhihu.com/login/phone_num 发送的表单是 _xsrf: passwo ...

随机推荐

深入理解PHP对象注入
0x00 背景 php对象注入是一个非常常见的漏洞,这个类型的漏洞虽然有些难以利用,但仍旧非常危险,为了理解这个漏洞,请读者具备基础的php知识. 0x01 漏洞案例如果你觉得这是个渣渣洞,那么请看 ...
CSS3学习系列之盒样式（一）
盒的基本类型在css中,使用display属性来定义盒的类型,总体上来说,css中的盒分为block类型与inline类型 inline-block类型 inline-block类型是在css2.1 ...
react-native —— 在Mac上配置React Native Android开发环境排坑总结
配置React Native Android开发环境总结 1.卸载Android Studio,在终端(terminal)执行以下命令: rm -Rf /Applications/Android\ S ...
Java 变量类型
局部变量成员变量类变量 Java局部变量局部变量声明在方法.构造方法或者语句块中: 局部变量在方法.构造方法.或者语句块被执行的时候创建,当它们执行完成后,变量将会被销毁: 访问修饰符不能用于局 ...
java——国际化详解
深入理解Java国际化假设我们正在开发一个支持多国语言的Web应用程序,要求系统能够根据客户端的系统的语言类型返回对应的界面:英文的操作系统返回英文界面,而中文的操作系统则返回中文界面--这便是典型 ...
UML 解析
UML 解析泛化表示类与类之间的继承关系.接口与接口之间的继承关系: 实现表示类对接口的实现依赖当类与类之间有使用关系时就属于依赖关系,不同于关联关系,依赖不具有"拥有关系&quo ...
AT&T汇编helloworld
摘自:http://blog.163.com/guixl_001/blog/static/417641042012112102642703/ 代码: #hello.s .data # 数据段声明 ms ...
学会git玩转github,结尾有惊喜！有惊喜！有惊喜！
一.什么是Github Github是全球最大的社交编程及代码托管网站(https://github.com/). Github可以托管各种git库,并提供一个web界面(用户名.github.io/ ...
CentOS7 下使用YUM安装 MySQL5.7
于2015年10月19日(美国时间),Oracle公司发布了开源数据库MySQL的最新版本5.7.到现在已有将近3年之久,经过这几年的改进,MySQL5.7性能最高可达前一个版本的3倍,现在官网的最新 ...
Spring MVC 表单验证
1. 基于 JSR-303(一个数据验证的规范): import javax.validation.constraints.Min; import javax.validation.constrain ...

Scrapy模拟登录知乎

建立项目

编写spider

spider的完整代码

Scrapy模拟登录知乎的更多相关文章

随机推荐

热门专题