scrapy 通过FormRequest模拟登录再继续

1.参考

https://doc.scrapy.org/en/latest/topics/spiders.html#scrapy.spiders.Spider.start_requests

自动提交 login.php 返回表单

https://doc.scrapy.org/en/latest/topics/request-response.html#using-formrequest-from-response-to-simulate-a-user-login

2.模拟登录雪球

# -*- coding: utf-8 -*-

import os

import scrapy

from scrapy.shell import inspect_response

# https://doc.scrapy.org/en/latest/topics/spiders.html start_requests() 章节

class LoginSpider(scrapy.Spider):

    name = 'login'

    allowed_domains = ['xueqiu.com']

    # start_urls = ['http://xueqiu.com/']  #The default implementation generates Request(url, dont_filter=True) for each url in start_urls.

    url_login = 'https://xueqiu.com/snowman/login',

    url_somebody = 'https://xueqiu.com/u/6146070786'

    data_dict = {

    'remember_me': 'true',

    # 'username': 'fake',  #返回200 {"error_description":"用户名或密码错误","error_uri":"/provider/oauth/token","error_code":"20082"}

    'username': os.getenv('xueqiu_username'),

    'password': os.getenv('xueqiu_password'),

    }

    def start_requests(self):

        return [scrapy.FormRequest(url = self.url_login,

                                    headers={'X-Requested-With': 'XMLHttpRequest'},  #否则404将导致退出,抓包页面显示登录成功

                                    meta={'proxy': 'http://127.0.0.1:8888'},  #否则fiddler导致返回缓慢

                                    formdata = self.data_dict,

                                    callback=self.logged_in)]

    def logged_in(self, response):

        # inspect_response(response, self)

        assert os.getenv('xueqiu_nickname') in response.text  #AssertionError 将导致退出

        return scrapy.Request(self.url_somebody, dont_filter=True, meta={'proxy': 'http://127.0.0.1:8888'})

    def parse(self, response):

        # inspect_response(response, self)

        self.log(os.getenv('xueqiu_nickname') in response.text)

scrapy 通过FormRequest模拟登录再继续的更多相关文章

通过scrapy，从模拟登录开始爬取知乎的问答数据
这篇文章将讲解如何爬取知乎上面的问答数据. 首先,我们需要知道,想要爬取知乎上面的数据,第一步肯定是登录,所以我们先介绍一下模拟登录: 先说一下我的思路: 1.首先我们需要控制登录的入口,重写star ...
scrapy基础知识之 scrapy 三种模拟登录策略：
注意:模拟登陆时,必须保证settings.py里的 COOKIES_ENABLED (Cookies中间件) 处于开启状态 COOKIES_ENABLED = True或 # COOKIES_ENA ...
python之scrapy的FormRequest模拟POST表单自动登陆
1.FormRequest表单实现自动登陆 # -*- coding: utf-8 -*- import scrapy import re class GithubSpider(scrapy.Spid ...
潭州课堂25班：Ph201805201 爬虫高级第五课 sclapy 框架日志和 settings 配置模拟登录(课堂笔记）
当要对一个页面进行多次请求时, 设 dont_filter = True 忽略去重在 scrapy 框架中模拟登录创建项目创建运行文件设请求头 # -*- coding: utf-8 ...
scrapy模拟登录微博
http://blog.csdn.net/pipisorry/article/details/47008981 这篇文章是介绍使用scrapy模拟登录微博,并爬取微博相关内容.关于登录流程为嘛如此设置 ...
Scrapy用Cookie实现模拟登录
模拟登录是爬取某些站点内容的一个关键,有些网站(特别是论坛类),不登录的话,一个数据也拿不到. 模拟登录有这样几个关键: 弄清楚登录的url一些网站打开出现登录的页面,地址栏大多数不是登录提交表单的u ...
利用scrapy模拟登录知乎
闲来无事,写一个模拟登录知乎的小demo. 分析网页发现:登录需要的手机号,密码,_xsrf参数,验证码实现思路: 1.获取验证码 2.获取_xsrf 参数 3.携带参数,请求登录验证码url : ...
python爬虫之scrapy模拟登录
背景: 初来乍到的pythoner,刚开始的时候觉得所有的网站无非就是分析HTML.json数据,但是忽略了很多的一个问题,有很多的网站为了反爬虫,除了需要高可用代理IP地址池外,还需要登录.例如知乎 ...
scrapy爬虫系列之六--模拟登录
功能点:如何发送携带cookie访问登录后的页面,如何发送post请求登录爬取网站:bilibili.github 完整代码:https://files.cnblogs.com/files/book ...

随机推荐

CCProxy使用说明
CCProxy:通过手机调试webservice工具第一步配置,点击设置弹出如下页面点击E 弹出如下页面配置端口,点击确定配置完成!! c#项目在路径为DCYS\.vs\config下找到文件a ...
JavaScript- BOM, DOM
BOM Browser Object Model 浏览器对象模型, 提供与浏览器窗口进行交互的方法它使 JavaScript 有能力与浏览器进行“对话”. BOM 最主要的对象就是 window 对 ...
[powershell]解决Win7SP1 powershell底色变成黑色
删除补丁KB3191566 重新安装: https://docs.microsoft.com/en-us/powershell/scripting/install/installing-windows ...
Java【第六篇】面向对象基础
类和对象面向对象的概念面向过程核心是过程二字,过程指的是解决问题的步骤,设计一条流水线,机械式的思维方式: 面向对象核心就是对象二字,对象就是特征与技能的结合体,利用“类”和“对象”来创建各种 ...
Linux端口被占用的解决（附Python专版）
先说一般情况的解决: lsof -i:8000 查出PID,然后 kill掉程序,接着就可以了软件重启之后绑定没有释放,lsof -i:8080也查不出来占用的情况再来个长连接版Python解决法 ...
MVCC 能解决幻读吗？
MySQL通过MVCC(解决读写并发问题)和间隙锁(解决写写并发问题)来解决幻读 MySQL InnoDB事务的隔离级别有四级,默认是“可重复读”(REPEATABLE READ). 未提交读(REA ...
MongoDB3.6 一键化自动部署方案
1.系统基础配置下面的命令默认都使用root用户进行操作,操作系统为Centos7,mongodb3.6.x以上版本 1.1 修改系统配置文件/etc/security/limits.conf和/e ...
[再寄小读者之数学篇](2014-06-22 最大值点处导数为零的应用 [中国科学技术大学2012 年高等数学B考研试题])
设 $f(x)$ 在 $[0,1]$ 上连续, 在 $(0,1)$ 内可导, 且 $f(0)=f(1)=0$, $f\sex{\cfrac{1}{2}}=1$. 证明:对于任意的实数 $\lm$, 一 ...
gulp学习笔记——最好的学习文档是官网
官网:http://www.gulpjs.com.cn/docs/api/ 当然还有一个博客写的也很好,当我看不下去官网的时候,这个帮助了我很多,明了易懂:http://www.ydcss.com/a ...
python Flask web框架
目录: --> Flask --> 配置文件 --> 配置文件解析 --> 配置文件导入 --> 路由 --> 路由参数 --> 常用路由匹配 --> ...

scrapy 通过FormRequest模拟登录再继续

1.参考

2.模拟登录雪球

scrapy 通过FormRequest模拟登录再继续的更多相关文章

随机推荐

热门专题