Scrapy模拟登录信息
携带cookie模拟登录
- 需要在爬虫里面自定义一个
start_requests()的函数- 里面的内容:
def start_requests(self):
cookies = '真实有效的cookie'
yield scrapy.Request(
self.start_urls[0],
callback = self.paese,
cookies = cookies
)
下载中间件
- 只需在文件最下面定义自己的中间件即可
下载中间键里可以做很多内容:携带登录信息,设置user-agent,添加代理等
- 使用前要在settings里面设置一下
- 数字代表权重
projectname.middlewares.DownloadMiddlewareName
DOWNLOADER_MIDDLEWARES = {
'superspider.middlewares.SuperspiderDownloaderMiddleware': 543,
}
- 设置user-agent
process_request
定义一个名为RandomUserAgentMiddleware的下载中间件
from fake_useragent import UserAgent
class RandomUserAgentMiddleware:
def process_request(self, request, spider):
##### 还可以为不同爬虫指定不同的中间件
if spider.name == 'spider1':
ua = UserAgent()
request.headers["User-Agent"] = ua.random
在settings里导入
DOWNLOADER_MIDDLEWARES = {
'superspider.middlewares.RandomUserAgentMiddleware': 543
}
- 审核user-agent
process_response- 需要返回response
- 在settings里导入
class UserAgentCheck:
def process_response(self, request, response, spider):
print(request.headers['User-Agent'])
return response
DOWNLOADER_MIDDLEWARES = {
'superspider.middlewares.RandomUserAgentMiddleware': 543,
'superspider.middlewares.UserAgentCheck': 544
}
- 设置代理
- 需要在request的meta信息中添加proxy字段
- 添加代理的形式:协议+IP+端口
- settings里导入
class ProxyMiddleware:
def process_request(self, request, spider):
if spider.name == 'spider0':
request.meta["proxy"] = "http://ip:port"
模拟登录GitHub
自己构造表单模拟登录 使用 FormRequest
- 明确要yield的内容,并交给下一个函数处理
# -*- coding: utf-8 -*-
import scrapy
class Spider0Spider(scrapy.Spider):
name = 'spider0'
allowed_domains = ['github.com']
start_urls = ['https://github.com/session']
def parse(self, response):
yield scrapy.FormRequest(
"https://github.com/session",
formdata=,
callback=self.after_login
)
def after_login(self, response):
pass
- formdate的构造

# -*- coding: utf-8 -*-
import scrapy
class Spider0Spider(scrapy.Spider):
name = 'spider0'
allowed_domains = ['github.com']
start_urls = ['https://github.com/session']
def parse(self, response):
form = {
'utf8': "✓",
'authenticity_token': response.xpath(
"//*[@id='unsupported-browser']/div/div/div[2]/form/input[2]/text()").extract_first(),
'ga_id': response.xpath('//*[@id="login"]/form/input[3]/@value').extract_first(),
'login': "",
'password': "",
'webauthn-support': 'supported',
'webauthn-iuvpaa-support': 'supported',
response.xpath('//*[@id="login"]/form/div[3]/input[5]/@name').extract_first(): "",
'timestamp': response.xpath("//*[@id='login']/form/div[3]/input[6]/@value").extract_first(),
"timestamp_secret": response.xpath("//*[@id='login'']/form/div[3]/input[7]/@value").extract_first(),
"commit": "Sign in"
}
print(form)
yield scrapy.FormRequest(
"https://github.com/session",
formdata=form,
callback=self.after_login
)
def after_login(self, response):
pass
自动寻找form表单中的信息
# -*- coding: utf-8 -*-
import scrapy
class Spider0Spider(scrapy.Spider):
name = 'spider0'
allowed_domains = ['github.com']
start_urls = ['https://github.com/session']
def parse(self, response):
yield scrapy.FormRequest.from_response(
response,
formdata={"login": "", "password":""},
callback=self.after_login
)
def after_login(self, response):
print(response.text)
Scrapy模拟登录信息的更多相关文章
- scrapy模拟登录微博
http://blog.csdn.net/pipisorry/article/details/47008981 这篇文章是介绍使用scrapy模拟登录微博,并爬取微博相关内容.关于登录流程为嘛如此设置 ...
- 利用scrapy模拟登录知乎
闲来无事,写一个模拟登录知乎的小demo. 分析网页发现:登录需要的手机号,密码,_xsrf参数,验证码 实现思路: 1.获取验证码 2.获取_xsrf 参数 3.携带参数,请求登录 验证码url : ...
- scrapy模拟登录
对于scrapy来说,也是有两个方法模拟登陆: 直接携带cookie 找到发送post请求的url地址,带上信息,发送请求 scrapy模拟登陆之携带cookie 应用场景: cookie过期时间很长 ...
- python爬虫之scrapy模拟登录
背景: 初来乍到的pythoner,刚开始的时候觉得所有的网站无非就是分析HTML.json数据,但是忽略了很多的一个问题,有很多的网站为了反爬虫,除了需要高可用代理IP地址池外,还需要登录.例如知乎 ...
- Scrapy模拟登录赶集网
1.打开赶集网登录界面,先模拟登录并抓包,获得post请求的request参数 2. 我们只需构造出上面的参数传入formdata即可 参数分析: setcookie:为自动登录所传的值,不勾选时默认 ...
- scrapy 基础组件专题(十二):scrapy 模拟登录
1. scrapy有三种方法模拟登陆 1.1直接携带cookies 1.2找url地址,发送post请求存储cookie 1.3找到对应的form表单,自动解析input标签,自动解析post请求的u ...
- Scrapy模拟登录知乎
建立项目 scrapy startproject zhihu_login scrapy genspider zhihu www.zhihu.com 编写spider 知乎的登录页url是http:// ...
- Scrapy模拟登录GitHub
d: 进入D盘 scrapy startproject GitHub 创建项目 scrapy genspider github github.com 创建爬虫 编辑github.py: # -*- c ...
- scrapy 模拟登录后再抓取
深度好文: from scrapy.contrib.spiders.init import InitSpider from scrapy.http import Request, FormReques ...
随机推荐
- Java构造器(构造方法/constructor)
我们先来看一下什么是构造器: 1.构造器也叫构造方法或构造函数,分为有参构造器和无参构造器: 2.构造器也是一种方法,只不过是一种特殊的方法,它会在对象创建的时候被调用: 3.构造器最大的作用就是在创 ...
- MATLAB GUI设计(1)
一.新建GUI 1.命令行窗口输入 guide会出来如下界面,可以新建空白GUI,也可以打开已有GUI 2.通过工具栏新建 二.数据传递例子 1.添加输入框按钮,设置尺寸大小,内容,格式,标签 2.复 ...
- MATLAB 大数相乘溢出显示
解一道面试题——华为社招现场面试1:请使用代码计算1234567891011121314151617181920*2019181716151413121110987654321 . 乘积是逐位相乘,也 ...
- D - 渣渣仰慕的爱丽丝 HDU - 6249(背包问题变形)
爱丽丝喜欢集邮.她现在在邮局买一些新邮票. 世界上有各种各样的邮票;它们的编号是1到N.但是,邮票不是单独出售的;必须成套购买.有M套不同的邮票可供选择; 第i套包括编号从li到ri的邮票 .同一枚邮 ...
- webpack篇
2017年09月28日 14:08:18 阅读数:4770 https://juejin.im/post/59cb6307f265da064e1f65b9 还是以前一样,有些概念面试可能会考,我都用* ...
- Scratch 第3课神奇画笔
素材及视频下载 链接:https://pan.baidu.com/s/1qX0T2B_zczcLaCCpiRrsnA提取码:xfp8
- VMwareWorkstation如何设置共享文件夹
首先需要安装VMware Tools 这个嘛,应该是需要安装的,之前没有安装好像就没有设置成功. 没有安装的参考如何安装VMware Tools 然后在虚拟机设置里面设置共享路径 右键虚拟机名称,打开 ...
- 关于TD信息树自己的体验和建议
自己选择的是17级学长13组的TD消息树,通过对这个软件的使用,感觉整体上还是很好的,他的主要功能就相当于把微信的朋友圈还有qq的好友动态等功能集合到了一起.这个软件整体就相当于一个空间,可以加好友互 ...
- spring boot 学习(一)——在idea建立第一个spring boot项目
1.打开idea->点击file->点击new->点击project->点击Spring Initializr->点击default 2.这是springboot的启动类 ...
- LARAVEL快速入门
一.查询 $map = []; $map[] = ['u.store_id','=',0]; $map[] = ['u.reg_time','<',time()]; $map[] = ['u.u ...