python用scrapy模拟用户登录
scrapy模拟登录
关注公众号“轻松学编程”了解更多。
注意:模拟登陆时,必须保证settings.py里的COOKIES_ENABLED(Cookies中间件) 处于开启状态
COOKIES_ENABLED = True或# COOKIES_ENABLED = False
策略一:直接POST数据(比如需要登陆的账户信息)
只要是需要提供post数据的,就可以用这种方法。下面示例里post的数据是账户密码:
- 可以使用yield scrapy.FormRequest(url, formdata, callback)方法发送POST请求。
- 如果希望程序执行一开始就发送POST请求,可以重写Spider类的start_requests(self)方法,并且不再调用start_urls里的url。
import scrapy
class MyrenrenSpider(scrapy.Spider):
name = 'myrenren'
allowed_domains = ['renren.com']
# start_urls = ['http://renren.com/']
#重写start_requests()方法,爬虫首先调用这个方法,
# 程序不再调用start_urls里的url
def start_requests(self):
loginUrl = "http://www.renren.com/PLogin.do"
# 表单数据提交
# formdata 表单数据
# callback 登录后回调
yield scrapy.FormRequest(url=loginUrl,
formdata={"email": "你的账号",
"password": "你的密码"},
callback=self.parse
)
def parse(self, response):
print('*******',response.url)
print(response.body.decode('utf-8'))
策略二:标准的模拟登陆步骤
正统模拟登录方法:
- 首先发送登录页面的get请求,获取到页面里的登录必须的参数(比如说zhihu登陆界面的 _xsrf)
- 然后和账户密码一起post到服务器,登录成功
- 使用FormRequest.from_response()方法[模拟用户登录]
模拟浏览器登录
start_requests()方法,可以返回一个请求给爬虫的起始网站,这个返回的请求相当于start_urls,start_requests()返回的请求会替代start_urls里的请求
Request()get请求,可以设置,url、cookie、回调函数
FormRequest.from_response()表单post提交,第一个必须参数,上一次响应cookie的response对象,其他参数,cookie、url、表单内容等
yield Request()可以将一个新的请求返回给爬虫执行
在发送请求时cookie的操作, meta={‘cookiejar’:1}表示开启cookie记录,首次请求时写在Request()里 meta={‘cookiejar’:response.meta[‘cookiejar’]}表示使用上一次response的cookie,写在FormRequest.from_response()里post授权 meta={‘cookiejar’:True}表示使用授权后的cookie访问需要登录查看的页面
正统模拟登录方法
范例:爬取人人网个人主页:
# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import HtmlResponse
from scrapy.spiders import Rule, CrawlSpider
from scrapy.linkextractors import LinkExtractor
class MyrenrenSpider(CrawlSpider):
name = 'myrenren2'
allowed_domains = ['renren.com']
#个人主页
start_urls = ['http://www.renren.com/353111356/profile']
#爬取多个人的主页
rules = [Rule(LinkExtractor(allow=("(\d+)/profile")),callback="get_parse",follow=True)]
# 爬虫开启时调用的第一个方法,只调用一次
def start_requests(self):
indexURL = "http://www.renren.com"
# 表单数据提交
# formdata 表单数据
# callback 登录后回调
yield scrapy.FormRequest(url=indexURL,
# 开启cookie, 用来保存cookie,在setting把COOKIES_ENABLED设为True
meta={"cookiejar":1},
callback=self.login
)
def login(self,response):
print('访问主页返回的的url',response.url)
# 从响应里面获取认证牌
loginUrl = "http://www.renren.com/PLogin.do"
yield scrapy.FormRequest.from_response(response,#响应
url=loginUrl,# 登录url
#表单数据
formdata={"email": "你的值",
"password": "你的密码",},
meta={"cookiejar": response.meta['cookiejar']}, # 传递cookie
callback=self.after_login
)
#登录后
def after_login(self,response):
print('登录后返回的url',response.url)
for url in self.start_urls:
yield scrapy.Request(url,meta={"cookiejar": response.meta['cookiejar']})
# 重写CrawlSpider中_requests_to_follow()方法
def _requests_to_follow(self, response):
"""重写加入cookiejar的更新"""
print('跟踪的url',response.url)
if not isinstance(response, HtmlResponse):
return
seen = set()
for n, rule in enumerate(self._rules):
links = [lnk for lnk in rule.link_extractor.extract_links(response)
if lnk not in seen]
if links and rule.process_links:
links = rule.process_links(links)
for link in links:
seen.add(link)
r = self._build_request(n, link)
# 更新cookie
r.meta.update(rule=n, link_text=link.text, cookiejar=response.meta['cookiejar'])
yield rule.process_request(r)
#处理爬取得到的网页函数
def get_parse(self, response):
print('追踪后返回的url',response.url)
print(response.body.decode('utf-8'))
策略三:直接使用保存登陆状态的Cookie模拟登陆
如果实在没办法了,可以用这种方法模拟登录,虽然麻烦一点,但是成功率100%
先登录网页,获取cookie,然后转化为字典,保存在settings.py中的COOKIES池中,使用中间件用cookie登录。
1、cookie,转化为字典
def cookieChangeToDict(cookie):
'''
将cookie字符串转换成字典
:param cookie: 登录后的cookie
:return:字典
'''
cookieList = cookie.split(';')
cookieDict = {}
for cookie in cookieList:
name = cookie.split('=', maxsplit=1)[0].strip()
value = cookie.split('=', maxsplit=1)[1].strip()
cookieDict[name] = value
return cookieDict
if __name__ == '__main__':
cookie = """
你的cookie
"""
print(cookieChangeToDict(cookie))
#把打印出的cookie放到settings.py中自定义的COOKIES=[]中
2、使用登录后的cookie发送请求
方式一:
# 可以重写Spider类的start_requests方法,附带Cookie值,发送POST请求
def start_requests(self):
url= ''
return [scrapy.FormRequest(url, cookies = self.cookies, callback = self.parse)]
方式2:使用中间件:
from scrapy import signals
from scrapy.downloadermiddlewares.cookies import CookiesMiddleware
import random
from renren.settings import COOKIES
class RandomCookieMiddleware(CookiesMiddleware):
'''
随机cookie池
'''
def process_request(self, request, spider):
cookie = random.choice(COOKIES)
request.cookies = cookie
在settings.py中设置:
ROBOTSTXT_OBEY = False
COOKIES_ENABLED = True
#启用中间件
DOWNLOADER_MIDDLEWARES = {
'renren.middlewares.RandomCookieMiddleware': 543,
}
# COOKIES池
COOKIES = [
]
策略四:使用selenium插件
1、模拟pc端登录CSDN
爬虫:
class CSDNSpider(scrapy.Spider):
name = 'myCSDN'
allowed_domains = ['csdn.net']
start_urls = ['http://passport.csdn.net/account/login',
'http://my.csdn.net/my/account/changepwd']
def __init__(self):
super().__init__()
driver = None # 实例selenium
cookies = None # 用来保存cookie
def parse(self, response):
print(response.url)
print(response.body.decode('utf-8'))
中间件:
class LoginMiddleware(object):
# type()元类,object 基类
def process_request(self, request, spider):
'''
:param request: 请求
:param spider: 爬虫名
:return:
'''
# 判断是哪个爬虫
if spider.name == 'myCSDN':
# 判断是否是登陆
if request.url.find('login') != -1:
spider.driver = webdriver.Chrome()
spider.driver.get(request.url)
spider.driver.find_element_by_xpath('/html/body/div[3]/div/div/div[2]/div/h3/a').click()
time.sleep(2)
#模拟输入账号密码
username = spider.driver.find_element_by_xpath('//*[@id="username"]')
password = spider.driver.find_element_by_xpath('//*[@id="password"]')
username.send_keys('18588403840')
password.send_keys('Changeme_123')
#模拟点击“登录”按钮
spider.driver.find_element_by_xpath('//*[@id="fm1"]/input[8]').click()
time.sleep(3)
spider.cookies = spider.driver.get_cookies()
return HtmlResponse(url=spider.driver.current_url, # 登录后的url
body=spider.driver.page_source, # html源码
encoding='utf-8')
# 不是登录
else:
# 使用session保存cookie
session = request.session()
for cookie in spider.cookies:
session.cookies.set(cookie['name'], cookie['value'])
# 清空头
session.headers.clear()
response = session.get(request.url)
return HtmlResponse(url=response.url,
body=response.text,
encoding='utf-8')
在settings.py中设置:
ROBOTSTXT_OBEY = False
COOKIES_ENABLED = True
#启用中间件
DOWNLOADER_MIDDLEWARES = {
'renren.middlewares.LoginMiddleware': 543,
}
2、模拟移动端登录淘宝
爬虫:
import scrapy
class TaobaoSpider(scrapy.Spider):
name = 'mytaobao'
allowed_domains = ['taobao.com']
start_urls = ['https://login.m.taobao.com/login.htm',
"http://h5.m.taobao.com/mlapp/olist.html?spm=a2141.7756461.2.6"]
def __init__(self):
super().__init__() # 传递给父类
self.browser = None
self.cookies = None
def parse(self, response):
# 打印链接,打印网页源代码
print(response.url)
print(response.body.decode("utf-8", "ignore"))
中间件:
class LoginMiddleware(object):
def process_request(self, request, spider):
if spider.name == "mytaobao": # 指定仅仅处理这个名称的爬虫
if request.url.find("login") != -1: # 判断是否登陆页面
mobilesetting = {"deviceName": "iPhone 6 Plus"}
options = webdriver.ChromeOptions() # 浏览器选项
options.add_experimental_option("mobileEmulation", mobilesetting) # 模拟手机
spider.browser = webdriver.Chrome(chrome_options=options) # 创建一个浏览器
spider.browser.set_window_size(400, 800) # 配置手机大小
spider.browser.get(request.url) # 爬虫访问链接
time.sleep(3)
print("login访问", request.url)
username = spider.browser.find_element_by_id("username")
password = spider.browser.find_element_by_id("password")
time.sleep(1)
username.send_keys("你的账号") # 账户
time.sleep(2)
password.send_keys("你的密码") # 密码
time.sleep(2)
click = spider.browser.find_element_by_id("btn-submit")
click.click()
time.sleep(18)
spider.cookies = spider.browser.get_cookies() # 抓取全部的cookie
# spider.browser.close()
return HtmlResponse(url=spider.browser.current_url, # 当前连接
body=spider.browser.page_source, # 源代码
encoding="utf-8") # 返回页面信息
else:
# spider.browser.get(request.url)
# request.访问,调用selenium cookie
# request模拟访问。统一selenium,慢,request,不能执行js
print("request 访问")
req = requests.session() # 会话
for cookie in spider.cookies:
req.cookies.set(cookie['name'], cookie["value"])
req.headers.clear() # 清空头
newpage = req.get(request.url)
print("---------------------")
print(request.url)
print("---------------------")
print(newpage.text)
print("---------------------")
# 页面
time.sleep(3)
return HtmlResponse(url=request.url, # 当前连接
body=newpage.text, # 源代码
encoding="utf-8") # 返回页面信息
后记
【后记】为了让大家能够轻松学编程,我创建了一个公众号【轻松学编程】,里面有让你快速学会编程的文章,当然也有一些干货提高你的编程水平,也有一些编程项目适合做一些课程设计等课题。
也可加我微信【1257309054】,拉你进群,大家一起交流学习。
如果文章对您有帮助,请我喝杯咖啡吧!
公众号


关注我,我们一起成长~~
python用scrapy模拟用户登录的更多相关文章
- python 初学习 模拟用户登录
#!/usr/bin/env python#coding:utf-8''' 2017年8月19日 模拟用户登录,userfile 文件保存字典 用户名,和密码 sorryname 文件保存字典 登录过 ...
- scrapy模拟用户登录
scrapy框架编写模拟用户登录的三种方式: 方式一:携带cookie登录,携带cookie一般请求的url为登录后的页面,获取cookie信息应在登录后的页面获取,cookie参数应转成字典形式 # ...
- python小练习--模拟用户登录,(3次重试机会,登录成功展示登录账号密码)
知识点使用:1.格式化输出的两种方法---% .formate 2.while循环的使用,及跳出循环的两种方法---break(跳出循环体).continue(结束本次循环,继续下次循环) 3.if条 ...
- 模拟用户登录含注册——python第8天
print('欢迎登录尚雅梦想python学习系统'.center(30)) print('******' * 8) flag = True while flag: order = input(''' ...
- 用python连接数据库模拟用户登录
使用pycharm下载pymysql库,在终端输入命令: pip install mysql 使用pycharm写登入操作前需要在数据库内添加一些数据,比如用户名和密码 create database ...
- 第三百三十三节,web爬虫讲解2—Scrapy框架爬虫—Scrapy模拟浏览器登录—获取Scrapy框架Cookies
第三百三十三节,web爬虫讲解2—Scrapy框架爬虫—Scrapy模拟浏览器登录 模拟浏览器登录 start_requests()方法,可以返回一个请求给爬虫的起始网站,这个返回的请求相当于star ...
- 运用String类实现一个模拟用户登录程序
package Test; import java.util.Scanner; // 模拟用户登录程序 // 思路: // 1.用两个String类分别接收用户名和密码 // 2.判断输入的用户名和密 ...
- java.net.URL 模拟用户登录网页并维持session
java.net.URL 模拟用户登录网页并维持session 半成品,并非完全有用 import java.io.BufferedReader; import java.io.InputStream ...
- python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(2)
操作环境:python3 在上一文中python爬虫scrapy框架--人工识别知乎登录知乎倒立文字验证码和数字英文验证码(1)我们已经介绍了用Requests库来登录知乎,本文如果看不懂可以先看之前 ...
随机推荐
- springboot项目打包瘦身
默认情况下,Spring Boot 项目发布时会将项目代码和项目的所有依赖文件一起打成一个可执行的 jar 包.但如果项目的依赖包很多,那么这个文件就会非常大.这样每次即使只改动一点东西,就需要将整个 ...
- 多线程之ReentrantLock篇(五)
昨天有说过后面讲ReentrantLock,今天我们这篇幅就全局的讲解下,我们在Lock出来前,解决并发问题没得选只能用Synchronized. 一.ReentrantLock PK synchro ...
- Java知识系统回顾整理01基础02面向对象01类和对象
一.面向对象实例--设计英雄这个类 LOL有很多英雄,比如盲僧,团战可以输,提莫必须死,盖伦,琴女 所有这些英雄,都有一些共同的状态 比如,他们都有名字,hp,护甲,移动速度等等 这样我们就可以设计一 ...
- P2034 选择数字 / P2627 [USACO11OPEN]Mowing the Lawn G
Link 题目描述 给定一行 \(n\) 个非负整数 \(a[1]..a[n]\) .现在你可以选择其中若干个数,但不能有超过 \(k\) 个连续的数字被选择.你的任务是使得选出的数字的和最大. 输入 ...
- CN1,CN2 GT和CN2 GIA的区别
用一句话来概括,CN1主要定位于承载普通质量的互联网业务,而CN2则定位于承载企业VPN业务.中国电信的自营业务及高质量的互联网业务,CN2 GIA又比GT要好一些. 顺序:CN2 GIA>CN ...
- Centos7 Docker配置TLS认证的远程端口的证书生成教程(shell脚本一键生成)
通过 TLS来进行远程访问 百度百科 - TLS.我们需要在远程 docker 服务器(运行 docker 守护进程的服务器)生成 CA 证书,服务器证书,服务器密钥,然后自签名,再颁发给需要连接远程 ...
- RHSA-2017:2679-重要: 内核 安全更新(需要重启、存在EXP、代码执行)
[root@localhost ~]# cat /etc/redhat-release CentOS Linux release 7.2.1511 (Core) 修复命令: 使用root账号登陆She ...
- ansible-playbook定义变量与使用
1. ansible-playbook变量定义与使用 命令行 在Inventory中定义 在Playbook中定义 在Role中定义 注册变量(register) 系统信息变量(facts) 2. 在 ...
- 多测师讲解python _unttest框架001(基本格式)_高级讲师肖sir
1.unittest基本介绍 import unittest #导入unittest模块 #class Test(unittest.TestCase): def setUp(self): #创建dri ...
- docker启动服务---------------nginx+php
环境 首先安装Docker,无论你是Windows还是Linux.MocOS都可以.安装Docker自行百度. Docker镜像源 访问https://hub.docker.com即可,它是镜像大仓库 ...