python爬虫19 | 遇到需要的登录的网站怎么办?用这3招轻松搞定!
你好
由于你是游客
无法查看本文
请你登录再进
谢谢合作

当你在爬某些网站的时候
需要你登录才可以获取数据
咋整?
莫慌
小帅b把这几招传授给你
让你以后从容应对

那么
接下来就是

登录的常见方法无非是这两种
1、让你输入帐号和密码登录

2、让你输入帐号密码+验证码登录

今天
小帅b先跟你说说第一种
需要验证码的咱们下一篇再讲
第一招

Cookie大法
你平常在上某个不为人知的网站的时候
是不是发现你只要登录一次
就可以一直看到你想要的内容
过了一阵子才需要再次登录
这就是因为 Cookie 在做怪
简单来说
就是每一个使用这个网站的人
服务器都会给他一个 Cookie
那么下次你再请求数据的时候
你顺带把这个 Cookie 传过去
服务器一看
诶,小伙子是老客户啊
![]()
有登录过
直接返回数据给他吧
在服务中还可以设置 Cookie 的有效时间
也就是说
当你下次携带一个过期了的 Cookie 给服务器的时候
服务器虽然知道你是老客户
但是还是需要你重新再登录一次
然后再给你一个有效的 Cookie
Cookie 的时长周期是服务器那边定的
ok
了解了这一点之后
我们就来玩一下吧
我们以「逼乎」为例
https://biihu.cc/account/login/
输入地址之后
按一下 F12
点击 network 标签
然后登录你的帐号
然后点击其中一个
你就可以看到在 Request Headers 有你的 Cookie

有了 Cookie 之后
我们在代码中直接获取我的个人信息
import requestsheaders = {# 假装自己是浏览器'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/73.0.3683.75 Chrome/73.0.3683.75 Safari/537.36',# 把你刚刚拿到的Cookie塞进来'Cookie': 'eda38d470a662ef3606390ac3b84b86f9; Hm_lvt_f1d3b035c559e31c390733e79e080736=1553503899; biihu__user_login=omvZVatKKSlcXbJGmXXew9BmqediJ4lzNoYGzLQjTR%2Fjw1wOz3o4lIacanmcNncX1PsRne5tXpE9r1sqrkdhAYQrugGVfaBICYp8BAQ7yBKnMpAwicq7pZgQ2pg38ZzFyEZVUvOvFHYj3cChZFEWqQ%3D%3D; Hm_lpvt_f1d3b035c559e31c390733e79e080736=1553505597',}session = requests.Session()response = session.get('https://biihu.cc/people/wistbean%E7%9C%9F%E7%89%B9%E4%B9%88%E5%B8%85', headers=headers)print(response.text)
运行后可以发现不用登录就可以直接拿到自己的个人信息了
<!DOCTYPE html><html><head><meta content="text/html;charset=utf-8" http-equiv="Content-Type" /><meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0, user-scalable=no" name="viewport" /><meta http-equiv="X-UA-Compatible" content="IE=edge,Chrome=1" /><meta name="renderer" content="webkit" /><title>小帅b真特么帅 的个人主页 - 逼乎</title><meta name="keywords" content="逼乎,问答,装逼,逼乎网站" /><meta name="description" content="逼乎 ,与世界分享你的装逼技巧与见解" /><base href="https://biihu.cc/" /><!--[if IE]></base><![endif]--><link rel="stylesheet" type="text/css" href="https://biihu.cc/static/css/bootstrap.css" /><link rel="stylesheet" type="text/css" href="https://biihu.cc/static/css/icon.css" /><link href="https://biihu.cc/static/css/default/common.css?v=20180831" rel="stylesheet" type="text/css" /><link href="https://biihu.cc/static/css/default/link.css?v=20180831" rel="stylesheet" type="text/css" /><link href="https://biihu.cc/static/js/plug_module/style.css?v=20180831" rel="stylesheet" type="text/css" /><link href="https://biihu.cc/static/css/default/user.css?v=20180831" rel="stylesheet" type="text/css" /><link href="https://biihu.cc/static/css/mood/mood.css" rel="stylesheet" type="text/css" /><script type="text/javascript">var _02AEC94D5CA08B39FC0E1F7CC220F9B4="a5359326797de302bfc9aa6302c001b8";var G_POST_HASH=_02AEC94D5CA08B39FC0E1F7CC220F9B4;var G_INDEX_SCRIPT = "";var G_SITE_NAME = "逼乎";var G_BASE_URL = "https://biihu.cc";var G_STATIC_URL = "https://biihu.cc/static";var G_UPLOAD_URL = "/uploads";var G_USER_ID = "188";var G_USER_NAME = "小帅b真特么帅";var G_UPLOAD_ENABLE = "Y";var G_UNREAD_NOTIFICATION = 0;var G_NOTIFICATION_INTERVAL = 100000;var G_CAN_CREATE_TOPIC = "1";var G_ADVANCED_EDITOR_ENABLE = "Y";var FILE_TYPES = "jpg,jpeg,png,gif,zip,doc,docx,rar,pdf,psd";</script><script src="https://biihu.cc/static/js/jquery.2.js?v=20180831" type="text/javascript"></script>....
第二招

表单请求大法
很简单
就是通过抓包
获取请求登录的时候需要用到的用户名密码参数
然后以表单的形式请求服务器
如果你细心一点的话应该会知道之前说过拉
具体在这
去看下
我就不多说了
python爬虫03:那个叫做 Urllib 的库让我们的 python 假装是浏览器
第三招

Selenium 自动登录法
你应该看过这两个
python爬虫09 | 上来,自己动 !这就是 selenium 的牛逼之处
python爬虫11 | 这次,将带你爬取b站上的NBA形象大使蔡徐坤和他的球友们
看过的话
那么对于你来说
Selenium 自动登录也太 tm 简单了吧
获取到两个输入框的元素
再获取到登录按钮
往输入框写你的帐号密码
然后自动点击一下登录
username = WAIT.until(EC.presence_of_element_located((By.CSS_SELECTOR, "帐号的selector")))password = WAIT.until(EC.presence_of_element_located((By.CSS_SELECTOR, "密码的selector")))submit = WAIT.until(EC.element_to_be_clickable((By.XPATH, '按钮的xpath')))username.send_keys('你的帐号')password.send_keys('你的密码')submit.click()
登录完之后拿到 Cookie
cookies = webdriver.get_cookies()
有了 Cookie 你就可以拿到你想要的数据了
ok
以上这三招

希望对你有帮助
咱们下一篇说说验证码相关
下回见
peace

帅b老仙
法力无边
(你想约我么?)
点个在看
继续发力
python爬虫19 | 遇到需要的登录的网站怎么办?用这3招轻松搞定!的更多相关文章
- Python爬虫实战五之模拟登录淘宝并获取所有订单
经过多次尝试,模拟登录淘宝终于成功了,实在是不容易,淘宝的登录加密和验证太复杂了,煞费苦心,在此写出来和大家一起分享,希望大家支持. 温馨提示 更新时间,2016-02-01,现在淘宝换成了滑块验证了 ...
- Python高级特性: 12步轻松搞定Python装饰器
12步轻松搞定Python装饰器 通过 Python 装饰器实现DRY(不重复代码)原则: http://python.jobbole.com/84151/ 基本上一开始很难搞定python的装 ...
- 【python爬虫】根据查询词爬取网站返回结果
最近在做语义方面的问题,需要反义词.就在网上找反义词大全之类的,但是大多不全,没有我想要的.然后就找相关的网站,发现了http://fanyici.xpcha.com/5f7x868lizu.html ...
- python一招完美搞定Chromedriver的自动更新
日常的web自动化过程中,我们常常用python selenium库来操纵Chrome浏览器实现网页的自动化.这其中有个比较头疼的问题:Chrome的更新频率非常频繁,与之对应的Chromedrive ...
- 转载 12步轻松搞定python装饰器
作者: TypingQuietly 原文链接: https://www.jianshu.com/p/d68c6da1587a 呵呵!作为一名教python的老师,我发现学生们基本上一开始很难搞定pyt ...
- 12步轻松搞定Python装饰器
译者:寒寻 译文:http://www.cnblogs.com/imshome/p/8327438.html 原文:https://dzone.com/articles/understanding-p ...
- Python爬虫(3)豆瓣登录
前面(1)(2)的内容已经足够爬虫如链家网之类的不需要登录可以直接获取数据的网站. 而要爬取社交网站比较鲜明的特点就是需要登录,否则很多东西都无法获取.经过测试发现,微博,知乎都不是很好登录,知乎有时 ...
- python爬虫入门10分钟爬取一个网站
一.基础入门 1.1什么是爬虫 爬虫(spider,又网络爬虫),是指向网站/网络发起请求,获取资源后分析并提取有用数据的程序. 从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HT ...
- [Python爬虫] 之一 : Selenium+Phantomjs动态获取网站数据信息
本人刚才开始学习爬虫,从网上查询资料,写了一个利用Selenium+Phantomjs动态获取网站数据信息的例子,当然首先要安装Selenium+Phantomjs,具体的看 http://www.c ...
随机推荐
- Android MaoZhuaWeiBo 好友动态信息列表数据抓取 -3
前面2篇把大致的开发说的几乎相同了,接下来说说粉丝动态消息列表或时间线数据的抓取与解析显示,我将他所有写在了一个 类里.并以封装类对象的形式存储数据.以下看看基本的服务代码: 粉丝动态消息列表数据抓取 ...
- 143 - ZOJ Monthly, October 2015 I Prime Query 线段树
Prime Query Time Limit: 1 Second Memory Limit: 196608 KB You are given a simple task. Given a s ...
- ROADS - Roads
N cities named with numbers 1 ... N are connected with one-way roads. Each road has two parameters a ...
- ubuntu下使用crontab定时器
crontab 定时工具(周期性执行的任务列表称为Cron Table),其中每一个任务,被称为Cron Job. 可以,每分钟执行,每小时执行,每天执行,每周执行,每月执行. 检查服务 1.查看任务 ...
- 预编译头文件pch
1. 预编译头文件 作用:提高编译效率.预编译头文件(扩展名为.PCH),是为了提高编译效率而使用的一种方法,把一个工程中较稳定的代码预先编译好放在一个文件(.PCH)里.避免每次编译 ...
- 为什么要使用XHTML?
XHTML 是什么? XHTML 指可扩展超文本标签语言(EXtensible HyperText Markup Language). XHTML 的目标是取代 HTML. XHTML 与 HTML ...
- 自定义Git(转载)
转自:http://www.liaoxuefeng.com/wiki/0013739516305929606dd18361248578c67b8067c8c017b000/00137621280731 ...
- U3D版本控制设置 Force Text优劣
git的忽略列表 .gitignore Library/ Temp/ .vs/ *.csproj *.sln Edit > Project Settings > Editor 下把meta ...
- [Swift通天遁地]八、媒体与动画-(5)使用开源类库绘制文字、图形、图像、图表、SVG(可缩放矢量图形)
★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★➤微信公众号:山青咏芝(shanqingyongzhi)➤博客园地址:山青咏芝(https://www.cnblogs. ...
- C# 截取字符串——
string strID ="NODE_aSDFghsdfgyuhjidfgh_45678" //得到_ 中间的数 int index = strID.IndexOf(" ...