python爬虫19 | 遇到需要的登录的网站怎么办？用这3招轻松搞定！

你好

由于你是游客

无法查看本文

请你登录再进

谢谢合作

当你在爬某些网站的时候

需要你登录才可以获取数据

咋整？

莫慌

小帅b把这几招传授给你

让你以后从容应对

那么

接下来就是

学习 python 的正确姿势

登录的常见方法无非是这两种

1、让你输入帐号和密码登录

2、让你输入帐号密码+验证码登录

今天

小帅b先跟你说说第一种

需要验证码的咱们下一篇再讲

第一招

Cookie大法

你平常在上某个不为人知的网站的时候

是不是发现你只要登录一次

就可以一直看到你想要的内容

过了一阵子才需要再次登录

这就是因为 Cookie 在做怪

简单来说

就是每一个使用这个网站的人

服务器都会给他一个 Cookie

那么下次你再请求数据的时候

你顺带把这个 Cookie 传过去

服务器一看

诶，小伙子是老客户啊

有登录过

直接返回数据给他吧

在服务中还可以设置 Cookie 的有效时间

也就是说

当你下次携带一个过期了的 Cookie 给服务器的时候

服务器虽然知道你是老客户

但是还是需要你重新再登录一次

然后再给你一个有效的 Cookie

Cookie 的时长周期是服务器那边定的

了解了这一点之后

我们就来玩一下吧

我们以「逼乎」为例

https://biihu.cc/account/login/

输入地址之后

按一下 F12

点击 network 标签

然后登录你的帐号

然后点击其中一个

你就可以看到在 Request Headers 有你的 Cookie

有了 Cookie 之后

我们在代码中直接获取我的个人信息

import requests
headers = {    # 假装自己是浏览器    'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/73.0.3683.75 Chrome/73.0.3683.75 Safari/537.36',    # 把你刚刚拿到的Cookie塞进来    'Cookie': 'eda38d470a662ef3606390ac3b84b86f9; Hm_lvt_f1d3b035c559e31c390733e79e080736=1553503899; biihu__user_login=omvZVatKKSlcXbJGmXXew9BmqediJ4lzNoYGzLQjTR%2Fjw1wOz3o4lIacanmcNncX1PsRne5tXpE9r1sqrkdhAYQrugGVfaBICYp8BAQ7yBKnMpAwicq7pZgQ2pg38ZzFyEZVUvOvFHYj3cChZFEWqQ%3D%3D; Hm_lpvt_f1d3b035c559e31c390733e79e080736=1553505597',}
session = requests.Session()response = session.get('https://biihu.cc/people/wistbean%E7%9C%9F%E7%89%B9%E4%B9%88%E5%B8%85', headers=headers)
print(response.text)

运行后可以发现不用登录就可以直接拿到自己的个人信息了

<!DOCTYPE html><html><head><meta content="text/html;charset=utf-8" http-equiv="Content-Type" /><meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0, user-scalable=no" name="viewport" /><meta http-equiv="X-UA-Compatible" content="IE=edge,Chrome=1" /><meta name="renderer" content="webkit" /><title>小帅b真特么帅 的个人主页 - 逼乎</title><meta name="keywords" content="逼乎,问答,装逼,逼乎网站" /><meta name="description" content="逼乎 ，与世界分享你的装逼技巧与见解"  /><base href="https://biihu.cc/" /><!--[if IE]></base><![endif]--><link rel="stylesheet" type="text/css" href="https://biihu.cc/static/css/bootstrap.css" /><link rel="stylesheet" type="text/css" href="https://biihu.cc/static/css/icon.css" /><link href="https://biihu.cc/static/css/default/common.css?v=20180831" rel="stylesheet" type="text/css" /><link href="https://biihu.cc/static/css/default/link.css?v=20180831" rel="stylesheet" type="text/css" /><link href="https://biihu.cc/static/js/plug_module/style.css?v=20180831" rel="stylesheet" type="text/css" /><link href="https://biihu.cc/static/css/default/user.css?v=20180831" rel="stylesheet" type="text/css" /><link href="https://biihu.cc/static/css/mood/mood.css" rel="stylesheet" type="text/css" /><script type="text/javascript">  var _02AEC94D5CA08B39FC0E1F7CC220F9B4="a5359326797de302bfc9aa6302c001b8";  var G_POST_HASH=_02AEC94D5CA08B39FC0E1F7CC220F9B4;  var G_INDEX_SCRIPT = "";  var G_SITE_NAME = "逼乎";  var G_BASE_URL = "https://biihu.cc";  var G_STATIC_URL = "https://biihu.cc/static";  var G_UPLOAD_URL = "/uploads";  var G_USER_ID = "188";  var G_USER_NAME = "小帅b真特么帅";  var G_UPLOAD_ENABLE = "Y";  var G_UNREAD_NOTIFICATION = 0;  var G_NOTIFICATION_INTERVAL = 100000;  var G_CAN_CREATE_TOPIC = "1";  var G_ADVANCED_EDITOR_ENABLE = "Y";  var FILE_TYPES = "jpg,jpeg,png,gif,zip,doc,docx,rar,pdf,psd";</script><script src="https://biihu.cc/static/js/jquery.2.js?v=20180831" type="text/javascript"></script>
....

第二招

表单请求大法

很简单

就是通过抓包

获取请求登录的时候需要用到的用户名密码参数

然后以表单的形式请求服务器

如果你细心一点的话应该会知道之前说过拉

具体在这

去看下

我就不多说了

python爬虫03：那个叫做 Urllib 的库让我们的 python 假装是浏览器

第三招

Selenium 自动登录法

你应该看过这两个

python爬虫09 | 上来，自己动！这就是 selenium 的牛逼之处

python爬虫11 | 这次，将带你爬取b站上的NBA形象大使蔡徐坤和他的球友们

看过的话

那么对于你来说

Selenium 自动登录也太 tm 简单了吧

获取到两个输入框的元素

再获取到登录按钮

往输入框写你的帐号密码

然后自动点击一下登录

username = WAIT.until(EC.presence_of_element_located((By.CSS_SELECTOR, "帐号的selector")))password = WAIT.until(EC.presence_of_element_located((By.CSS_SELECTOR, "密码的selector")))submit = WAIT.until(EC.element_to_be_clickable((By.XPATH, '按钮的xpath')))
username.send_keys('你的帐号')password.send_keys('你的密码')submit.click()

登录完之后拿到 Cookie

cookies = webdriver.get_cookies()

有了 Cookie 你就可以拿到你想要的数据了

以上这三招

希望对你有帮助

咱们下一篇说说验证码相关

下回见

peace

帅b老仙

法力无边

（你想约我么？）

点个在看

继续发力

python爬虫19 | 遇到需要的登录的网站怎么办？用这3招轻松搞定！的更多相关文章

Python爬虫实战五之模拟登录淘宝并获取所有订单
经过多次尝试,模拟登录淘宝终于成功了,实在是不容易,淘宝的登录加密和验证太复杂了,煞费苦心,在此写出来和大家一起分享,希望大家支持. 温馨提示更新时间,2016-02-01,现在淘宝换成了滑块验证了 ...
Python高级特性: 12步轻松搞定Python装饰器
12步轻松搞定Python装饰器通过 Python 装饰器实现DRY(不重复代码)原则: http://python.jobbole.com/84151/ 基本上一开始很难搞定python的装 ...
【python爬虫】根据查询词爬取网站返回结果
最近在做语义方面的问题,需要反义词.就在网上找反义词大全之类的,但是大多不全,没有我想要的.然后就找相关的网站,发现了http://fanyici.xpcha.com/5f7x868lizu.html ...
python一招完美搞定Chromedriver的自动更新
日常的web自动化过程中,我们常常用python selenium库来操纵Chrome浏览器实现网页的自动化.这其中有个比较头疼的问题:Chrome的更新频率非常频繁,与之对应的Chromedrive ...
转载 12步轻松搞定python装饰器
作者: TypingQuietly 原文链接: https://www.jianshu.com/p/d68c6da1587a 呵呵!作为一名教python的老师,我发现学生们基本上一开始很难搞定pyt ...
12步轻松搞定Python装饰器
译者:寒寻译文:http://www.cnblogs.com/imshome/p/8327438.html 原文:https://dzone.com/articles/understanding-p ...
Python爬虫（3）豆瓣登录
前面(1)(2)的内容已经足够爬虫如链家网之类的不需要登录可以直接获取数据的网站. 而要爬取社交网站比较鲜明的特点就是需要登录,否则很多东西都无法获取.经过测试发现,微博,知乎都不是很好登录,知乎有时 ...
python爬虫入门10分钟爬取一个网站
一.基础入门 1.1什么是爬虫爬虫(spider,又网络爬虫),是指向网站/网络发起请求,获取资源后分析并提取有用数据的程序. 从技术层面来说就是通过程序模拟浏览器请求站点的行为,把站点返回的HT ...
[Python爬虫] 之一： Selenium+Phantomjs动态获取网站数据信息
本人刚才开始学习爬虫,从网上查询资料,写了一个利用Selenium+Phantomjs动态获取网站数据信息的例子,当然首先要安装Selenium+Phantomjs,具体的看 http://www.c ...

随机推荐

CentOS6.5下用Git克隆代码（https方式）
一.首先最好保证GIT是最新版查看GIT命令 $ git --version 有关git的安装,应该有好多文章介绍.注意更新之后,要重启系统,否则显示的版本号,还是老版本. 二.如果工作环境存在网络 ...
YTU 2715: 函数---判断某年某月某日是这一年中的第几天
2715: 函数---判断某年某月某日是这一年中的第几天时间限制: 1 Sec 内存限制: 128 MB 提交: 380 解决: 155 题目描述在主程序(main)中输入某年某月某日,例如2 ...
Dictionary<string, string>是一个泛型使用说明
Dictionary<string, string>是一个泛型使用说明 Posted on 2010-08-05 15:03 moss_tan_jun 阅读(2273) 评论(0) 编辑 ...
docker run Influxdb
本文假设读者已经安装并配置好了Docker的运行环境,Docker daemon已经运行.如果要在Suse上安装Docker,请参考文章Docker学习系列1-Suse安装Docker来设置Docke ...
[模板]平衡树splay
气死我了,调了一个下午+两节课,各种大大小小的错误,各种调QAQ,最后总之是调出来了. 其实就是一个双旋操作,然后其他就是左儿子<当前节点<右儿子,剩下就是细节了. 题干: 题目描述您需 ...
nginx搭建基于http协议的视频点播服务器
1,于由自己的服务器上已经安装好nginx(具体安装方法见我的另一篇文章,Linux中安装nginx),所以不再安装. 2,下载nginx_mod_h264_streaming-2.2.7.tar.g ...
JavaGraphics类的绘图方法
Graphics类提供基本绘图方法,Graphics类提供基本的几何图形绘制方法,主要有:画线段.画矩形.画圆.画带颜色的图形.画椭圆.画圆弧.画多边形.画字符串等. 1. 画线段:在窗口中画一条线段 ...
vue单页面应用刷新网页后vuex的state数据丢失问题以及beforeunload的兼容性
最近在用vue写h5项目,当使用window.location重定向页面或者刷新当前页面时, 发现当刷新网页后,保存在vuex实例store里的数据会丢失. 后来在网上查找大神的解决方案如下: exp ...
keystone身份认证服务
Keystone介绍 keystone 是OpenStack的组件之一,用于为OpenStack家族中的其它组件成员提供统一的认证服务,包括身份验证.令牌的发放和校验.服务列表.用户权限的定义等等.云 ...
Java多线程——线程八锁案例分析
Java多线程——线程八锁案例分析摘要:本文主要学习了多线程并发中的一些案例. 部分内容来自以下博客: https://blog.csdn.net/dyt443733328/article/deta ...

python爬虫19 | 遇到需要的登录的网站怎么办？用这3招轻松搞定！

python爬虫19 | 遇到需要的登录的网站怎么办？用这3招轻松搞定！的更多相关文章

随机推荐

热门专题