模拟登陆首先要明白的就是session和cookie机制:

简单的说(个人理解):
http是一种无状态的协议，为解决用户每次都需要输入密码登录的烦恼，也为了服务器能够记住每次请求的浏览器，就有了会话机制，

就是每次对话不需要问你是谁，浏览器只需要将服务器原先发送给浏览器的ID原封不动的还给服务器，这样服务器就可以在自己的
数据库中查找这个ID就可以，而只有这个ID是没用的，若想要用户登录,还需要用用户名和密码,加密后以cookie的形式存储在本地，

下次请求直接发送给服务器就行

总之：为了服务器和浏览器之间互相确认身份，服务器生成一个session_id并且保存在服务器，还有给浏览器一份，浏览器将这个session_id写入cookie,

发送给服务器，服务器对照自己保存在本地的，就能互相确认身份；不同的是：cookie中还带了用户的个人信息等

　　　　
cookie是存储在本地的记录某个网站的个人信息的机制
session是存储在服务器中的记录某个浏览器(用户)的信息的机制，更安全；
具体理解可参考这篇文章

不同的网站模拟登录的策略不同，不同的网站要进行不同的分析；但都是大同小异；做过web的明白，无非就是用户的验证；较难的就是识别验证码了

知乎的登录破解：

1:这里遇到了坑，因为在firebug中测试时，post到url时没有填写验证码；而通过requests post到URL
   具体参数时报错：验证码错误，这就很纳闷了；
    2：原来：当向首页get时，因为有cookies,所以登录时就不需要填写验证码；通过代码时没有加cookies,需要填写验证码
    而验证码不好识别，只能更换思路
    3: 模拟浏览器的行为，若当初为取的xsrf时get带上cookie，下次登录就不需要验证码了
    4：那么怎么才能将cookie post到URL呢？了解requests.post()方法的知道：post()可带的参数很多
    其中cookies= {}或CookieJar
    5:将cookies以字典的形式post方便操作，只需要在firebug中的cookies复制为字典的格式
       以CookieJar的形式：因为cookie是保存在硬盘的，可以参考这篇博文

6：因为cookie是有生存周期的额，为了下面重新登录，可以将登录后的cookie以txt的形式保存在本地，下次直接load就可以

实例代码注释

 import requests

 #适合python2和python3版本的导包

 try:

     import cookielib

 except:

     import http.cookiejar as cookielib

 import re

 from urllib import parse, request

 #使用会话机制向url发送request,提高效率，不必每次都发请求(类比浏览器直接在本标签页操作，不需重新产生新的标签页)

 session = requests.session()

 #将会话产生的cookies保存在本地

 session.cookies = cookielib.LWPCookieJar(filename="cookies.txt")

 #浏览器版本信息，目的是伪装成一个浏览器，让服务器认为我们的代码是一个浏览器请求而不是爬虫，避免被拒绝

 headers = {

     "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0",

     "Host":"www.zhihu.com",

     "Referer":"https://www.zhihu.com/",

 }

 #获取登录xsrf

 def get_xsrf():

     url = "https://www.zhihu.com/#signin"

     try:

         #带上cookie,避免产生验证码识别

         req = session.get(url=url,cookies=cookies,headers=headers)

         #通过正则表达式解析出 xsrf 类比csrf机制

         xsrf = re.findall('<input type="hidden" name="_xsrf" value="(.*?)"/>',req.text)

         if xsrf:

             xsrf = xsrf[0]

             print(xsrf)

             return xsrf

         else:

             return xsrf

     except Exception as e:

         print(e)

         print("failed download")

 #知乎登录

 def zhihu_login(account,password):

     #首先获取xsrf

     xsrf = get_xsrf()

     #判断是手机号：以手机号登录，提交表单和提交URL不同，构造不同的URL和表单

     if re.match("\d{10}",account):

         url = "https://www.zhihu.com/login/phone_num"

         data={

             "_xsrf":xsrf,

             'remember_me': 'true',

             "password":password,

             "phone_num":account

         }

     if '@' in account:

         url = "https://www.zhihu.com/login/email"

         data={

             "_xsrf":xsrf,

             'remember_me': 'true',

             "password":password,

             "email":account

         }

     #将获取到的xsrf加载到cookie中

     cookies["_xsrf"] = xsrf

     #带上表单，头信息，cookies申请登录

     r = session.post(url=url,data=data,headers=headers,cookies=cookies)

     print(r.text)

     #登录成功将cookies保存到本地

     session.cookies.save()

 #获取首页;登录后可直接获取，因为session中已经(带了)加载了cookie

 def get_index():

     response = session.get("https://www.zhihu.com/",headers=headers)

     print(response.status_code)

     #将首页写入本地文件

     with open("index_page.html","wb") as f:

         f.write(response.text.encode("utf-8"))

     print("write ok")

 #查看登录状态;向一个只有登录的页面get,若登录会返回200；否则304，会重定向到登录页(重定向后会返回200)

 def is_login():

     url = "https://www.zhihu.com/inbox"

     #allow_redirects  禁止重定向

     response  = session.get(url=url,headers=headers,allow_redirects=False)

     #判断是否登录

     if response.status_code != 200:

         return False

     else:

         return True

 #先尝试本地cookie登录，不成功使用浏览器copy下来的cookies重新登录,生成本地cookies

 try:

     #先尝试加载之前保存在本地的cookies

     session.cookies.load(ignore_discard=True)

     print("cookies 已记载")

 except:

     #没加载就重新登录

     print("cookie 未加载")

     #这个cookie是从firebug中复制来的

     cookies = {

     "d_c0":"",

     "l_cap_id":"",

     "r_cap_id":"",

     "cap_id":"",

     "_zap":"",

     "__utmc":"",

     "__utmb":"",

     "__utmv":"",

     "__utma":"",

     "__utmz":"",

     "q_c1":""

 }

     #调用登录函数,成功后会更新cookie到本地

     zhihu_login("342200377@qq.com","")

     #更新成功后重新加载cookies

     session.cookies.load(ignore_discard=True)

 print(is_login())

Scrapy基础(十四)————知乎模拟登陆的更多相关文章

Scrapy基础(十四)————Scrapy实现知乎模拟登陆
模拟登陆大体思路见此博文,本篇文章只是将登陆在scrapy中实现而已之前介绍过通过requests的session 会话模拟登陆:必须是session,涉及到验证码和xsrf的写入cookie验证的 ...
Bootstrap<基础十四> 按钮下拉菜单
使用 Bootstrap class 向按钮添加下拉菜单.如需向按钮添加下拉菜单,只需要简单地在在一个 .btn-group 中放置按钮和下拉菜单即可.也可以使用 <span class=&qu ...
Python爬虫实例（四）网站模拟登陆
一.获取一个有登录信息的Cookie模拟登陆下面以人人网为例,首先使用自己的账号和密码在浏览器登录,然后通过抓包拿到cookie,再将cookie放到请求之中发送请求即可,具体代码如下: # -*- ...
第十二篇 requests模拟登陆知乎
了解http常见状态码可以通过输入错误的密码来找到登陆知乎的post:url 把Headers拉到底部,可以看到form data _xsrf是需要发送的,需要发送给服务端,否则会返回403错误,提 ...
C++学习基础十四——基础类型vector
一.vector的使用 1. #include <vector> 2. 初始化的四种方法 vector<T> v1; vector<T> v2(v1); vecto ...
Java基础(十四)--装箱、拆箱详解
Java中基本数据类型都有相对应的包装类什么是装箱?什么是拆箱? 在Java SE5之前,Integer是这样初始化的 Integer i = new Integer(10); 而在从Java SE ...
java基础(十四)-----详解匿名内部类——Java高级开发必须懂的
在这篇博客中你可以了解到匿名内部类的使用.匿名内部类要注意的事项.匿名内部类使用的形参为何要为final. 使用匿名内部类内部类匿名内部类由于没有名字,所以它的创建方式有点儿奇怪.创建格式如下: n ...
Scrapy基础(十二)————异步导出Item数据到Mysql中
异步导出数据到Mysql中上次说过从Item中同步写入数据库,因为网络的下载速度和数据库的I/O速度是不一样的所以有可能会发生下载快,但是写入数据库速度慢,造成线程的堵塞:关于堵塞和非堵塞,同步和异 ...
Scrapy基础(十)———同步机制将Item中的数据写在Mysql
前面讲解到将Item中的所有字段都已经填写完成,那么接下来就是将他们存储到mysql数据库中,那就用到了pipeline项目管道了: 对项目管道的理解:做一个比喻,爬取好比是开采石油,Item装 ...

随机推荐

洛谷P1108 低价购买题解
看到"你必须用低于你上次购买它的价格购买它",有没有想到什么?没错,又是LIS,倒过来的LIS,所以我们只要把读入的序列倒过来就可以求LIS了,第一问解决. 首先要厘清的是,对于这 ...
51nod1812树的双直径（换根树DP）
传送门:http://www.51nod.com/Challenge/Problem.html#!#problemId=1812 题解:头一次写换根树DP. 求两条不相交的直径乘积最大,所以可以这样考 ...
(二分查找拓展) leetcode 69. Sqrt(x)
Implement int sqrt(int x). Compute and return the square root of x, where x is guaranteed to be a no ...
ubuntu:基本操作；
1.系统时间与网络时间同步: sudo dpkg-reconfigure tzdata 注: 该博文为扩展型:
如何巧妙的使用ArrayList的Clone方法
一.ArrayList的Clone方法的源码返回一个Object对象,所以在使用此方法的时候要强制转换. ArrayList的本质是维护了一个Object的数组,所以克隆也是通过数组的复制实现的,属 ...
SQL Server 跨服务器操作
Ø 简介在工作中编写 SQL 时经常会遇到跨库或跨服务器操作,比如查询时,通过 A 服务器的某张表关联 B 服务器某张表,进行连接查询.或者从另一台服务器中的数据,对当前数据库中的数据进行 CRU ...
五十一、进程间通信——System V IPC 之进程信号量
51.1 进程信号量 51.1.1 信号量本质上就是共享资源的数目,用来控制对共享资源的访问用于进程间的互斥和同步每种共享资源对应一个信号量,为了便于大量共享资源的操作引入了信号量集,可对所有信 ...
Vue技术内幕出去看看吧
Vue的 Vue构造函数的出生出生文件 ./instance/index 实例方法和属性 .global-api/index 静态方法和属性 Vue平台化包装 Web平台化 vue 初始化 m ...
在GridView中使用FindControl
DataRowView dv =(DataRowView)e.Row.DataItem;string id=dv.Row["ProjectID"].ToString(); 1.在行 ...
Fast R-CNN（理解）
0 - 背景经典的R-CNN存在以下几个问题: 训练分多步骤(先在分类数据集上预训练,再进行fine-tune训练,然后再针对每个类别都训练一个线性SVM分类器,最后再用regressors对bou ...

Scrapy基础(十四)————知乎模拟登陆

模拟登陆首先要明白的就是session和cookie机制:

知乎的登录破解：

Scrapy基础(十四)————知乎模拟登陆的更多相关文章

随机推荐

热门专题