前言
在爬取某些网页时，登陆界面时经常遇到的一个坎，而现在大多数的网站在登陆时都会要求用户填写验证码。当然，我们可以设计一套机器学习的算法去破解验证码，然而，验证码的形式多种多样，稍微变一下（有些甚至是手机短信验证），整套算法可能就完全无效了，所以去强行破解验证码是一个吃力不讨好的活。本文会以知乎网站为例，利用python中的request模块进行的一个模拟登陆，其中用到了reqeust.session下的cookies来跳过登陆这一环节。

方案详述
下面以模拟登陆知乎为例，利用python3.6进行详细的过程叙述，建议使用pycharm作为IDE。
首先，我们要将headers给设置好

agent = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36"

headers = {

    "HOST": "www.zhihu.com",

    "Referer": "http://www.zhihu.com",

    "User-Agent": agent

}

　　接着，用账号成功登陆一次知乎，并按下“F12”（Chrome浏览器），找到Resources下的Cookies，将显示的Cookies全都复制下来，即下图红框中的”Name”和”Value”。

图1：如何找到Cookies

图中一些个人隐私信息已经擦去，图可能有点看不清，但应该能看明白，凑合一下吧~
将复制下来的Cookies写成字典的形式由于隐私问题，下面是不完整的Cookies。

cookies = {

    "cap_id" : "MWQ0Yzk4NGI1Y2M4NG*********",

    "r_cap_id" : "OTUyOTY1YjFjMDQ5NGEx*********",

    "z_c0" : "Mi4xWVduN0FRQUFB**********",

    "q_c1" : "108429c2422245a0********",

    "d_c0" : "ADBCEDC-5guPTr*********",

    "aliyungf_tc" : "AQAAAAaQE*************",

    "_zap" : "92146d2b-**********",

    "_xsrf" : "01124268-4638-***************",

    "__utmz" : "51854390.15038440***********",

    "__utmv" : "51854390.000**************",

    "__utma" : "51854390.4***********"

}

然后创建一个session对象，将headers和cookies赋给session

import Requests

session = Requests.session()

session.headers = headers

requests.utils.add_dict_to_cookiejar(session.cookies, cookies)

其中，值得注意的是，session.headers可以是dict，所以直接赋值没问题，而session.cookies必须是<class ‘requests.cookies.RequestsCookieJar’>，所以要利用requests.utils.add_dict_to_cookiejar进行赋值。
好了，现在我们已经完事具备了，可以直接访问知乎了，就是这么简单。

url = "https://www.zhihu.com/"

response = session.get(url)

比如这个时候，我们想把访问到的页面给保存下来，我们就可以这么干

with open("test.html", "wb") as f:

    f.write(response.text.encode('utf-8'))

登陆进去了之后，就是想怎么来，就怎么来了~
这里还要补充一点就是，我们如果觉得把cookies写在源代码中不太雅观的话，可以将其保存到本地文件当中

import json

def save_cookies(cookies):

    cookies_file = 'export.json'

    with open(cookies_file, 'w') as f:

        json.dump(cookies, f)

保存成Json格式之后，可以在cookies过期之后，直接在文件当中修改cookies，要读取cookies也很方便

def load_cookies():

    cookie_json = {}

    try:

        with open('export.json', 'r') as cookies_file:

            cookie_json = json.load(cookies_file)

    except:

        print ("Json load failed")

    finally:

        return cookie_json

值得注意的是，这个时候出来的cookies也是dict类型的，别忘了转换成cookiejar。

完整代码

我们可以把上面的代码整理一下，写成下面这样
文件1：用来存储cookies

import json

def save_cookies(cookies):

    cookies_file = 'export.json'

    with open(cookies_file, 'w') as f:

        json.dump(cookies, f)

def main():

    cookies = {

        "cap_id" : "MWQ0Yzk4NGI1Y2M4NG*********",

        "r_cap_id" : "OTUyOTY1YjFjMDQ5NGEx*********",

        "z_c0" : "Mi4xWVduN0FRQUFB**********",

        "q_c1" : "108429c2422245a0********",

        "d_c0" : "ADBCEDC-5guPTr*********",

        "aliyungf_tc" : "AQAAAAaQE*************",

        "_zap" : "92146d2b-**********",

        "_xsrf" : "01124268-4638-***************",

        "__utmz" : "51854390.15038440***********",

        "__utmv" : "51854390.000**************",

        "__utma" : "51854390.4***********"

    }

    save_cookies(cookies)

if __name__ == '__main__':

    main()

文件2：用来模拟登陆

import requests

def load_cookies():

    cookie_json = {}

    try:

        with open('export.json', 'r') as cookies_file:

            cookie_json = json.load(cookies_file)

    except:

        print ("Json load failed")

    finally:

        return cookie_json

def main():

    agent = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36"

    headers = {

        "HOST": "www.zhihu.com",

        "Referer": "http://www.zhihu.com",

        "User-Agent": agent

    }

    session = requests.session()

    session.headers = headers

    requests.utils.add_dict_to_cookiejar(session.cookies, load_cookies())

    url = "https://www.zhihu.com/"

    response = session.get(url)

    with open("test.html", "wb") as f:

        f.write(response.text.encode('utf-8'))

    print ("Done")

if __name__ == '__main__':

    main()

注意本文创作时间，如果阅读时已经过了很久，代码可能不起效。

利用cookies跳过登陆验证码的更多相关文章

利用cookies+requests包登陆微博，使用xpath抓取目标用户的用户信息、微博以及对应评论
本文目的:介绍如何抓取微博内容,利用requests包+cookies实现登陆微博,lxml包的xpath语法解析网页,抓取目标内容. 所需python包:requests.lxml 皆使用pip安装 ...
通过cookies跳过验证码登陆页面，直接访问网站的其它URL
我每次手动访问去NN网的一家酒店,就不需要登陆,一旦我用脚本打开就会让我登陆,而登陆页面又有验证码,不想识别验证码,所以就想:“通过cookies跳过验证码登陆页面,直接访问网站的其它URL” 转 ...
tornado web高级开发项目之抽屉官网的页面登陆验证、form验证、点赞、评论、文章分页处理、发送邮箱验证码、登陆验证码、注册、发布文章、上传图片
本博文将一步步带领你实现抽屉官网的各种功能:包括登陆.注册.发送邮箱验证码.登陆验证码.页面登陆验证.发布文章.上传图片.form验证.点赞.评论.文章分页处理以及基于tornado的后端和ajax的 ...
本博文将一步步带领你实现抽屉官网的各种功能：包括登陆、注册、发送邮箱验证码、登陆验证码、页面登陆验证、发布文章、上传图片、form验证、点赞、评论、文章分页处理以及基于tronado的后端和ajax的前端数据处理。
本博文将一步步带领你实现抽屉官网的各种功能:包括登陆.注册.发送邮箱验证码.登陆验证码.页面登陆验证.发布文章.上传图片.form验证.点赞.评论.文章分页处理以及基于tronado的后端和ajax的 ...
如何机智判断页面是刷新还是关闭，背景：vue项目，需求：关闭页面，下次直接跳到登陆页
最近项目有这么个需求:要在关闭当前系统的窗口的时候,退出登录, 因为如果不退出登录可能存在安全风险,其实我想说,电脑没事别借给别人活着离开工位记得一定要锁屏,其实我们设置了cookie失效时间的,过了 ...
Python3.6下的Requests登录及利用Cookies登录
利用Python中的Requests模块可以实现Post,Get等发送功能,我以登录某网站为例,记录使用Post发送用户名.密码及图形验证码,以及通过Cookies直接登录的内容. 1.利用POST发 ...
selenium获取cookies并持久化登陆
selenium获取cookies并持久化登陆需求背景: 这几天需要写一个接口,用来批量上传数据,最开始考虑的是 UI 自动化,然后选值的时候自动化难以判别,最终选择接口自动化. 然后操 ...
利用 canvas 破解某拖动验证码
利用 canvas 破解某拖动验证码 http://my.oschina.net/u/237940/blog/337194
学习笔记：利用GDI+生成简单的验证码图片
学习笔记:利用GDI+生成简单的验证码图片 /// <summary> /// 单击图片时切换图片 /// </summary> /// <param name=&quo ...

随机推荐

try finally 处理方式
这样的处理方式:主要解决当资源建立连接后,出现问题,需要关闭资源. 异常无法直接catch处理,但是资源需要关闭
用int还是用Integer？
昨天例行code review时大家有讨论到int和Integer的比较和使用. 这里做个整理,发表一下个人的看法. [int和Integer的区别] int是java提供的8种原始类型之一,ja ...
lsof命令简介
lsof命令简介: lsof(list open files)是一个列出当前系统打开文件的工具.在linux环境下,任何事物都以文件的形式存在,通过文件不仅仅可以访问常规数据,还可以访问网络连接和硬件 ...
编写一种递归方法，它返回数N的二进制中表示1的个数。
/** * 编写一种递归方法,它返回数N的二进制中表示1的个数.利用这样一个事实:N为奇数,其1的个数为N/2的二进制中1的个数加1. * @author wulei * */public class ...
unity之UI
1.Vector3坐标 2.地球,月球,太阳的旋转关系 using System.Collections; using System.Collections.Generic; using UnityE ...
SQL Server如何将Id相同的字段合并，并且以逗号隔开
需要用到stuff函数: 例: id name 1 张三 1 李四 ...
N-城堡问题
1 2 3 4 5 6 7 ############################# 1 # | # | # | | # #####---#####---#---#####---# 2 # # | ...
STL之Map和multimap容器
1.Map和multimap容器 1)map是标准的关联式容器,一个map是一个键值对序列,即(key,value)对.它提供基于key的快速检索能力. 2)map中key值是唯一的.集合中的元素按一 ...
E. Gerald and Giant Chess
E. Gerald and Giant Chess time limit per test 2 seconds memory limit per test 256 megabytes2015-09-0 ...
crm
CRM 开发需求分析存储所有的客户咨询信息避免重复数据客户的多次跟踪记录客户来源.成单率分析每个销售只能修改自己的客户信息报名流程开发班级管理学员成绩,出勤管理问卷调查校区管理 ...

利用cookies跳过登陆验证码

完整代码

利用cookies跳过登陆验证码的更多相关文章

随机推荐

热门专题