知乎模拟登录，支持验证码和保存 Cookies

 import requests

 import time

 import re

 import base64

 import hmac

 import hashlib

 import json

 import matplotlib.pyplot as plt

 from http import cookiejar

 from PIL import Image

 HEADERS = {

     'Connection': 'keep-alive',

     'Host': 'www.zhihu.com',

     'Referer': 'https://www.zhihu.com/',

     'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 '

                   '(KHTML, like Gecko) Chrome/56.0.2924.87 Mobile Safari/537.36'

     }

 LOGIN_URL = 'https://www.zhihu.com/signup'

 LOGIN_API = 'https://www.zhihu.com/api/v3/oauth/sign_in'

 FORM_DATA = {

     'client_id': 'c3cef7c66a1843f8b3a9e6a1e3160e20',

     'grant_type': 'password',

     'source': 'com.zhihu.web',

     'username': '',

     'password': '',

     # 改为'cn'是倒立汉字验证码

     'lang': 'en',

     'ref_source': 'homepage'

 }

 class ZhihuAccount(object):

     def __init__(self):

         self.login_url = LOGIN_URL

         self.login_api = LOGIN_API

         self.login_data = FORM_DATA.copy()

         self.session = requests.session()

         self.session.headers = HEADERS.copy()

         self.session.cookies = cookiejar.LWPCookieJar(filename='./cookies.txt')

     def login(self, username=None, password=None, load_cookies=True):

         """

         模拟登录知乎

         :param username: 登录手机号

         :param password: 登录密码

         :param load_cookies: 是否读取上次保存的 Cookies

         :return: bool

         """

         if load_cookies and self.load_cookies():

             if self.check_login():

                 return True

         headers = self.session.headers.copy()

         headers.update({

             'authorization': 'oauth c3cef7c66a1843f8b3a9e6a1e3160e20',

             'X-Xsrftoken': self._get_token()

         })

         username, password = self._check_user_pass(username, password)

         self.login_data.update({

             'username': username,

             'password': password

         })

         timestamp = str(int(time.time()*1000))

         self.login_data.update({

             'captcha': self._get_captcha(self.login_data['lang'], headers),

             'timestamp': timestamp,

             'signature': self._get_signature(timestamp)

         })

         resp = self.session.post(self.login_api, data=self.login_data, headers=headers)

         if 'error' in resp.text:

             print(json.loads(resp.text)['error']['message'])

         elif self.check_login():

             return True

         print('登录失败')

         return False

     def load_cookies(self):

         """

         读取 Cookies 文件加载到 Session

         :return: bool

         """

         try:

             self.session.cookies.load(ignore_discard=True)

             return True

         except FileNotFoundError:

             return False

     def check_login(self):

         """

         检查登录状态，访问登录页面出现跳转则是已登录，

         如登录成功保存当前 Cookies

         :return: bool

         """

         resp = self.session.get(self.login_url, allow_redirects=False)

         if resp.status_code == 302:

             self.session.cookies.save()

             print('登录成功')

             return True

         return False

     def _get_token(self):

         """

         从登录页面获取 token

         :return:

         """

         resp = requests.get("https://www.zhihu.com")

         cookies = resp.cookies

         token = cookies.items()[0][1]

         return token

     def _get_captcha(self, lang, headers):

         """

         请求验证码的 API 接口，无论是否需要验证码都需要请求一次

         如果需要验证码会返回图片的 base64 编码

         根据 lang 参数匹配验证码，需要人工输入

         :param lang: 返回验证码的语言(en/cn)

         :param headers: 带授权信息的请求头部

         :return: 验证码的 POST 参数

         """

         if lang == 'cn':

             api = 'https://www.zhihu.com/api/v3/oauth/captcha?lang=cn'

         else:

             api = 'https://www.zhihu.com/api/v3/oauth/captcha?lang=en'

         resp = self.session.get(api, headers=headers)

         show_captcha = re.search(r'true', resp.text)

         if show_captcha:

             put_resp = self.session.put(api, headers=headers)

             json_data = json.loads(put_resp.text)

             img_base64 = json_data['img_base64'].replace(r'\n', '')

             with open('./captcha.jpg', 'wb') as f:

                 f.write(base64.b64decode(img_base64))

             img = Image.open('./captcha.jpg')

             if lang == 'cn':

                 plt.imshow(img)

                 print('点击所有倒立的汉字，按回车提交')

                 points = plt.ginput(7)

                 capt = json.dumps({'img_size': [200, 44],

                                    'input_points': [[i[0]/2, i[1]/2] for i in points]})

             else:

                 img.show()

                 capt = input('请输入图片里的验证码：')

             # 这里必须先把参数 POST 验证码接口

             self.session.post(api, data={'input_text': capt}, headers=headers)

             return capt

         return ''

     def _get_signature(self, timestamp):

         """

         通过 Hmac 算法计算返回签名

         实际是几个固定字符串加时间戳

         :param timestamp: 时间戳

         :return: 签名

         """

         ha = hmac.new(b'd1b964811afb40118a12068ff74a12f4', digestmod=hashlib.sha1)

         grant_type = self.login_data['grant_type']

         client_id = self.login_data['client_id']

         source = self.login_data['source']

         ha.update(bytes((grant_type + client_id + source + timestamp), 'utf-8'))

         return ha.hexdigest()

     def _check_user_pass(self, username, password):

         """

         检查用户名和密码是否已输入，若无则手动输入

         """

         if username is None:

             username = self.login_data.get('username')

             if not username:

                 username = input('请输入手机号：')

         if len(username) == 11 and username.isdigit() and '+86' not in username:

             username = '+86' + username

         if password is None:

             password = self.login_data.get('password')

             if not password:

                 password = input('请输入密码：')

         return username, password

 if __name__ == '__main__':

     account = ZhihuAccount()

     account.login(username=None, password=None, load_cookies=True)

GitHub：https://github.com/liyunchen/Zhihu-Login/blob/master/zhihu_login.py

知乎模拟登录，支持验证码和保存 Cookies的更多相关文章

C# 利用 HttpWebRequest 和 HttpWebResponse 模拟登录有验证码的网站
原文:C# 利用 HttpWebRequest 和 HttpWebResponse 模拟登录有验证码的网站我们经常会碰到需要程序模拟登录一个网站,那如果网站需要填写验证码的要怎样模拟登录呢?这篇文章 ...
Java模拟登录带验证码的教务系统（原理详解）
一:原理客户端访问服务器,服务器通过Session对象记录会话,服务器可以指定一个唯一的session ID作为cookie来代表每个客户端,用来识别这个客户端接下来的请求. 我们通过Chrome浏 ...
php_curl模拟登录有验证码实例
<?php/** * @author 追逐__something * @version $id */define('SCRIPT_ROOT',dirname(__FILE__).'/');$ac ...
Python爬虫模拟登录带验证码网站
问题分析: 1.爬取网站时经常会遇到需要登录的问题,这是就需要用到模拟登录的相关方法.python提供了强大的url库,想做到这个并不难.这里以登录学校教务系统为例,做一个简单的例子. 2.首先得明白 ...
(转)php_curl模拟登录有验证码实例
三年来的第一篇博客,还记得那是一个夜深人静的夜晚, 独自一人坐在不到10平米的小屋里,指头迅速的敲打着键盘,这天真TMD热.BJ生活啊. 唉! 最近一直在参加一个论坛批量发帖的项目开发. 模拟登录,模 ...
[PHP自动化－进阶]002.CURL模拟登录带有验证码的网站
引言:继前文<模拟登录并采集数据>,大家似乎看不过瘾,这会再出一发,模拟实现带验证码网站的登录. 这篇文章主要介绍了PHP使用CURL实现对带有验证码的网站进行模拟登录的方法,可以帮助读者 ...
php使用curl模拟登录带验证码的网站[开发篇]
需求是这样的,需要登录带验证码的网站,获取数据,但是不可能人为一直去记录数据,想通过自动采集的方式进行,如下是试验出来的结果代码!有需要的可以参考下! <?php namespace Home\ ...
python爬虫实战（四）--------豆瓣网的模拟登录（模拟登录和验证码的处理----scrapy）
在利用scrapy框架爬各种网站时,一定会碰到某些网站是需要登录才能获取信息. 这两天也在学习怎么去模拟登录,通过自己码的代码和借鉴别人的项目,调试成功豆瓣的模拟登录,顺便处理了怎么自动化的处理验证码 ...
php使用curl模拟登录带验证码的网站
需求是这样的,需要登录带验证码的网站,获取数据,但是不可能人为一直去记录数据,想通过自动采集的方式进行,如下是试验出来的结果代码!有需要的可以参考下! <?php namespace Home\ ...

随机推荐

解决Hbase启动后，hmaster会在几秒钟后自动关闭（停掉）！！！
在日志(身为小白白的我,一开始日志在哪我都不知道!路径:/usr/local/hadoop/app/hbase-0.98.8/logs/hbase-hadoop-master-Master.log(也 ...
JS json对象(Object)和字符串(String)互转方法
[JS json对象(Object)和字符串(String)互转方法] 参考:https://blog.csdn.net/wenqianla2550/article/details/78232706 ...
对于使用secureFX上传文件到centos7 的时候，以及不同的用户解压文件，对于文件操作权限的实验
本以为以一个用户胡如root登录了SecureFx,之后选择了root的家目录下的一个software目录,之后上传以root用户远程登录LINUX系统查看文件之后再验证普通用户zhaijh登录 ...
计算机二级-C语言-程序填空题-190109记录-对二维字符串数组的处理
//给定程序,函数fun的功能是:求出形参ss所指字符串数组中最长字符串的长度,将其余字符串右边用字符*补齐,使其与最长的字符串等长.ss所指字符串数组中共有M个字符串,且串长<N. //重难点 ...
Springmvc-crud-06（路径忘记加上“/”错误）
错误: 原因:自己马虎忘记加" / ",罚继续写代码┭┮﹏┭┮ 前端代码: <h1>添加功能</h1> <form action="te ...
ZooKeeper-集群模式配置
(1)下载安装zookeeper,进行基本的配置,详细教程:https://www.cnblogs.com/excellencesy/p/11956485.html (2)在三台虚拟机上分别按照以上方 ...
ES-windows版本设置远程访问
1,官网下载 2,下载完解压 3,修改配置文件 elasticsearch.yml network.host: 0.0.0.0http.port: 9200transport.host: localh ...
netty（七）buffer源码学习2
概述文章主要介绍的是PoolArena,PoolChunk,PoolSubpage 三个类的源码 PoolArena PoolArena 是netty 的内存池实现类,通过预先申请一块大的空间,然后 ...
netty(一)---服务端源码阅读
NIO Select 知识 select 示例代码 : //创建 channel 并设置为非阻塞 ServerSocketChannel serverChannel = ServerSocketCha ...
13，viewport
set viewport:~是一种函数,功能是为图形输出设置当前视口. 怎样处理移动端1px被渲染成2px的问题(略)

知乎模拟登录，支持验证码和保存 Cookies

知乎模拟登录，支持验证码和保存 Cookies的更多相关文章

随机推荐

热门专题