关于微信小程序爬虫关于token自动更新问题
现在很多的app都很喜欢在微信或者支付宝的小程序内做开发,毕竟比较方便、安全、有流量、不需要再次下载app,好多人会因为加入你让他下载app他会扭头就走不用你的app,毕竟做类似产品的不是你一家。
之前做过很多微信小程序的爬虫任务,今天做下记录,防止很久不用后就会忘记,微信小程序分为两大类:
1、是不需要登录的(这种的话不做分析,毕竟没什么反爬)
2、需要登录的
2.1 登录一次之后token永久有效
2.2 登录一次token几分钟内到几小时内失效
2.2.1 登录后一段时间后token时候需要再次调用微信内部方法生成code去换取token(本次主要做的)
2.2.2 跟2.2.1类似,然后又加了一道校验,比如图片验证码,这个类似于微信公众号的茅台预约那种(本次不做分析)
微信小程序的登录其实跟其他的web登录不太一样,一般的web登录或者是app登录基本上就是用户名+密码+验证码(图片或者短信)就可以,微信的逻辑是假如你需要登录的话需要获得用户的授权,之后调用微信的内部方法生成一个code,code只能用一次之后就实效,微信解释这个code有效期是5分钟左右。
这里是具体流程:https://developers.weixin.qq.com/community/develop/doc/000c2424654c40bd9c960e71e5b009?highLine=code
之前爬取过的一个小程序他的反爬是token有效期一个小时,然后单次token可用大概100次左右,当单个token使用次数或者单小时内使用次数超过100次就直接封号处理,24小时内也有频率控制,所以就需要我每小时一次每小时一次的去获取token,当然,因为我是个程序猿,所以我不能每小时手动的去获取这个token,比较这不是我们的风格。
这里需要的是python+fiddler+appium+模拟器,大致的思路是通过appium去操控模拟器模拟点击微信的小程序,定期的去做点击,然后fiddler去从请求的头部信息中获取到token,之后写到本地文件中,然后python程序定时的去判断这个本地文件是否进行了更新,更新了的话通过正则来获取到token_list之后去最后一个,因为有可能是当前保存的token已经失效了,小程序还会再次去拿这个token尝试请求一下,假如失效了会调用微信的内部方法生成code来换取token,我这里的爬虫主代码是运行在服务器的,所有又增加了Redis来存储token。
一、微信模拟点击
微信按照需求条件时间频率模拟点击、滑动、退出等操作,以下的ding_talk的send_msg是增加的钉钉发送消息,此处不再添加,有需求的可以自己查看钉钉机器人文档或者依据自己的需求调整自己的消息提醒。

import time
import logging from appium import webdriver
from ding_talk import send_msg
from handle_file import EnToken
from conf.dbr import RedisClient
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from config import * LOG_FORMAT = "%(asctime)s - %(levelname)s - line:%(lineno)s - msg:%(message)s"
logging.basicConfig(level=logging.INFO, format=LOG_FORMAT)
# logging.FileHandler(filename='app.log', encoding='utf-8') # 微信获取en token
class WeChat(object):
def __init__(self):
"""
初始化
"""
# 驱动配置
self.desired_caps = {
'platformName': PLATFORM,
'deviceName': DEVICE_NAME,
'appPackage': APP_PACKAGE,
'appActivity': APP_ACTIVITY,
'noReset': True
}
self.driver = webdriver.Remote(DRIVER_SERVER, self.desired_caps)
self.wait = WebDriverWait(self.driver, TIMEOUT)
self.hours_en = 60 * 60 * 1.1 # en控制1.1小时模拟点击一次
self.date_start_en = time.time() # en开始时间
self.date_end_en = 0 # en超过此时间后再次运行
# self.date_end_en = self.date_start_en + self.hours_en # en超过此时间后再次运行
self.week = 60 * 60 * 24 * 7 # 按照周的频率对xd进行token更新
self.week_start_xd = time.time() # xd的开始时间
self.week_end_xd = 0 # 根据周控制频率控制再次开启时间
self.week_start_xiu = time.time() # xd的开始时间
self.week_end_xiu = 0 # 根据周控制频率控制再次开启时间 def login(self):
"""
登录微信
:return:
"""
# 登录按钮
a = time.time()
try:
login = self.wait.until(EC.presence_of_element_located((By.ID, 'com.tencent.mm:id/f34')))
login.click()
except Exception as e:
# print(e)
logging.info(f'failed login {e}')
b = time.time() - a
# print('点击登录', b)
logging.info(f'click login,use time {b}')
# 手机输入
try:
phone = self.wait.until(EC.presence_of_element_located((By.ID, 'com.tencent.mm:id/bem')))
phone.set_text(USERNAME)
except Exception as e:
# print(e)
logging.info(f'something wrong{e}')
c = time.time() - a - b
# print('手机号输入', c)
logging.info(f'send keys phone nums use time {c}')
# 下一步
try:
next = self.wait.until(EC.element_to_be_clickable((By.ID, 'com.tencent.mm:id/dw1')))
next.click()
except Exception as e:
logging.info(f'something wrong{e}')
d = time.time() - a - b - c
logging.info(f'click next bottom use time {c}')
# 密码
password = self.wait.until(EC.presence_of_element_located((By.XPATH, '//*[@text="请填写微信密码"]')))
password.set_text(PASSWORD)
e = time.time() - a - b - c - d
logging.info(f'send keys password use time {e}')
# 提交
# submit = self.wait.until(EC.element_to_be_clickable((By.ID, 'com.tencent.mm:id/dw1')))
submit = self.wait.until(EC.element_to_be_clickable((By.XPATH, '//*[@text="登录"]')))
submit.click()
f = time.time() - a - b - c - d - e
logging.info(f'commit password use time {f}') def run(self):
"""
入口
:return:
"""
# 滑动之后等待出现en小程序
self.slide_down()
time.sleep(10)
# 点击进入en小程序 self.touch_en()
if self.week_end_xd < self.week_start_xd:
self.week_start_xd = time.time()
self.week_end_xd = self.week_start_xd + self.week
print('xd点击')
self.touch_xd() elif self.week_end_xiu < self.week_start_xiu:
self.week_end_xiu = time.time() + self.week
print('xiu')
self.touch_xiu() time.sleep(10)
# 退出小程序
self.driver_closed()
print('driver closed')
emt = EnToken()
token_res = emt.token_2_redis()
if not token_res:
print('需要发送失败消息')
return False
return True def slide_down(self):
"""
滑动微信屏幕之后点击小程序
:return:
"""
window_size_phone = self.driver.get_window_size()
# print(window_size_phone)
phone_width = window_size_phone.get('width')
phone_height = window_size_phone.get('height')
# print(phone_width, phone_height)
time.sleep(15)
x1 = phone_width * 0.5
y1 = phone_height * 0.7
y2 = phone_height * 0.26
# print('准备向下滑动')
logging.info(f'prepare slide down')
a = time.time()
self.driver.swipe(x1, y2, x1, y1, 2050)
# print('向下滑动完成', time.time() - a)
logging.info(f'slide down success use time {time.time() - a}') def touch_en(self):
"""
每次进来之后都需要判断是否到了时间,若时间到了之后才可执行点击操作
:param : en 代表en; xd 代表xd; xiu 代表xiu.
:return: None 无返回值
"""
print(self.date_end_en, time.time())
if self.date_end_en < time.time(): # 此时的时候已经超时,需要再次从新进行点击
print('en模拟点击')
# 从新定义开始结束时间
print(self.date_end_en, time.time())
self.date_end_en = time.time() + self.hours_en # 再次更改end time为n小时后
print(self.date_end_en, time.time())
try:
# print('id定位en')
en_app = self.wait.until(
EC.presence_of_element_located((By.XPATH, f"//android.widget.TextView[@text='textname…']")))
# en_master = self.wait.until(EC.presence_of_element_located((By.ID, 'com.tencent.mm:id/hu')))
# en_master = self.wait.until(
# EC.presence_of_element_located((By.XPATH, "//android.widget.TextView[@text='textname']")))
en_app.click()
logging.info(f'located by app_name en')
except Exception as error:
# print(e, 'id定位失败')
logging.info(f'failed located by id:{error}')
time.sleep(20)
# 关闭小程序按钮点击
print('close the en app')
close_button = self.wait.until(EC.presence_of_element_located((By.XPATH, f"//android.widget.FrameLayout[2]/android.widget.ImageButton")))
close_button.click()
print('点击了关闭小程序') def touch_xd(self):
"""
需要考虑是否已经登录状态还是需要再次登录
:return:
"""
# 点击后进入到小程序
logging.info('click app xd')
xd_app = self.wait.until(EC.presence_of_element_located((By.XPATH, "//android.widget.TextView[@text='textname']")))
xd_app.click()
time.sleep(20)
# 页面出现需要获取到你的定位的时候需要点击允许
print('点击确认获取当前位置')
self.driver.tap([(510, 679)], 500) # 点击进入到个人中心
time.sleep(10)
logging.info('click personal xd')
self.driver.tap([(540, 1154)], 500)
# 点击快速登录进行登录
time.sleep(10)
logging.info('click login xd')
self.driver.tap([(270, 1030)], 500)
# 点击同意获取头像信息
time.sleep(10)
logging.info('同意获取头像等相关信息')
self.driver.tap([(510, 775)], 500)
time.sleep(20)
# 关闭小程序按钮点击
print('close the guaishou app')
close_button = self.wait.until(
EC.presence_of_element_located((By.XPATH, f"//android.widget.FrameLayout[2]/android.widget.ImageButton")))
close_button.click()
print('结束')
time.sleep(30) def touch_xiu(self):
"""
xiu模拟点击,需要考虑是否需要登录状态下
:return:
"""
# 点击后进入到小程序
logging.info('click app xiu')
xiu_app = self.wait.until(EC.presence_of_element_located((By.XPATH, "//android.widget.TextView[@text='xiu']")))
xiu_app.click()
# 若页面显示需要确认获取当前位置的话需要点击确认
logging.info('click confirm xiu')
time.sleep(15)
confirm_loc = self.wait.until(
EC.presence_of_element_located((By.XPATH, "//android.widget.Button[@text='确定']")))
confirm_loc.click()
# 点击个人中心
logging.info('click personal xiu')
time.sleep(5)
try:
personal = self.wait.until(
EC.presence_of_element_located((By.XPATH, "//android.view.View[@content-desc='个人中心']")))
personal.click()
except Exception as e:
print(e)
# 点击快速登录进行登录
logging.info('click login xiu')
time.sleep(5)
try:
login = self.wait.until(EC.presence_of_element_located((By.XPATH, "//android.view.View[@content-desc='立即登录']")))
login.click()
except Exception as e:
print('xiu已经登录,不需要再次点击确认登录')
time.sleep(30) def driver_closed(self):
self.driver.quit() if __name__ == '__main__':
conn_r = RedisClient(db=10)
count_1 = 0
# start_time = time.time()
# end_time = time.time() + 60 * 60 * 1
we_chat = WeChat()
try:
while 1:
if conn_r.r_size() < 3: # 监控Redis情况,当Redis中无数据后开始运行一次
res = we_chat.run() # 操作微信做操作点击en小程序生成token
if not res:
count_1 += 1
if count_1 > 10:
break # 当失败十次之后跳出循环
# 此处增加限制,每次生成token之后一个小时后才会产生新的token,防止一个token多次使用导致被封号
time.sleep(60*60)
else:
time.sleep(60*60) # 当有数据的时候等待五分钟
we_chat.driver = webdriver.Remote(DRIVER_SERVER, we_chat.desired_caps)
we_chat.wait = WebDriverWait(we_chat.driver, TIMEOUT)
except Exception as e:
msg = f'业务报警:' \
f'\n en获取token出现问题' \
f'\n{e}'
send_msg(msg)
# print(e, type(e))
logging.info(msg)
weixin.py

import os # 平台
PLATFORM = 'Android' # 设备名称 通过 adb devices -l 获取
DEVICE_NAME = 'MI_9' # APP路径
APP = os.path.abspath('.') + '/weixin.apk' # APP包名
APP_PACKAGE = 'com.tencent.mm' # 入口类名
APP_ACTIVITY = '.ui.LauncherUI' # Appium地址
DRIVER_SERVER = 'http://localhost:4723/wd/hub'
# 等待元素加载时间
TIMEOUT = 10 # 微信手机号密码
USERNAME = 'wechatname'
PASSWORD = 'wechatpwd' # 滑动点
FLICK_START_X = 300
FLICK_START_Y = 300
FLICK_DISTANCE = 700
config.py
以下是处理文件,将token获取到后放到Redis中,或者你可以依照你的想法调整

import re
import os
import logging from conf.dbr import RedisClient LOG_FORMAT = "%(asctime)s - %(levelname)s - line:%(lineno)s - msg:%(message)s"
logging.basicConfig(level=logging.DEBUG, format=LOG_FORMAT) # 处理en token到Redis
class EnToken(object):
def __init__(self):
# self.token_path = 'F:\\en.txt'
# self.token_path = 'F:\\xiu.txt'
# self.token_path = 'F:\\xd.txt'
self.conn = RedisClient(db=10) # 解析日维度价格
self.conn_en = RedisClient(db=9) # 解析当前经纬度范围内店铺点位 # 处理en token文件,从文件中读取到token之后只取最后一个,取到之后删除本地文件
@staticmethod
def handle_en_txt():
token_dict = {}
path_token_list = [
('en', '>(e.*?)-->'),
('xd', 'headers-->(.*?)-->'),
('xiu', r'>(\d+)-->'),
]
for i in path_token_list:
token_path = f'F:\\{i[0]}.txt'
token_re = i[-1]
if os.path.exists(token_path):
with open(token_path, mode='r', encoding='utf-8') as f:
token_str = f.read()
# print(token_str)
# token_list = re.findall('>(e.*?)-->', token_str)
# token_list = re.findall('>(Q.*?)-->', token_str)
# token_list = re.findall('>(\d+)-->', token_str)
token_list = re.findall(token_re, token_str)
print(token_list)
if token_list:
token = token_list[-1]
print(token)
token_dict[i[0]] = token
os.remove(token_path) # 删除掉
# return token
else:
# print('file_en_dont_exit')
logging.info('file_en_dont_exit')
return token_dict # 将token放到Redis中
def token_2_redis(self):
"""
假如token存在的话 则根据token的最后几位做key放入到Redis中
:return:
"""
token_dict = self.handle_en_txt()
print(token_dict)
if token_dict:
for token_items in token_dict.items():
token_key = token_items[0]
token_val = token_items[-1]
self.conn.set(token_key, token_val, over_time=None)
# self.conn.set(token_key, token, over_time=60*65) # 设置有效时长65分钟之后失效
# self.conn_en.set(token_key, token, over_time=60*65) # 设置有效时长65分钟之后失效
logging.info(f'token success {token_key,token_val}')
return True
else:
logging.info('token dons"t exist')
self.conn.close()
self.conn_en.close() if __name__ == '__main__':
en = EnToken()
en.token_2_redis()
handle_file.py
二、配置fiddler获取请求头的信息写到本地文件
修改fiddlerscript添加以下内容,在做数据请求的以下增加下面内容

if (oSession.oRequest["Host"]=="这里是请求的host") {
var filename = "F:\en.txt";
var curDate = new Date();
var logContent = 'en' + "[" + curDate.toLocaleString() + "]";
var sw : System.IO.StreamWriter;
if (System.IO.File.Exists(filename)){
sw = System.IO.File.AppendText(filename);
sw.Write(logContent + 'oSession.oRequest.headers-->' + oSession.oRequest.headers['x-wx-token'] + '-->' + oSession.oRequest.headers +'\n');
// sw.Write("Request header:" + "\n" + oSession.oRequest.headers);
// sw.Write(wap_s + '\n\n')
}
else{
sw = System.IO.File.CreateText(filename);
sw.Write(logContent + 'oSession.oRequest.headers-->' + oSession.oRequest.headers['x-wx-token'] + '-->' + '\n');
// sw.Write("Request header:" + "\n" + oSession.oRequest.headers);
// sw.Write(wap_s + '\n\n')
}
sw.Close();
sw.Dispose();
}
fiddler
三、主爬虫业务代码
此处按照自己的需求逻辑调整自己的业务代码。
如果对你有所帮助就请作者喝杯咖啡吧

关于微信小程序爬虫关于token自动更新问题的更多相关文章
- 微信小程序发布新版本时自动提示用户更新
如图,当小程序发布新的版本后,用户如果之前访问过该小程序,通过已打开的小程序进入(未手动删除),则会弹出这个提示,提醒用户更新新的版本.用户点击确定就可以自动重启更新,点击取消则关闭弹窗,不再更新. ...
- 利用机器学习实现微信小程序-加减大师自动答题
之前有看到微信小程序<跳一跳>别人用python实现自动运行,后来看到别人用hash码实现<加减大师>的自动答题领取娃娃,最近一直在研究深度学习,为啥不用机器学习实现呢?不就是 ...
- 全栈项目|小书架|微信小程序-登录及token鉴权
小程序登录 之前也写过微信小程序登录的相关文章: 微信小程序~新版授权用户登录例子 微信小程序-携带Token无感知登录的网络请求方案 微信小程序开通云开发并利用云函数获取Openid 也可以通过官方 ...
- 微信小程序常见问题集合(长期更新)
最新更新: 新手跳坑系列:推荐阅读:<二十四>request:fail错误(含https解决方案)(真机预览问题 跳坑指南<七十>如何让微信小程序服务类目审核通过 跳坑六十九: ...
- 微信小程序setData复杂数组的更新、删除、添加、拼接
众所周知,微信小程序里所有对数据的修改只有在setData里修改才会在页面上渲染.在此分享小程序里复杂数组的更新.删除.添加.拼接 初始数据 数组嵌套对象 data: { cartList = [{ ...
- 微信小程序实现滚动视频自动播放(未优化)
先看看大概效果 1.首先需要了解微信API: wx.createIntersectionObserver(Object component, Object options) 创建并返 ...
- 微信小程序云开发-数据库-用户更新数据并提交
一.wxml增加input输入框和[更新商品价格]按钮 在商品详情页新增[更新商品价格]按钮,wxml新增部分代码,input绑定事件,用于获取用户输入的内容.按钮绑定事件,用于更新商品价格. 二. ...
- 微信小程序踩坑集合
1:官方工具:https://mp.weixin.qq.com/debug/w ... tml?t=1476434678461 2:简易教程:https://mp.weixin.qq.com/debu ...
- 微信小程序学习指南
作者:初雪链接:https://www.zhihu.com/question/50907897/answer/128494332来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明 ...
随机推荐
- Nginx 真实的 IP
配置 Nginx 如果你的 Java 项目使用了 Nginx 代理,那么还需要进行以下配置,才能顺利获取到真实的 IP,否则只能获取到 127.0.0.1. 在 Nginx 的配置文件里,找到你 Ja ...
- 狂神说SpringBoot02:运行原理初探
狂神说SpringBoot系列连载课程,通俗易懂,基于SpringBoot2.2.5版本,欢迎各位狂粉转发关注学习. 微信公众号:狂神说(首发) Bilibili:狂神说Java(视频) 未经作 ...
- 【springcloud】一文带你搞懂API网关
作者:aCoder2013 https://github.com/aCoder2013/blog/issues/35 前言 假设你正在开发一个电商网站,那么这里会涉及到很多后端的微服务,比如会员.商品 ...
- 【ArcEngine】AE连接SDE_For_SQLServer参数设置
SDE for sqlserver直连的ArcEngine访问 Ae中的数据的连接实质还是采用服务连接的方式.连接代码如下: 1 public IWorkspace Getworkspace() 2 ...
- 关于ubuntu使用的那些事儿
时间:2019-04-09 整理:PangYuaner 标题:Ubuntu18.04安装微信(Linux通用) 地址:https://www.cnblogs.com/dotnetcrazy/p/912 ...
- Linux centos7 nginx 的安装
2021-08-18 1. 环境 # 操作系统[root@test007 /]# uname -aLinux test007 3.10.0-862.el7.x86_64 #1 SMP Fri Apr ...
- 各种插值法的python实现
一维插值 插值不同于拟合.插值函数经过样本点,拟合函数一般基于最小二乘法尽量靠近所有样本点穿过.常见插值方法有拉格朗日插值法.分段插值法.样条插值法. 拉格朗日插值多项式:当节点数n较大时,拉格朗日插 ...
- [考试总结]noip模拟41
发现长时间鸽博客会导致 rp--,所以今天来补一补 这个题目其实不是很毒瘤,然而是非常毒瘤... 题目不说请就是非常非常的烦人 首先 \(T1\) 就整整有两个歧义的地方,也就是说我们一共有 \(4\ ...
- QT开发实战一:图片显示
测试平台 宿主机平台:Ubuntu 12.04.4 LTS 目标机:Easy-ARM IMX283 目标机内核:Linux 2.6.35.3 QT版本:Qt-4.7.3 Tslib版本:tslib-1 ...
- 10分钟学会VS NuGet包私有化部署
前言 我们之前实现了打包发布NuGet,但是发布后的引用是公有的,谁都可以访问,显然这种方式是不可取的. 命令版本:10分钟学会Visual Studio将自己创建的类库打包到NuGet进行引用(ne ...