爬取某省公共资源交易中心

通过抓包数据可知

这个data是我们所需要的数据,但是已经通过加密隐藏起来了

分析

  1. 首先这是个json文件,我们可以用请求参数一个一个搜

    但是由于我们已经知道了这是个json

    所以我们可以直接偷个懒
  2. 直接搜索json.parse



然后还看见了state 刚好也是返回的值



3. 根据上述请求参数我们看见了ts是一个时间戳,

然后往周围找找



所以可以判断这是个AES加密

基本这个函数就是AES加密的,我们把代码抠出来就能直接运行了,但是抠出来之后发现

这就是个常规AES加密,所以我们直接通过python改写

Python代码

# -*- coding: utf-8 -*-
# @Time : 2022/7/13 16:39
# @Author : lzc
# @Email : hybpjx@163.com
# @Software: PyCharm
import base64
import datetime
import hashlib
import json
import time
import requests
from Cryptodome.Cipher import AES class PublicResourceCenter: item = {}
session = requests.session() list_url = '(为保证网站安全性)' detail_post_url = "(为保证网站安全性)" API = APIInvoke() secret_key = 'BE45D593014E4A4EB4449737660876CE'[0:32] # 密钥 iv = "A8909931867B0425"[0:16] # 初始向量 # 需要补位,str不是16的倍数那就补足为16的倍数
def add_to_16(self, value):
while len(value) % 16 != 0:
value += '\0'
return str.encode(value) # 解密方法
def aes_decrypt(self, key, t, iv):
aes = AES.new(self.add_to_16(key), AES.MODE_CBC, self.add_to_16(iv)) # 初始化加密器
base64_decrypted = base64.decodebytes(t.encode(encoding='utf-8')) # 优先逆向解密 base64 成 bytes
decrypted_text = str(aes.decrypt(base64_decrypted), encoding='utf-8').replace('\0', '') # 执行解密密并转码返回str
return decrypted_text def less_data(self, less_data):
now = datetime.datetime.now()
# 在获取超过当前时间30天的时间
delta = datetime.timedelta(days=less_data)
n_days = now - delta
return str(n_days).split(' ')[0] def get_sign_data(self, sign):
# md5 加密
portal_sign = hashlib.md5(sign.encode(encoding='utf-8')).hexdigest() return portal_sign def timestamp(self, shijian):
s_t = time.strptime(shijian, "%Y-%m-%d %H:%M:%S")
mkt = int(time.mktime(s_t))
return mkt def parse(self):
padding = lambda detail_decrypted_str: detail_decrypted_str[:detail_decrypted_str.rfind("}") + 1] for url in range(1, 6):
ts = int(time.time() * 1000)
# 封装请求体
js_data = {"pageNo": url, "pageSize": 20, "total": 5679, "AREACODE": "", "M_PROJECT_TYPE": "",
"KIND": "GCJS",
"GGTYPE": "1", "PROTYPE": "", "timeType": "6", "BeginTime": f"{self.less_data(180)} 00:00:00",
"EndTime": f"{self.less_data(0)} 23:59:59", "createTime": [], "ts": ts}
# 伪装sign
sign = f'3637CB36B2E54A72A7002978D0506CDFBeginTime{js_data["BeginTime"]}createTime[]EndTime{js_data["EndTime"]}GGTYPE{js_data["GGTYPE"]}KIND{js_data["KIND"]}pageNo{js_data["pageNo"]}pageSize{js_data["pageSize"]}timeType{js_data["timeType"]}total{js_data["total"]}ts{js_data["ts"]}'
# 执行公用的方法 返回值是未经过加密的 数据
encrypted_str = self.encrypted_str_get(self.list_url, js_data, sign)
# 执行AES解密的方法 把 key 和IV 传入
decrypted_str = self.aes_decrypt(self.secret_key, encrypted_str, self.iv)
js_text = json.loads(padding(decrypted_str))
for data in js_text['Table']:
self.item['title_name'] = data['NAME'].replace("<br>", "")
self.item['title_date'] = data.get('TM')
self.item[
'title_url'] = f"https://ggzyfw.fujian.gov.cn/web/index.html#/business/detail?cid={data['M_ID']}&type={data['KIND']}"
if self.item['title_date'] is None:
self.item['title_date'] = time.strftime('%Y-%m-%d %H:%M:%S')
# 封装请求体
# 1657709230
# 执行js代码
payload = {"m_id": data['M_ID'], "type": data['GGTYPE'], "ts": int(time.time() * 1000)}
# 伪装详情页的sign sign = "3637CB36B2E54A72A7002978D0506CDFm_id216262ts1657708358505type1"
detail_sign = f"3637CB36B2E54A72A7002978D0506CDFm_id{payload['m_id']}ts{payload['ts']}type{payload['type']}"
# 执行公用的方法 返回值是未经过加密的 数据
encrypted_str = self.encrypted_str_get(self.detail_post_url, payload, detail_sign)
# 执行AES解密的方法 把 key 和IV 传入
detail_decrypted_str = self.aes_decrypt(self.secret_key, encrypted_str, self.iv)
content_html = json.loads(padding(detail_decrypted_str))
self.item['content_html'] = content_html.get("Contents", "")
self.API.data_update(self.item)
self.close() def encrypted_str_get(self, url, js_data, sign):
portal_sign = self.get_sign_data(sign)
headers = {
'portal-sign': portal_sign,
'Content-Type': 'application/json;charset=UTF-8',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/103.0.0.0 Safari/537.36',
} response = self.session.post(url, headers=headers, json=js_data) encrypted_str = response.json() return encrypted_str['Data'] def close(self):
self.session.close() if __name__ == '__main__':
pr = PublicResourceCenter()
pr.parse()

JS逆向实战3——AESCBC 模式解密的更多相关文章

  1. JS逆向实战6-- x轴 y轴 过点触验证码

    点触验证码是一种常见的反爬手段 解决方案有两种:一种是直接解决,这需要深度学习机器学习等图像处理技术,以大量的数据训练识别模型,最终达到模型足矣识别图片中的文字提示和应该点击的区域之间的对应关系. 这 ...

  2. JS逆向实战8——某网实战(基于golang-colly)

    其实本章算不上逆向教程 只是介绍golang的colly框架而已 列表页分析 根据关键字搜索 通过抓包分析可知 下一页所请求的参数如下 上图标红的代表所需参数 所以其实我们真正需要的也就是Search ...

  3. JS逆向实战7-- 某省在线审批网站params 随机生成

    参数分析 我们首先通过抓包 发现这个就是我们所需要的数据 然后我们通过fidder 发起请求 结果: 通过我们反复测试 发现这个params的参数是每次请求中都会变化的 断点查找 我们通过 这个t参数 ...

  4. JS逆向实战5--JWT TOKEN x_sign参数

    什么是JWT JWT(JSON WEB TOKEN):JSON网络令牌,JWT是一个轻便的安全跨平台传输格式,定义了一个紧凑的自包含的方式在不同实体之间安全传输信息(JSON格式).它是在Web环境下 ...

  5. JS逆向实战4--cookie——__jsl_clearance_s 生成

    分析 网站返回状态码521,从浏览器抓包来看,浏览器一共对此地址请求了三次(中间是设置cookie的过程): 第一次请求:网站返回的响应状态码为 521,响应返回的为经过 混淆的 JS 代码:但是这些 ...

  6. JS逆向实战2--cookie-AcwScV2加密—某招标信息网

    cookies的获取 首先拿到第一次访问原链接 拿到acw_tc的值,然后放到session中去 再用这个session再次访问原链接拿到js加载的加密的真实数据.用了一些反混淆. 最后获取这个数据中 ...

  7. JS逆向实战1——某省阳光采购服务平台

    分析 其实这个网站基本没有用到过什么逆向,就是简单的图片base64加密 然后把连接变成2进制存成文件 然后用ocr去识别即可 !! 注意 在获取图片连接 和对列表页发起请求时一定要用一个请求,也就是 ...

  8. 网络爬虫之记一次js逆向解密经历

    1 引言 数月前写过某网站(请原谅我的掩耳盗铃)的爬虫,这两天需要重新采集一次,用的是scrapy-redis框架,本以为二次爬取可以轻松完成的,可没想到爬虫启动没几秒,出现了大堆的重试提示,心里顿时 ...

  9. Geth控制台使用及Web3.js使用实战

    在开发以太坊去中心化应用,免不了和以太坊进行交互,那就离不开Web3. Geth 控制台(REPL)实现了所有的web3 API及Admin API, 使用好 Geth 就是必修课.结合Geth命令用 ...

随机推荐

  1. 从C过渡到C++(1)——GNU/Linux

    从C过渡到C++(1)--GNU/Linux 目录 从C过渡到C++(1)--GNU/Linux 大名鼎鼎的GNU/Linux GNU GNU的组成 一点补充 MinGW 运行时库 额外的内容 Min ...

  2. CF1511G Chips on a Board (倍增)

    题面 原题题面 转化方便版题意: 有 n n n 堆石子,第 i i i 堆有 c i ∈ [ 1 , m ] c_i\in [1,m] ci​∈[1,m] 个石子,有 q q q 次询问,每次询问给 ...

  3. [HNOI2010]弹飞绵羊 (平衡树,LCT动态树)

    题面 题解 因为每个点都只能向后跳到一个唯一的点,但可能不止一个点能跳到后面的某个相同的点, 所以我们把它抽象成一个森林.(思考:为什么是森林而不是树?) 子节点可以跳到父节点,根节点再跳就跳飞了. ...

  4. 3款知名RTMP推流模块比较:OBS VS SmartPublisher VS Flash Media Live Encoder

    OBS 功能强大,几乎所有你想要的场景它都有,用起来很顺手.可以将桌面.摄像头.程序窗口通过rtmp推送到流媒体服务器上. 当然如果你是开发者,想基于OBS做二次开发,实现二次产品化的化,难度比较大, ...

  5. Mac根据端口找进程id

    lsof -i:20942 以后认真的学习一下这个命令

  6. git revert总结

    git revert git revert 是一种创建一次新的commit 来回退某次或某几次commit的一种方式 命令 // 创建一个新的commit,这个commit会删除(下面)commit- ...

  7. 03 最小CMake项目

    03 最小CMake项目 所有CMake项目都从一个CMakeLists.txt文件开始,此文件应该放在源代码树的最顶层目录下.可以将CMakeLists.txt想象成CMake项目文件,定义了从源和 ...

  8. Typora自动上传超级详细教程!!

    第一步检查环境变量 打开cmd 查看以下环境变量 需要软件: Typora PicGo gitee账号 配置node 配置git 第二步创建gitee仓库 设置仓库名直接创建,因为这里不能直接修改开源 ...

  9. TortoiseSVN 执行清理( cleanUp )失败的解决方案

    TortoiseSVN 执行清理( cleanUp )失败的解决方案 今天碰到了一个比较棘手的问题,在这里做一下记录,以方便自己和有需要的朋友在之后碰到该类问题时有个参考. 现象 更新SVN时弹出清理 ...

  10. JS作用域、变量提升和闭包

    作用域 作用域可以理解为JS引擎执行代码的时候,查找变量的规则. 从确定变量访问范围的阶段的角度,可以分为2类,词法作用域和动态作用域.js是词法作用域. 从变量查找的范围的角度,可以分为3类,全局作 ...