XSS语义分析的阶段性总结（一）

本文作者：Kale

前言

由于X3Scan的研发已经有些进展了，所以对这一阶段的工作做一下总结！对于X3Scan的定位，我更加倾向于主动+被动的结合。主动的方面主要体现在可以主动抓取页面链接并发起请求，并且后期可能参考XSStrike加入主动fuzz的功能，这个目前还未加入，正在纠结中。而被动的方面，主要的工作就是xss语义分析的研究，通过xss语义分析而不是盲目的使用payload进行fuzz。

语义分析

业内提的比较早的一款waf产品，语义分析说白了就是根据上下文来进行分析，而不是通过正则搜索的方式来匹配污染源，也就是我们的漏洞触发点。由于这个需求，我们需要开发一款可以理解上下文的工具。来帮助我们识别我们的payload是输出在什么样的语义环境，从而给出精确的payload，而这一点xray目前做的效果挺不错的。

AST语法树

在此之前我们先简单了解一下JS抽象语法树。

Javascript 代码的解析（Parse ）步骤分为两个阶段：词法分析（Lexical Analysis）和语法分析（Syntactic Analysis）。这个步骤接收代码并输出抽象语法树，亦称 AST

在分析 Javascript 的 AST 过程中，借助于工具 AST Explorer 能帮助我们对 AST 节点有一个更好的感性认识。

下面是AST Explorer对 Javascript代码的解析，经过AST Explorer的解析Javascript代码会被抽象成AST的形式。

下面简单介绍几个节点类型，更多的参考官方文档定义https://esprima.readthedocs.io/en/3.1/syntax-tree-format.html

使用下面的demo为例

var param = location.hash.split("#")[1];document.write("Hello " + param + "!");

VariableDeclaration

变量声明，kind 属性表示是什么类型的声明，因为 ES6 引入了 const/let。declarations 表示声明的多个描述，因为我们可以这样：let a = 1, b = 2;

VariableDeclarator

变量声明的描述，id 表示变量名称节点，init 表示初始值的表达式，可以为 null

Identifier

标识符，就是我们写 JS 时自定义的名称，如变量名，函数名，属性名，都归为标识符

一个标识符可能是一个表达式，或者是解构的模式（ES6 中的解构语法）。

Literal

字面量，就代表了一个值的字面量，如 “hello”, 1 这些，还有正则表达式（有一个扩展的 Node 来表示正则表达式），如 /\d?/

value 这里即对应了字面量的值，我们可以看出字面量值的类型，字符串，布尔，数值，null 和正则。

BinaryExpression

由于这里存在两个个二元运算，所以简单再介绍其中一个，其它的便不多简绍。

二元运算表达式节点，left 和 right 表示运算符左右的两个表达式，operator 表示一个二元运算符。

这里进行运算的一个是Literal类型也就是hello,一个是Identifier类型也就是param变量，运算符为+

AST的介绍先到这里。下面介绍一下检测的原理

检测原理

xss漏洞一般有两种检测方法，第一种是简单粗暴的使用收集来的payload进行fuzz，通过页面是否回显来判断是否存在漏洞，这种手段目前已经不适用了。另一种就是通过对返回页面进行解析，结合语义分析，根据输出在不同的上下文来选择发送我们的payload，这样的话，我们的payload即精巧又准确。

还是使用这个demo

var param = location.hash.split("#")[1];document.write("Hello " + param + "!");

检测思路一般为，我们首先找到document.write这个函数，从而定位到param，由param我们可以进行回溯到location.hash.split("#")[1]，从而证明触发点是可控的。在污点分析模型里面，我们称document.write为sink，也就是污点汇聚点,代表直接产生安全敏感操作(违反数据完整性)或者泄露隐私数据到外界(违反数据保密性)，称location.hash.split("#")[1]为source，也就是污点源,代表直接引入不受信任的数据或者机密数据到系统中。很多代码审计工具也是基于了这样的模型。

基于上面的分析，我们需要开发一个可以理解js上下文的工具，帮助我们找到sink和source，让我们可以由sink回溯source，或者由反过来亦可，正则上实现这个问题已经基本不可能了，我们需要能够给上下文赋予准确意义。

而上面的AST语法树可以满足我们的需求，因为它可以帮助我们分析xss的输出点的上下文

幸运的是python里面有将js代码解析为语法树的库pyjsparser，还有在其基础上实现的js2py

from pyjsparser import parseimport jsonjs = ''' var param = location.hash.split("#")[1];document.write("Hello " + param + "!"); '''ast = parse(js)print(json.dumps((ast)))

解析出来的效果跟AST Explorer是一致的

接下来我们需要设计一个递归来找到每个表达式，每一个Identifier和Literal类型等等。

部分代码如下：

然后再遍历body的节点，找寻输出位置

仍是上面的demo，我们尝试找到Hello

输出结果如下：

我们找到了Hello，并且输出位置的上下文为Literal

有了上面的研究，通过sink回溯source的方法便可以实现，对于dom型xss的分析，也会更加精确，对于反射型xss输出在js的情况，同样适用

如果回显在JS脚本中，发送测试payload后，通过js语法树解析确定Identifier和Literal这两个类型中是否包含，如果payload是Identifier类型，就可以直接判断存在xss，如果payload是Literal类型，再通过单双引号来测试是否可以闭合。

最后

关于js语义分析暂时先分析到这里，难点还是dom型xss的检测，因为dom xss检测识别有点复杂，下一篇会探讨一下sink输出在html的情况，探讨一下html解析的一些问题。

XSS语义分析的阶段性总结（一）的更多相关文章

XSS语义分析的阶段性总结（二）
本文首发于“合天智汇”微信公众号,作者:Kale 前言上次分享了javascript语义分析,并且简单介绍了新型xss扫描器的一些想法,如何在不进行大量fuzz的情况下又能准确的检测出xss漏洞,这 ...
阿里云Web应用防火墙采用规则引擎、语义分析和深度学习引擎相结合的方式防护Web攻击
深度学习引擎最佳实践 {#concept_1113021 .concept} 阿里云Web应用防火墙采用多种Web攻击检测引擎组合的方式为您的网站提供全面防护.Web应用防火墙采用规则引擎.语义分析和 ...
网络安全学习阶段性总结：SQL注入|SSRF攻击|OS命令注入|身份验证漏洞|事物逻辑漏洞|目录遍历漏洞
目录 SQL注入什么是SQL注入? 掌握SQL注入之前需要了解的知识点 SQL注入情况流程分析有完整的回显报错(最简单的情况)--检索数据: 在HTTP报文中利用注释---危险操作检索隐藏数据: ...
防御XSS攻击-encode用户输入内容的重要性
一.开场先科普下XSS 跨站脚本攻击(Cross Site Scripting),为不和层叠样式表(Cascading Style Sheets, CSS)的缩写混淆,故将跨站脚本攻击缩写为XSS.恶 ...
XSS
XSS的含义 XSS(Cross Site Scripting)即跨站脚本.跨站的主要内容是在脚本上. 跨站脚本跨站脚本的跨,体现了浏览器的特性,可以跨域.所以也就给远程代码或者第三方域上的代码提供 ...
【XSS】延长 XSS 生命期
XSS 的本质仍是一段脚本.和其他文档元素一样,页面关了一切都销毁.除非能将脚本蔓延到页面以外的地方,那样才能获得更长的生命力. 庆幸的是,从 DOM 诞生的那一天起,就已为我们准备了这个特殊的功能, ...
探索ASP.NET MVC5系列之~~~2.视图篇（上）---包含XSS防御和异步分部视图的处理
其实任何资料里面的任何知识点都无所谓,都是不重要的,重要的是学习方法,自行摸索的过程(不妥之处欢迎指正) 汇总:http://www.cnblogs.com/dunitian/p/4822808.ht ...
XSS分析及预防
XSS(Cross Site Scripting),又称跨站脚本,XSS的重点不在于跨站点,而是在于脚本的执行.在WEB前端应用日益发展的今天,XSS漏洞尤其容易被开发人员忽视,最终可能造成对个人信息 ...
个人网站对xss跨站脚本攻击（重点是富文本编辑器情况）和sql注入攻击的防范
昨天本博客受到了xss跨站脚本注入攻击,3分钟攻陷--其实攻击者进攻的手法很简单,没啥技术含量.只能感叹自己之前竟然完全没防范. 这是数据库里留下的一些记录.最后那人弄了一个无限循环弹出框的脚本,估计 ...

随机推荐

给社团同学做的R语言爬虫分享
大家好,给大家做一个关于R语言爬虫的分享,很荣幸也有些惭愧,因为我是一个编程菜鸟,社团里有很多优秀的同学经验比我要丰富的多,这次分享是很初级的,适用于没有接触过爬虫且有一些编程基础的同学,内容主要有以 ...
Flume数据采集结合etcd作为配置中心在爬虫数据采集处理中的架构实践。
Apache Flume是一个分布式的.可靠的.可用的系统,用于有效地收集. 聚合和将大量日志数据从许多不同的源移动到一个集中的数据存储,但是其本身是以本地properties作为配置的,配置无法做到 ...
UVA11987 Almost Union-Find 并查集的节点删除
题意: 第一行给出一个n,m,表示 n个集合,里面的元素为1~n,下面有m种操作,第一个数为 1 时,输入a,b 表示a,b 两个集合合并到一起,第一个数为 2 时,输入a,b表示将 a 从他原来的集 ...
看完这篇 Session、Cookie、Token，和面试官扯皮就没问题了
Cookie 和 Session HTTP 协议是一种无状态协议,即每次服务端接收到客户端的请求时,都是一个全新的请求,服务器并不知道客户端的历史请求记录:Session 和 Cookie 的主要目的 ...
ArrayList中的Iterator详解
每个实现Iterable接口的类必须提供一个iterator方法,返回一个Iterator对象,ArrayList也不例外 public Iterator<E> iterator() { ...
磅日波浪分析4H 20190927
磅日的短线调整预计在132结束目前已显现出ABC调整末端. 未来预计开启第五浪升势破前期反弹高点.
HIT软件构造课程3.2总结（Designing Specificaton）
本节转向“方法/函数/操作”如何定义上一节是名词这一节是动词 1.编程语言中的函数和方法方法使用者不需要知道方法内部如何实现,这叫做“抽象”. 参数参数类型是否匹配,在静态检查时完成. 返回 ...
vue2.0 操作数组下标不跟新ui，使用set()或$forceUpdate 也不能跟新视图情况
在vue 2.0 中操作数组不跟新ui图,即使使用set()或 $forceUpdate也不能跟新视图,我在前段时间也遇到了一个问题,当时我使用的时element 的tree 组件由于需要对tree ...
opentsdb探索之路——部分设计与实现
opentsdb 概览(overview) opentsdb 存储细节(Writing) rowkey的设计 rowkey的具体实现压缩(compaction) 追加模式(appends) open ...
Java并发基础04. 线程技术之死锁问题
我们知道,使用 synchronized 关键字可以有效的解决线程同步问题,但是如果不恰当的使用 synchronized 关键字的话也会出问题,即我们所说的死锁.死锁是这样一种情形:多个线程同时被阻 ...

XSS语义分析的阶段性总结（一）

前言

XSS语义分析的阶段性总结（一）的更多相关文章

随机推荐

热门专题