引言

众所周知，数据流分析是实现污点分析的一种常用技术

数据流分析分为过程内的数据流分析与过程间的数据流分析。前者是对一个方法体内的数据流分析，主要是基于CFG分析，不涉及方法调用；后者是基于不同方法间的数据流分析，主要是基于ICFG+CG分析，会涉及方法调用。

一、过程内数据流分析

1. CFG的构建

1.1.把程序转换为IR(此处采用3AC)表示

3地址码中的地址可能有如下的几种类型：

名字（Name），包括
- 变量（Variable）
- 标签（Label）
  - 用于指示程序位置，方便跳转指令的书写
字面常量（Literal Constant）
编译器生成的临时量（Compiler-Generated Temporary）

每一种指令都有其对应的 3 地址码形式，一些常见的 3 地址码形式如下：(x, y, z是变量的地址)

x = y bop z  // bop 是双目操作符（Binary Operator），可以是算数运算符，也可以是逻辑运算符

x = uop y  // uop 是单目操作符（Unary Operator），可能是取负、按位取反或者类型转换

x = y

goto L  // goto 是无条件跳转，L 是标签（Label），是标记程序位置的助记符，本质上还是地址

if x goto L  // if... goto 是条件跳转

if x rop y goto L // rop 是关系运算符（Relational Operator），运算结果一般为布尔值

1.2.找程序的Leader集合L，进而划分Basic Block

程序入口
跳转指令的目标指令
跳转指令的下一条指令

（一个Leader到下一个Leader之前就是一个BB）

1.3.连接Basic Block

程序控制流的产生来源于两个地方：

天然的顺序执行
- 这是计算系统天然存在的一种控制流
跳转指令
- 这是人为设计添加的一种控制流

示例

二、过程间数据流分析

1.CG 方法调用图

1.1.Java中的方法调用类型

Static Call：调用静态方法 --> 编译时明确
Special Call：调用构造方法、私有方法、基类实例方法 --> 编译时明确
Virtual Call：调用其他实例方法 --> 运行时明确(多态，最常见)

所以在构建方法调用图时，最关键的是要处理好Virtual Call的情况

1.2.CG的构建方法

类层级结构分析（Class Hierarchy Analysis，CHA）
快速类型分析（Rapid Type Analysis，RTA）
变量类型分析（Variable Type Analysis，VTA）
指针分析（Pointer Analysis，k-CFA）

上面的四种方法自上而下精度（Precision）越来越高，但是效率（Efficiency）也越来越低。

本文只关注CHA的方式：

CHA

在方法调用点处，只关注caller的声明类型T及callee的方法签名sig，会把T及其子类中所有与sig匹配的方法都视为可能的目标方法，示例：

class A {

    void foo() { ... }

}

class B extends A { }

class C extends B {

    void foo() { ... }

}

class D extends B {

    void foo() { ... }

}

类层级结构如下：

现有以下代码片段：

void resolve() {

    C c = ...;

    c.foo();A a = ...;

    a.foo();B b = new B();

    b.foo();

}

CHA算法会对于每一个接收变量的声明类型本身及其子类关于调用点处的函数签名进行方法派发的操作，将所有找到的目标方法加入结果之中。因此，结果如下：

Resolve(c.foo()) = {C.foo()}
Resolve(a.foo()) = {A.foo(), C.foo(), D.foo()}
Resolve(b.foo()) = {A.foo(), C.foo(), D.foo()}

我们需要注意一下的是第三个调用点， A.foo() 也在其结果之内，因为对于 B 类本身的方法派发得到的结果是 A.foo()

并且，CHA的Resolve算法只关心声明类型，因此 new B() 其实并没有在算法中发挥作用，从而我们 Resolve(b.foo()) 产生了两个虚假（Spurious）的目标调用 C.foo() 和 D.foo()

CG构建示例：

class A {

    static void main() {

        A.foo();

    }

    static void foo() {

        A a = new A();

        a.bar();

    }

    void bar() {

        C c = new C();

        c.bar();

    }

}

class B extends A {

    void bar() { }

}

class C extends A {

    void bar() {

        if (...) {

            A.foo();

        }

    }

    void m() { }

}

CHA最终构建的CG如下：

在上述例子当中需要注意的是，虽然 A a = new A() ，但是解析 a.bar() 的目标方法时候，依旧会对 A 以及 A 的所有子类作 Dispatch ，故而会有3条从 a.bar() 出发的边。

最后我们会发现存在一个不可达的方法（Unreachable Method） C.m() ，那么这个方法中的代码就是死代码（Dead Code，即在任何情况下控制流都不能到达的代码）。

CHA的应用：IDE中的目标方法提示

2.ICFG 过程间控制流图

2.1.ICFG的构建

ICFG要在CFG基础上添加call Edges（调用边）、return Edges（返回边）

ICFG = CFGs + call & return edges ，连接调用边和返回边的信息可以从调用图中获得。因此，过程间控制流图的精度取决于调用图的精度。

示例：

static void main() {

    int a, b, c;

    a = 6;

    b = addOne(a);

    c = b - 3;

    b = ten();

    c = a * b;

}

static int addOne() {

    int y = x + 1;

    return y;

}

static int ten() {

    return 10;

}

构建的ICFG如下：

从上图可以看出，在构建ICFG时，仍然保留了Call-to-return edges（调用点到返回点的边），虽然实际程序运行过程不会走这条边，但是这条边可以传递callee方法不需要的数据，这样就避免了在目标方法中始终维护其不需要的数据，可以提高效率。

公主号推荐

id：CodeAnalyzer，名称：CodeAnalyzer Ultra

开源仓库推荐

https://github.com/HaHarden/CPGPractise

SAST-数据流分析方法-理论的更多相关文章

黑盒测试用例设计方法&理论结合实际 -> 正交试验法
一. 概念依据Galois理论,从大量的(实验)数据(测试例)中挑选适量的,有代表性的点(例),从而合理地安排实验(测试)的一种科学实验设计方法.类似的方法有:聚类分析方法,因子方法方法等. 二. ...
黑盒测试用例设计方法&理论联系实际-> 功能图法
一. 概念功能图由状态迁移图和布尔函数组成.状态迁移图用状态和迁移来描述.一个状态指出数据输入的位置(或时间),而迁移则指明状态的改变.同时要依靠判定表或因果图表示的逻辑功能.例,一个简化的自动出纳 ...
黑盒测试用例设计方法&理论结合实际 -> 因果图法
一. 概念因果图法是一种利用图解法分析输入的各种组合情况,从而设计测试用例的方法,它适合于检查程序输入条件的各种组合情况二. 因果图法的应用等价类划分法和边界值分析方法都是着重考虑输入条件,但没 ...
黑盒测试用例设计方法&理论结合实际 -> 错误推断法
一概念基于经验和直觉推测程序中所有可能存在的各种错误, 从而有针对性的设计测试用例的方法. 二错误推断法的应用基本思想:列举出程序中所有可能有的错误和容易发生错误的特殊情况,根据他们选择测试 ...
黑盒测试用例设计方法&理论结合实际 -> 边界值分析法
一. 概念边界值分析法就是对输入或输出的边界值进行测试的一种黑盒测试方法.通常边界值分析法是作为对等价类划分法的补充,这种情况下,其测试用例来自等价类的边界. 二. 边界值分析法的应用根据大量的测 ...
黑盒测试用例设计方法&理论结合实际 -> 等价类划分
一. 概念等价类划分法是把程序的输入域划分成若干部分(子集),然后从每个部分中选取少数代表性数据作为测试用例.每一类的代表性数据在测试中的作用等价于这一类中的其他值. 二. 等价类划分的应用等价类 ...
黑盒测试用例设计方法&理论结合实际 -> 场景法
一概念现在的软件几乎都是用事件触发来控制流程的,事件触发时的情景便形成了场景,而同一事件不同的触发顺序和处理结果就形成事件流.这种在软件设计方面的思想也可以引入到软件测试中,可以比较生动地描绘出事件 ...
黑盒测试用例设计方法&理论结合实际 -> 判定表驱动法
一. 概念判定表是分析和表达多逻辑条件下执行不同操作的情况的工具. 二. 判定表驱动法的应用判定表的优点: a. 能够将复杂的问题按照各种可能的情况全部列举出来,简明并避免遗漏.因此,利用判定表能 ...
EntityFramework Core 1.1 Add、Attach、Update、Remove方法如何高效使用详解
前言我比较喜欢安静,大概和我喜欢研究和琢磨技术原因相关吧,刚好到了元旦节,这几天可以好好学习下EF Core,同时在项目当中用到EF Core,借此机会给予比较深入的理解,这里我们只讲解和EF 6. ...
[置顶] Oracle学习路线与方法
还没有整理好.... 1.学习路线 Oracle官方文档:2 Day DBA-->2 Day+Performance Tuning Guide--->Administrator's Gui ...

随机推荐

【Azure 事件中心】China Azure上是否有Kafka服务简答
问题描述 China Azure 上是否有Kakfa服务可以使用呢? 问题回答 China Azure并没有专门的Kafka服务,但是可以使用Azure Event Hub. 创建标准版及以上的Eve ...
Spring Cloud跟Dubbo区别？
Spring Cloud是一个微服务框架,提供了微服务中很多功能组件,Dubbo一开始时RPC调用框架,核心是解决服务调用间的问题, Spring Cloud是一个大而全的框架,Dubbo更侧重于服务 ...
BUUCTF—Crypto（完结版本—_—）
BUUCTF-Crypto 1.一眼就解密考点:base64 我的解答: 字符串后面的等号,看来是base大家族,由字母和数字范围来看是base64,不管了,先扔CyberCher,仙女魔法棒变出f ...
Java 抽象类练习
1 package com.bytezreo.template; 2 3 import java.util.Calendar; 4 import java.util.Scanner; 5 6 /** ...
Python列表转换成字典、嵌套列表转字典、多个列表转为字典嵌套列表
目录两列表转为字典多列表转为字典嵌套列表嵌套列表转字典方法一:直接内置dict 方法二: for循环一个列表转字典两列表转为字典 list1=["key1"," ...
Python基础之程序与用户交互
[一]Python基础之程序与用户交互 [一]程序如何与用户交互用户通过input命令在窗口内与输入就可以让用户和窗口进行交流 input接受的所有数据类型都是 str 类型 username = ...
Java递归实现全排列改进(一)---利用HashSet实现去重
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.Iter ...
FreeRTOS教程9 软件定时器
1.准备材料正点原子stm32f407探索者开发板V2.4 STM32CubeMX软件(Version 6.10.0) Keil µVision5 IDE(MDK-Arm) 野火DAP仿真器 XCO ...
记录--Vue3问题：如何实现组件拖拽实时预览功能？
这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 1. 需求分析实现一个CMS内容管理系统,在后台进行内容编辑,在官网更新展示内容. 关于后台的编辑功能,大致分为两部分:组件拖拽预览.组 ...
uniapp 微信对接地图的三种操作
这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 1.uni.getLocation 获取当前经维度先上代码 let that = this // 获取用户是否开启授权获取当前的地理位 ...

SAST-数据流分析方法-理论

引言