【论文笔记】Malware Detection with Deep Neural Network Using Process Behavior


论文基本信息

  • 会议: IEEE(2016 IEEE 40th Annual Computer Software and Applications Conference)
  • 单位: Nagoya University(名古屋大学)、NTT Secure Platform Laboratories(NTT安全平台实验室)

方法概述

  • 数据:81个恶意软件日志文件、69个良性软件日志文件。其中恶意软件由NTT Secure Platform Laboratory收集,共26个恶意软件。
  • 方法:基于软件日志(即软件行为)数据,首先用RNN提取恶意、良性软件行为特征,生成特征图像,再用CNN进行分类。
  • 效果:AUC = 0.96

数据集

恶意软件样本由NTT Secure Platform Laboratory收集,共26个恶意软件,使用Symantec(赛门铁克)将其标记为11个家族。

在Ubuntu上使用VirtualBox搭建windows环境,使用Process Monitor、INetSim2、Cuckoo Sandbox等工具生成恶意和良性软件的日志。共生成81个恶意软件、69个良性软件日志文件。

日志数据生成环境如下图:

使用Process Monitor来记录ReadFile,RegSetValue,Thread Start等行为;
通过Process Monitor记录的行为(Operation)数据如下表所示。

字段 说明
Time Operation执行时间
Process Name Process名
PID Operation的PID
Event Operation名
Path Operation执行时所在路径
Result 执行结果状态
Detail 参数等信息

Result记录了Operation的结果,如SUCCESS,ACCESS DENIED,FILE NOT FOUND等;
Detail记录了参数等信息。

方法

方法概述

算法的主要思路为:将Process行为日志转化为向量,使用RNN转换为特征图像,在用CNN对这些特征图像进行分类。
流程图如下:

Step1: 监视Process的行为,并生成日志文件。
Step2: 将日志数据转为one-hot向量,按Operation执行输入RNN训练,获取trained RNN模型。
Step3: 用trained RNN从日志文件中提取特征,并将特征转换为特征图像。
Step4: 使用标有恶意、良性标签的特征图像数据,训练CNN模型。
Step5: 训练结束后,由训练的RNN模型将Process行为日志文件转化为特征图像,再由训练的CNN模型进行分类,最后输出Process为恶意软件的概率。

训练RNN

将日志文件的Operation数据基于Operation Name转为one-hot向量作为输入,隐藏层\(h^1\)的神经元为普通神经元,\(h^2\)、\(h^3\)层为LSTM神经元。
网络结构如下:

生成特征图像

用trained RNN提取Process的特征并生成特征图像。
特征提取流程如下图所示:

将日志文件中的Operation转换为one-hot向量,然后依次将它们输入到trained RNN中。 获取每个输入的第三隐藏层\(h^3\)的值,得到集合{\(h^3_1\),\(h^3_2\),...,\(h^3_L\)}。 CNN模型输入图像矩阵为固定大小,故需将每个Process日志文件转为相同大小的特征图像矩阵。
用了以下等式将Operation特征向量集转为Process特征图像矩阵\(F\):

\(f_k\):固定大小的特征图像矩阵的元素
\(N\):集合{\(h^3_1\),\(h^3_2\),...,\(h^3_L\)}分为N组并计算每组的平均值,\(N\)也就是特征图像矩阵\(F\)的行数。
\(p_k\):第\(k\)个矢量集的最后一个数。
\(W\):设为第3隐藏层的维数,则固定向量序列可以描述为矩阵F.

通过sigmoid函数将矩阵F的每个元素映射到[0,1]空间,并乘以255来形成256级灰度图像。 最后,输出矩阵\(F\)作为特征图像矩阵。

训练CNN

使用带有恶意、良性标记的特征图像矩阵作为输入训练CNN网络。CNN网络结构如下图:

输出\(y_0\)、\(y_1\)分别为为良性软件、恶意软件的概率。可用sigmoid函数\(Sig\)(\(y_1\))计算出为恶意软件的概率。

实验结果

作者尝试了不同的RNN的隐含层维度、CNN输入矩阵大小、CNN卷积层池化层参数\(w\)。使用5折交叉验证,最佳结果为在下表中Cond2条件时,AUC为0.96。



个人总结

在恶意程序检测方向,将程序的动静态数据转为图像,再套用CNN对图像分类,这是一个常见的思路。

本论文值得学习的点

  • 使用RNN把保留了程序行为的时序特征
  • 提供了一种将程序行为日志转为图像的思路

不足之处

  • 实验数据集太少
  • 在公开沙箱中生成的恶意软件行为日志,可能存在对抗
  • 没有公开数据集
  • 行为类型太少
  • 只用了程序的动态数据,没有使用静态数据

【论文笔记】Malware Detection with Deep Neural Network Using Process Behavior的更多相关文章

  1. 论文笔记之:Decoupled Deep Neural Network for Semi-supervised Semantic Segmentation

    Decoupled Deep Neural Network for Semi-supervised Semantic Segmentation xx

  2. 论文笔记:ReNet: A Recurrent Neural Network Based Alternative to Convolutional Networks

    ReNet: A Recurrent Neural Network Based Alternative to Convolutional Networks2018-03-05  11:13:05   ...

  3. 论文阅读 | Towards a Robust Deep Neural Network in Text Domain A Survey

    摘要 这篇文章主要总结文本中的对抗样本,包括器中的攻击方法和防御方法,比较它们的优缺点. 最后给出这个领域的挑战和发展方向. 1 介绍 对抗样本有两个核心:一是扰动足够小:二是可以成功欺骗网络. 所有 ...

  4. 论文笔记——A Deep Neural Network Compression Pipeline: Pruning, Quantization, Huffman Encoding

    论文<A Deep Neural Network Compression Pipeline: Pruning, Quantization, Huffman Encoding> Prunin ...

  5. 论文阅读(XiangBai——【AAAI2017】TextBoxes_A Fast Text Detector with a Single Deep Neural Network)

    XiangBai——[AAAI2017]TextBoxes:A Fast Text Detector with a Single Deep Neural Network 目录 作者和相关链接 方法概括 ...

  6. Deep Learning 28:读论文“Multi Column Deep Neural Network for Traffic Sign Classification”-------MCDNN 简单理解

    读这篇论文“ Multi Column Deep Neural Network for Traffic Sign Classification”是为了更加理解,论文“Multi-column Deep ...

  7. 论文翻译:2022_PACDNN: A phase-aware composite deep neural network for speech enhancement

    论文地址:PACDNN:一种用于语音增强的相位感知复合深度神经网络 引用格式:Hasannezhad M,Yu H,Zhu W P,et al. PACDNN: A phase-aware compo ...

  8. 目标检测--Scalable Object Detection using Deep Neural Networks(CVPR 2014)

    Scalable Object Detection using Deep Neural Networks 作者: Dumitru Erhan, Christian Szegedy, Alexander ...

  9. XiangBai——【AAAI2017】TextBoxes_A Fast Text Detector with a Single Deep Neural Network

    XiangBai--[AAAI2017]TextBoxes:A Fast Text Detector with a Single Deep Neural Network 目录 作者和相关链接 方法概括 ...

随机推荐

  1. 云计算概述和KVM虚拟化

    前言: 近些年一直听着 虚拟化.云计算.公有云.私有云.混合云这些个概念,一直想着....这些概念要用什么技术实现? 一.云计算的概念 1.传统IDC机房面都会临什么问题? 任何新事物都是由需求催生的 ...

  2. python,pip环境变量设置

    安装好python后,配置环境变量. 安装pygame需要先配置两个环境变量. 第一个是python的.先打开计算机,然后点击‘系统属性’然后点击‘高级系统设置’然后点击‘环境变量’在系统变量中找到p ...

  3. Document.write和 InnerHTML

    Document.write 定义: Document.write()这种方法是将文本字符串写入document.open()打开的文档流. document.write()方法可以用在两个方面:页面 ...

  4. 1ci

  5. 将本地项目部署到github远程仓库

    近期写了一些项目,想把项目代码保存并分享出来,所以就想到了github. 下面就为大家介绍部署过程: 安装git客户端,请大家百度自行下载,这里就不做介绍了. 注册github账号,这个很简单,这里就 ...

  6. websocket session共享

    单机运行 用户a通过服务器进入房间room,用户b也通过房间进入room,用户之间是通过session来通话的,所以session直接存储在集合中就可以了. 因为session存储在一台服务器的集合中 ...

  7. 破解某PDF转换器产品

    本文章纯属出于作者自己对技术的探索,绝不用于商业用途(虽然网上已经能够下载到注册机了) 软件功能就不多说了,PDF转换成WORD格式,对于学生党来说也算是神器了吧,那么我们今天就用自己的办法来获得这款 ...

  8. C++11-->单生产者,单消费者问题

    参考上一篇C++11并发编程 #include <iostream> #include <queue> #include <assert.h> #include & ...

  9. jsapi 调起微信支付的的踩坑

    问题: 公众微信号调起微信支付的时候,有的时候调起支付成功,有的时候调起支付失败.利用抓包工具抓取数据显示授权和调用后台的微信预支付订单接口都成功并且都返回正确的数据.但是调起支付的时候传入的data ...

  10. 掩码图制作----c语言贴图

    1.首先你得有一张图,比如这样的: 2.用PS打开他... 3.左边工具栏里(快速选择工具W),选想显示的部分 4.ctrl+c复制一下,新建一张黑底图粘贴上去或者白底图时选中显示区即花瓣右键反向右键 ...