使用深度学习检测TOR流量——本质上是在利用报文的时序信息、传输速率建模

from：https://www.jiqizhixin.com/articles/2018-08-11-11

可以通过分析流量包来检测TOR流量。这项分析可以在TOR 节点上进行，也可以在客户端和入口节点之间进行。分析是在单个数据包流上完成的。每个数据包流构成一个元组，这个元组包括源地址、源端口、目标地址和目标端口。

提取不同时间间隔的网络流，并对其进行分析。G.He等人在他们的论文“从TOR加密流量中推断应用类型信息”中提取出突发的流量和方向，以创建HMM（Hidden Markov Model，隐马尔科夫模型）来检测可能正在产生那些流量的TOR应用程序。这个领域中大部分主流工作都利用时间特征和其他特征如大小、端口信息来检测TOR流量。

我们从Habibi等人的“利用时间特征来发现TOR流量的特点”论文中得到启发，并遵循基于时间的方法提取网络流，用于本文TOR流量的检测。但是，我们的架构使用了大量可以获得的其他元信息，来对流量进行分类。这本质上是由于我们已经选择使用深度学习架构来解决这个问题。

四、数据实验-TOR流量检测

为了完成本文的数据实验，我们从纽布伦斯威克大学的Habibi Lashkari等人[11]那里获取了数据。他们的数据由从校园网络流量分析中提取的特征组成。从数据中提取的元信息如下表所示：

表1：从[ 1 ]获得的元信息参数

除了这些参数之外，其他基于流的参数也包括在内。图4显示了一个数据集的样例。

图4：本文使用的数据集实例

请注意，源IP/端口、目标IP/端口和协议字段已经从实例中删除，因为它们会导致模型过拟合。我们使用具有N隐藏层的深度前馈神经网络来处理其他所有特征。神经网络的架构如图5所示。

图5：用于Tor流量检测的深度学习网络表示

隐藏层层数在2和10之间变化。当N=5时是最优的。为了激活，线性整流函数（Rectified Linear Unit, ReLU）用于所有隐藏层。隐藏层每一层实际上都是密集的，有100个维度。

Keras中的FFN的Python代码片段：

model = Sequential() model.add(Dense(feature_dim, input_dim= feature_dim, kernel_initializer='normal', activation='relu')) for _ in range(0, hidden_layers-1): model.add(Dense(neurons_num, kernel_initializer='normal', activation='relu')) model.add(Dense(1,kernel_initializer='normal', activation='sigmoid')) model.compile(optimizer='adam', loss='binary_crossentropy', metrics=["accuracy"])

输出节点由Sigmoid函数激活。这被用来输出二分类结果-TOR或非TOR。

我们在后端使用带有TensorFlow的Keras来训练深度学习模块。使用二元交叉熵损失来优化FFN。模型会被训练不同次数。图7显示，在一轮仿真训练中，随着训练次数的增加，性能也在增加，损失值也在下降。

图7：网络训练过程中Tensorboard生成的静态图

我们将深度学习系统的结果与其他预测系统进行了比较。使用召回率（Recall）、精准率（Precision）和F-Score这些标准分类指标来衡量预测系统性能。我们基于深度学习的系统能够很好地检测TOR类。但是，我们更加重视非TOR类。可以看出，基于深度学习的系统可以减少非TOR类的假阳性情况。结果如下表：

表2：用于TOR流量检测实验的深度学习和机器学习模型结果

在各种分类器中，随机森林和基于深度学习的方法比其他方法更好。所示结果基于5,500个训练实例。本实验中使用数据集的大小相对小于典型的基于深度学习的系统。随着训练数据的增加，基于深度学习的系统和随机森林分类器的性能将会进一步提升。

但是，对于大型数据集来说，基于深度学习的分类器通常优于其他分类器，并且可以针对相似类型的应用程序进行推广。例如，如果需要训练检测使用TOR的应用程序，那么只需要重新训练输出层，并且其他所有层可以保持不变。而其他机器学习分类器则需要在整个数据集上重新训练。请记住，对于大型数据集来说，重新训练模型需要耗费巨大的计算资源。

尾记

每个企业面临的匿名流量检测的挑战是存在细微差别的。攻击者使用TOR信道以匿名模式偷窃数据。当前流量检测供应商的方法依赖于拦截TOR网络的已知入口节点。这不是一个可拓展的方法，而且很容易绕过。一种通用的方法是使用基于深度学习的技术。

本文中，我们提出了一个基于深度学习的系统来检测TOR流量，具有高召回率和高精准率。请下面的评论部分告诉我们您对当前深度学习状态的看法，或者如果您有其他替代方法。

References

[1]: Quamar Niyaz, Weiqing Sun, Ahmad Y Javaid, and Mansoor Alam, “A Deep Learning Approach for Network Intrusion Detection System,” IEEE Transactions on Emerging Topics in Computational Intelligence, 2018.

[2]: Daniel Gibert, “Convolutional Neural Networks for Malware Classification,” Thesis 2016.

[3]: Wookhyun Jung, Sangwon Kim,, Sangyong Choi, “Deep Learning for Zero-day Flash Malware Detection,” IEEE security, 2017.

[4]: Paweł Kobojek and Khalid Saeed, “Application of Recurrent

使用深度学习检测TOR流量——本质上是在利用报文的时序信息、传输速率建模的更多相关文章

AI安全初探——利用深度学习检测DNS隐蔽通道
AI安全初探——利用深度学习检测DNS隐蔽通道目录 AI安全初探——利用深度学习检测DNS隐蔽通道 1.DNS 隐蔽通道简介 2. 算法前的准备工作——数据采集 3. 利用深度学习进行DNS隐蔽通道 ...
使用深度学习检测DGA（域名生成算法）——LSTM的输入数据本质上还是词袋模型
from:http://www.freebuf.com/articles/network/139697.html DGA(域名生成算法)是一种利用随机字符来生成C&C域名,从而逃避域名黑名单检 ...
R-CNN,SPP-NET, Fast-R-CNN,Faster-R-CNN, YOLO, SSD, R-FCN系列深度学习检测方法梳理
1. R-CNN:Rich feature hierarchies for accurate object detection and semantic segmentation 技术路线:selec ...
R-CNN,SPP-NET, Fast-R-CNN,Faster-R-CNN, YOLO, SSD系列深度学习检测方法梳理
1. R-CNN:Rich feature hierarchies for accurate object detection and semantic segmentation 技术路线:selec ...
大数据DDos检测——DDos攻击本质上是时间序列数据，t+1时刻的数据特点和t时刻强相关，因此用HMM或者CRF来做检测是必然！和一个句子的分词算法CRF没有区别！
DDos攻击本质上是时间序列数据,t+1时刻的数据特点和t时刻强相关,因此用HMM或者CRF来做检测是必然!——和一个句子的分词算法CRF没有区别!注:传统DDos检测直接基于IP数据发送流量来识别, ...
深度学习动手入门：GitHub上四个超棒的TensorFlow开源项目
作者简介:akshay pai,数据科学工程师,热爱研究机器学习问题.Source Dexter网站创办人. TensorFlow是Google的开源深度学习库,你可以使用这个框架以及Python编程 ...
深度学习vs机器学习 | 这些本质区别你知道多少？
目录: 数据相关性硬件依赖性特征工程解决问题方法执行时间可解释性一.数据相关性深度学习与传统机器学习最重要的区别是,随着数据量的增加,其性能也随之提高.当数据很小的时候,深度学习算法并不 ...
深度学习笔记 (二) 在TensorFlow上训练一个多层卷积神经网络
上一篇笔记主要介绍了卷积神经网络相关的基础知识.在本篇笔记中,将参考TensorFlow官方文档使用mnist数据集,在TensorFlow上训练一个多层卷积神经网络. 下载并导入mnist数据集首 ...
深度学习框架TensorFlow在Kubernetes上的实践
什么是TensorFlow TensorFlow是谷歌在去年11月份开源出来的深度学习框架.开篇我们提到过AlphaGo,它的开发团队DeepMind已经宣布之后的所有系统都将基于TensorFlow ...

随机推荐

MVC ---- 去掉HTML过滤
在方法头上添加特效 [ValidateInput(false)] 富文本框提交的内容就可以顺利提交到后台了.
【Python】【Web开发】
# [[Web开发]] ''' 最早的软件都是运行在大型机上的,软件使用者通过“哑终端”登陆到大型机上去运行软件.后来随着PC机的兴起,软件开始主要运行在桌面上,而数据库这样的软件运行在服务器端,这种 ...
异步加载script,提高前端性能(defer和async属性的区别)
一.异步加载script的好处为了加快首屏响应速度,前端会采用代码切割.按需加载等方式优化性能.异步加载script也是一种前端优化的手段. 就好比如果我的页面其中一个功能需要打开地图,但是地图的j ...
WAI-ARIA无障碍网页应用属性完全展示
本文为原创辛苦之作,尊重劳动,转载请注明来自张鑫旭-鑫空间-鑫生活[http://www.zhangxinxu.com]本文地址:http://www.zhangxinxu.com/wordpress ...
NativeWindow_02_DialogBoxParam_VC6
PS: 代码参考于<<Windows环境下32位汇编语言程序设计.chm>>,第5章,"5.4 对话框(2)" . ZC: 与CreateWindow( ...
Ubuntu16.04 上安装MySQL5.7
Ubuntu版本:16.04.4 1.先更新最新的源 sudo apt-get update 2.查看是否已经安装过mysql sudo netstat -tap | grep mysq 如果没有安装 ...
Python 常见时间处理
Python 程序能用很多方式处理日期和时间,转换日期格式是一个常见的功能. Python 提供了一个 time 和 calendar 模块可以用于格式化日期和时间. 时间间隔是以秒为单位的浮点小数. ...
【Linux】linux常用查看命令
查看磁盘大小的命令df .du df -h 查看整台服务器的硬盘使用情况 du -sh * 查看每个文件夹的大小 ps -ef 查看所有进程 top 实时显示进程状态用户 free -m 查看内存使用 ...
android ------- TCP/IP
TCP/IP 是针对因特网的通信协议. 什么是 TCP/IP? TCP/IP 是供已连接因特网的计算机进行通信的通信协议. TCP/IP 指传输控制协议/网际协议 (Transmission Cont ...
Rest_framework 和路由配置（一）
简介 Django REST framework是一个建立在Django基础之上的Web 应用开发框架,可以快速的开发REST API接口应用. Rest_framework 核心思想: 缩减代码. ...

使用深度学习检测TOR流量——本质上是在利用报文的时序信息、传输速率建模

使用深度学习检测TOR流量——本质上是在利用报文的时序信息、传输速率建模的更多相关文章

随机推荐

热门专题