Maple Dataset 枫叶数据集
Maple Dataset枫叶数据集由东北林业大学网络安全实验室(https://maple.nefu.edu.cn/lab/)公开发布,是用于入侵检测评估的数据集,其目的在于提升异常基础入侵检测系统(IDS)以及入侵预防系统(IPS)的性能与可靠性。在网络攻击愈发复杂的当下,拥有一个可靠且紧跟时代的数据集,对于测试和验证 IDS 及 IPS 解决方案是极其重要的。

且如今的网络攻击手段多样,攻击者常常采用混合式攻击,如同时结合病毒、木马和网络钓鱼等方式。在这种情况下,如果没有高质量的数据集来对 IDS 和 IPS 进行测试,就难以确保其能有效地抵御这些复杂攻击。又如,新出现的零日攻击等未知威胁,更需要借助最新的数据集来训练和验证防护系统,以便及时发现和防范。

枫叶数据集旨在提供最新的、多样化的攻击数据,以帮助研究人员和开发者更好地评估和改进他们的入侵检测和预防系统。我们在大量的服务上生成并采集了恶意流量,包含了最新的 CVE,以及真实世界中存在着的恶意攻击类型。

数据集官网:https://maple.nefu.edu.cn/

数据集性质:供科研学术可免费公开使用,但请引用我们的官网或论文。

数据集列表:

DDoS: HTTP (Plain/gzip/random), TCP, UDP, ReCOIL, LOIC
DNS: DoH, DoQ, DoT (coming soon)
ICMP: Normal ICMP, Smuggled ICMP
MySQL: CVE-2012-2122
Nginx: CVE-2017-7529
OpenSSL: CVE-2022-0778, HeartBleed, Normal traffic
Windows OS: Windows 10 provision, Windows Update
VPN: Cisco AnyConnect, DNS Leak, Trojan traffic (coming soon)
如何使用
直接使用 CSV 文件
数据集中提供的 CSV 已经符合了 CIC-IDS 中的列与元信息。
改动 Python 中加载 *.csv 的名称即可。
从流量文件手动生成 CSV
准备好上方下载完的数据集流量文件(*.pcap)。
使用 CICFlowMeter (https://github.com/ahlashkari/CICFlowMeter) 打开。
选取离线模式,导出为 CSV 文件。
研究背景
传统的评估数据集的攻击流量和利用方式,往往内容过时、流量多样性不足、攻击种类不足、特征不足。重要的是,随着 HTTPS/TLS 加密的普及了,恶意流量被层层加密,无法被安全设备解析。

因此,枫叶数据集提供了一个全面、现代的数据集来供机器学习人员学习恶意流量特征,用于入侵检测研究。

兼容使用CIC-IDS数据集的代码
如果你的代码或模型是用 CIC-IDS 数据集训练或者编写的,那么可以直接更换到枫叶数据集上,我们的格式兼容了 CIC-IDS。

您可以直接使用 CICFlowMeter 这个工具来生成 CSV 文件,输入到机器学习模型中。

无需重写代码或进行其他改动。

数据集类别概览(包含内容)
内容:数据集包含最新的常见攻击,类似于真实世界的网络流量(PCAP/PCAPNG 格式)。
流量分析:使用 CICFlowMeter 进行的网络流量分析结果,标记基于时间戳、源和目标IP地址、端口、协议和攻击类型的流,存储在CSV文件中。
DDoS 攻击:数据集包括 DDoS 攻击,这些在真实世界的网络流量中很常见。并且由于随机内容,数据集更加多样化。GET、POST、HEAD 和 OPTIONS 是最常见的 HTTP 方法。
对每种服务细分的流量包和数据集 :我们对于每种服务(HTTP、HTTPS、SMTP、IMAP、POP3、FTP、SSH、RESTful API、gRPC、WASM)都提供了数据集。
多样的流量 :对于 ping 或者 HTTP,DDoS 的形式就多种多样,TCP,UDP, SYN 攻击,还有 ICMP 走私,我们的数据集都有覆盖到。
N-day 漏洞:数据集包括 n-day 漏洞,如 OpenSSL 中存在的著名漏洞 HeartBleed,日后打算囊括更多的 CVE 漏洞。
更多功能即将推出
DPDK、PF_RING 支持
如果您有任何问题或建议,请给我们反馈。

数据生成
与完全随机的流量不同,我们根据真实世界中用户、端点和流量的行为模式,对流量的结构进行编排配置。在流量加密方法上,基于了 HTTP、HTTPS与SM3/4等进行数据包构造。 模拟了对于 SSH、RESTful API、gRPC、WASM 流量的,这些现代协议及其各种实现等,组成了本数据集的主要部分。

处理工具
在创建数据集的过程中,我们使用了许多自己开发的工具。
它们是开源的,可以从 GitHub 上免费下载。
大部分工具的仓库中都有教程。

联系我们
有任何问题或需要帮助,请随时与我们联系:

电子邮件:maple@nefu.edu.cn
GitHub:github.com/maple-nefu
QQ 群:631300176

东北林业大学实验室官网:https://maple.nefu.edu.cn/lab/

网络安全公开数据集Maple-IDS,恶意流量检测数据集开放使用!的更多相关文章

  1. 识别TLS加密恶意流量

    利用背景流量数据(contexual flow data)识别TLS加密恶意流量 识别出加密流量中潜藏的安全威胁具有很大挑战,现已存在一些检测方法利用数据流的元数据来进行检测,包括包长度和到达间隔时间 ...

  2. 利用背景流量数据(contexual flow data) 识别TLS加密恶意流量

    识别出加密流量中潜藏的安全威胁具有很大挑战,现已存在一些检测方法利用数据流的元数据来进行检测,包括包长度和到达间隔时间等.来自思科的研究人员扩展现有的检测方法提出一种新的思路(称之为“dataomni ...

  3. 使用机器学习检测TLS 恶意加密流——业界调研***有开源的数据集,包括恶意证书的,以及恶意tls pcap报文***

    2018 年的文章, Using deep neural networks to hunt malicious TLS certificates from:https://techxplore.com ...

  4. 针对于网络安全领域中基于PCAP流量的数据集

    网络安全领域中基于PCAP流量的数据集 MAWI Working Group Traffic Archive URL:http://mawi.wide.ad.jp/mawi/ CIC dataset ...

  5. 基于PU-Learning的恶意URL检测

    https://xz.aliyun.com/t/2190 Ya-Lin Zhang, Longfei Li, Jun Zhou, Xiaolong Li, Yujiang Liu, Yuanchao ...

  6. 基于PU-Learning的恶意URL检测——半监督学习的思路来进行正例和无标记样本学习

    PU learning问题描述 给定一个正例文档集合P和一个无标注文档集U(混合文档集),在无标注文档集中同时含有正例文档和反例文档.通过使用P和U建立一个分类器能够辨别U或测试集中的正例文档 [即想 ...

  7. 机器学习&恶意代码检测简介

    Malware detection 目录 可执行文件简介 检测方法概述 资源及参考文献 可执行文件简介 ELF(Executable Linkable Format) linux下的可执行文件格式,按 ...

  8. DDoS攻击流量检测方法

    检测分类 1)误用检测 误用检测主要是根据已知的攻击特征直接检测入侵行为.首先对异常信息源建模分析提取特征向量,根据特征设计针对性的特征检测算法,若新数据样本检测出相应的特征值,则发布预警或进行反应. ...

  9. 基于深度学习的安卓恶意应用检测----------android manfest.xml + run time opcode, use 深度置信网络(DBN)

    基于深度学习的安卓恶意应用检测 from:http://www.xml-data.org/JSJYY/2017-6-1650.htm 苏志达, 祝跃飞, 刘龙     摘要: 针对传统安卓恶意程序检测 ...

  10. 恶意代码检测工具 -- Mathematics Malware Detected Tools

    Mathematics Malware Detected Tools 重要:由于缺少测试数据,部分结论可能不正确.更多更准确的结论,还需要进行大量实验. 概述 mmdt(Mathematics Mal ...

随机推荐

  1. Java类全路径冲突解决方法

    1. 问题 今天在开发中遇到这样一个问题,A同事在导入了我们的实验SDK后,发现实验无法正常获取,查看日志发现了NoClassDefFoundError异常,无法加载的的类中逻辑比较简单,只依赖了另外 ...

  2. Java 集合元素排序接口Comparable

    什么是Comparable public interface Comparable<T> { /** * Compares this object with the specified o ...

  3. 如何让 3D 数字孪生场景闪闪发光

    今日图扑软件功能分享:我们将探讨 HT 系统如何通过分组管理灯光.裁切体和流光,以提高场景光影效果的精准度和整体可控性. HT 中的灯光.裁切体.流光是会影响它所在区域一定范围内的其他节点的表现,如 ...

  4. THM-Skynet-Writeup

    通过学习相关知识点:攻破Linux目标机器并完成提权操作. 部署并渗透目标机器 step1 使用Nmap扫描端口 nmap -p- -sC -sV -T4 -v 10.10.164.81 139/44 ...

  5. JDK工具包:jshell

    JDK工具包:jshell 简介 使用 jshell 工具可以执行 Java 代码,从而立即获取结果. 您可以输入 Java 定义(变量.方法.类等等) 例如: int x = 8 或 Java 表达 ...

  6. MiniAuth 一个轻量 ASP.NET Core Identity Web 后台管理中间插件

    MiniAuth 一个轻量 ASP.NET Core Identity Web 后台管理中间插件 「一行代码」为「新.旧项目」 添加 Identity 系统跟用户.权限管理网页后台系统 开箱即用,避免 ...

  7. 自己在本地搭建 git 版本仓库服务器

    请确保你安装了 git 的图形化工具和 git 软件 首先先创建一个目录作为你的项目工程目录,比如 e:/gitTest 其次右键 git init. 然后指定一个 git 服务器目录,例如:e:/g ...

  8. 手把手教你本地运行Meta最新大模型:Llama3.1,可是它说自己是ChatGPT?

    就在昨晚,Meta发布了可以与OpenAI掰手腕的最新开源大模型:Llama 3.1. 该模型共有三个版本: 8B 70B 405B 对于这次发布,Meta已经在超过150个涵盖广泛语言范围的基准数据 ...

  9. java srpint boot 2.2.1 第二部份,乐观锁机制, 构造复杂查询条件,分页查询 相关内容,删除与软删除

    第二部份,引起锁机制的原理和解决方案: 测试环境搭建第一步先建一个数据库表用于模拟商品购买. CREATE TABLE product ( id INT AUTO_INCREMENT PRIMARY ...

  10. jmeter forEach循环获取response参数值进行接口请求

    jmeter forEach循环获取response参数值进行接口请求 注意: 一,ForEach控制器 输入变量前缀:输入正则表达式变量的引用名称即可 Start index for loop(ex ...