我们在使用机器学习做DNS隐蔽通道检测的过程中,不得不面临样本收集的问题,没办法,机器学习没有样本真是“巧妇难为无米之炊”啊!

本文简单介绍了DNS隐蔽通道传输工具iodine,并介绍如何从iodine的网络流量中抓取DNS报文生成pcap包,并将其转化为机器学习检测算法所能够识别的文本文件。

1、环境准备和iodine安装

DNS隐蔽通道工具iodine分为服务器端程序iodined和客户端程序iodine。服务器端程序iodined提供特定域名的DNS解析服务。当客户端请求该域名的解析,就可以建立通道连接。iodine支持NULL,TXT,SRV,MX,CNAME,A等多种查询请求类型,并且支持EDNS,支持base32,base64,base128等多种编码规范,更多使用方法和功能特性请参考官方文档。

iodine支持直接转发和中继两种模式。客户端和服务端建立通信后,可以看到客户机上多出一块名为dns0的虚拟网卡。本文使用iodine直连模式建立DNS通道。

在安装DNS 通道工具iodine之前,你需要准备2台linux机器,其中一台作为DNS隐蔽通道的Client,另外一台作为目标DNS Server。接下来在两台linux机器上安装iodine。

DNS 通道工具iodine的主页在http://code.kryo.se/iodine/,视你使用的操作系统版本而定,安装过程详见官方文档。安装成功以后,输入iodined --help应该输出类似图3的结果。

图 1 iodined --help帮助文档

2、捕获iodine收发的DNS报文

在iodine的Server机器上,执行:sudo iodined -P passwd -f -DD 192.168.0.1 abc.com

其中,abc.com域名是自定义的传输DNS隐蔽通道数据的主域名,192.168.0.1是自定义输入的虚拟IP,passwd是自定义的密码。

在iodine的Client机器上,开启tcpdump DNS抓包,执行:sudo tcpdump -i <eth0> port 53 -w iodine direct.pcap即可,记得将<eth0>换成你的网卡名。然后执行:sudo iodine -P passwd -f -r -T TXT <your iodine server ip> abc.com

其中,<your iodine server ip> 需要替换成iodine server端机器的IP(两台机器在同一个内网里的话,填写内网IP即可)。

上述步骤操作成功后,在Client和Server机器控制台上可以看到如下输出:

图2 iodine Client端输出

图3 iodine Server端输出

从图3可以看出,iodine在建立DNS通道连接的过程中,使用了大量的特殊字符子域名。而在DNS报文中包含大量的不符域名规范的子域名是DNS隐蔽通道的检测特征之一。

查看Server和Client端的网卡配置,可以看到两台机器都多出了dns0的虚拟网卡。

图4 Client端在建立iodine DNS通道后多出了dns0虚拟网卡

图5 Server端在建立iodine DNS通道后多出了dns0虚拟网卡

实际上,访问server端设定的192.168.0.1 IP地址和直接访问iodine server机器IP是一样的,例如你可以通过ssh root@192.168.0.1来实现对server端机器的远程登录,使用scp来传输文件,甚至使用shadowsocks来反向代理来上网等。

接下来使用wireshark查看tcpdump刚刚抓到的包:

图6 wireshark查看tcpdump抓包

如图6所示,可以看到针对abc.om这个主域名,包含了大量的子域名请求,而这些子域名负责携带外发数据。

由于机器学习的检测算法并不认pcap这种特殊的文件格式,因此需将其转化为检测算法所能够识别的文本文件。我们暂且称这种文本文件为pcap metadata文件吧。

3、从pcap报文生成pcap metadata

pcap metadata文件是由“^”分割的描述网络传输报文的文本文件,其示意格式如下(包含了3条报文):

^^10.0.2.15^45.77.39.243^40812^53^17^^^^^1513249151.379262000^1513249151.573115000^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^0^dnscat.21.nmosubth.6d76676c.3.fegigfcaenejfecaemgjgdgfgohdgfcacienejfecjakakedgphahjhcgjghgi.hecacigdcjcadcdadbdgcaeogjgdglcaengdedgmhfhcgfakedgphahjhcgjgh.gihecacigdcjcadcdadbdgcafagbgdglhecafahfgcgmgjhdgigjgogh.cdcp.directdns^5^0x00000001^193853.139877^1^10.0.2.15;45.77.39.243^^^^^^^^^^^^^^^^^^^^^c56d0100000100000000000006646e73636174023231086e6d6f737562746808366437363637366301333e6665676967666361656e656a66656361656d676a67646766676f6864676663616369656e656a6665636a616b616b656467706861686a6863676a676867693e6865636163696764636a636164636461646264676361656f676a6764676c6361656e67646564676d686668636766616b656467706861686a6863676a67683867696865636163696764636a636164636461646264676361666167626764676c68656361666168666763676d676a68646769676a676f6768046364637009646972656374646e730000050001^^^^^^^^^46^^^^^^^^^^^
^^10.0.2.15^45.77.39.243^40812^53^17^^^^^1513249151.573388000^1513249151.767184000^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^0^dnscat.21.nmosubth.6d76676d.3.akakfagfhcgngjhdhdgjgpgocagjhdcagigfhcgfgchjcaghhcgbgohegfgecm.cagghcgfgfcagpggcagdgigbhcghgfcmcahegpcagbgohjcahagfhchdgpgoca.gpgchegbgjgogjgoghcagbcagdgphahjakgpggcahegigjhdcahdgpgg.vpqg.directdns^5^0x00000001^193795.919418^1^10.0.2.15;45.77.39.243^^^^^^^^^^^^^^^^^^^^^254d0100000100000000000006646e73636174023231086e6d6f737562746808366437363637366401333e616b616b666167666863676e676a68646864676a6770676f6361676a6864636167696766686367666763686a6361676868636762676f686567666765636d3e636167676863676667666361677067676361676467696762686367686766636d63616865677063616762676f686a636168616766686368646770676f6361386770676368656762676a676f676a676f6768636167626361676467706861686a616b67706767636168656769676a68646361686467706767047670716709646972656374646e730000050001^^^^^^^^^46^^^^^^^^^^^
^^10.0.2.15^45.77.39.243^40812^53^17^^^^^1513249151.767307000^1513249151.959258000^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^0^dnscat.21.nmosubth.6d76676e.3.hehhgbhcgfcagbgogecagbhdhdgpgdgjgbhegfgecagegpgdhfgngfgohegbhe.gjgpgocagggjgmgfhdcacihegigfcaccfdgpgghehhgbhcgfcccjcmcahegpca.gegfgbgmakgjgocahegigfcafdgpgghehhgbhcgfcahhgjhegigphfhe.zork.directdns^5^0x00000001^191951.036453^1^10.0.2.15;45.77.39.243^^^^^^^^^^^^^^^^^^^^^0cea0100000100000000000006646e73636174023231086e6d6f737562746808366437363637366501333e6865686867626863676663616762676f6765636167626864686467706764676a676268656766676563616765677067646866676e6766676f6865676268653e676a6770676f63616767676a676d676668646361636968656769676663616363666467706767686568686762686367666363636a636d636168656770636138676567666762676d616b676a676f636168656769676663616664677067676865686867626863676663616868676a68656769677068666865047a6f726b09646972656374646e730000050001^^^^^^^^^46^^^^^^^^^^^

使用github上的generate_metadata_from_pcap.py 脚本文件将pcap文件转换为metadata文件。值得注意的是在使用该脚本前,需要安装wireshark以便使用tshark命令,否则脚本会抱怨找不到tshark路径。 

图7 使用generate_metadata_from_pcap.py 脚本前需要先安装wireshark

接下来,使用:python generate_metadata_from_pcap.py  <your pcap file path> <metadata save dir> 即可生成metadata文件了,成功操作后的效果如图8所示。

图8 由pcap文件成功生成metadata文件

最后,就可以将该metadata文件作为样本,用机器学习来进行DNS 隐蔽通道检测了。

转载请注明出处: http://www.cnblogs.com/bonelee/p/8081744.html

利用机器学习进行DNS隐蔽通道检测——数据收集,利用iodine进行DNS隐蔽通道样本收集的更多相关文章

  1. Python 3 利用机器学习模型 进行手写体数字检测

    0.引言 介绍了如何生成手写体数字的数据,提取特征,借助 sklearn 机器学习模型建模,进行识别手写体数字 1-9 模型的建立和测试. 用到的几种模型: 1. LR,Logistic Regres ...

  2. Python 3 利用 Dlib 19.7 和 sklearn机器学习模型 实现人脸微笑检测

    0.引言  利用机器学习的方法训练微笑检测模型,给一张人脸照片,判断是否微笑:   使用的数据集中69张没笑脸,65张有笑脸,训练结果识别精度在95%附近: 效果: 图1 示例效果 工程利用pytho ...

  3. Python 3 利用 Dlib 和 sklearn 人脸笑脸检测机器学习建模

    0. 引言 利用机器学习的方法训练微笑检测模型,输入一张人脸照片,判断是否微笑: 精度在 95% 左右( 使用的数据集中 69 张没笑脸,65 张有笑脸 ): 图1 测试图像与检测结果 项目实现的笑脸 ...

  4. 利用XtraBackup给MYSQL热备(基于数据文件)

    利用XtraBackup给MYSQL热备(基于数据文件) By JRoBot on 2013 年 11 月 26 日 | Leave a response 利用XtraBackup给MYSQL热备(基 ...

  5. DNS通道检测 国内学术界研究情况——研究方法:基于特征或者流量,使用机器学习决策树分类算法居多

    http://xuewen.cnki.net/DownloadArticle.aspx?filename=BMKJ201104017&dbtype=CJFD<浅析基于DNS协议的隐蔽通道 ...

  6. DNS通道检测 国外学术界研究情况——研究方法:基于流量,使用机器学习分类算法居多,也有使用聚类算法的;此外使用域名zif low也有

    http://www.ijrter.com/papers/volume-2/issue-4/dns-tunneling-detection.pdf <DNS Tunneling Detectio ...

  7. 利用机器学习检测HTTP恶意外连流量

    本文通过使用机器学习算法来检测HTTP的恶意外连流量,算法通过学习恶意样本间的相似性将各个恶意家族的恶意流量聚类为不同的模板.并可以通过模板发现未知的恶意流量.实验显示算法有较好的检测率和泛化能力. ...

  8. Python 3 利用机器学习模型 进行手写体数字识别

    0.引言 介绍了如何生成数据,提取特征,利用sklearn的几种机器学习模型建模,进行手写体数字1-9识别. 用到的四种模型: 1. LR回归模型,Logistic Regression 2. SGD ...

  9. Stanford机器学习---第十一讲.异常检测

    之前一直在看Standford公开课machine learning中Andrew老师的视频讲解https://class.coursera.org/ml/class/index 同时配合csdn知名 ...

随机推荐

  1. LeetCode Weekly Contest 24

    1, 543. Diameter of Binary Tree 维护左右子树的高度,同时更新结果,返回以该节点结束的最大长度.递归调用. /** * Definition for a binary t ...

  2. function at line ### more than 60 upvalues

    lua中函数的upvalues是有上限的,在luaconf.h中定义: /*@@ LUAI_MAXUPVALUES is the maximum number of upvalues per func ...

  3. 在django中应用装饰器(一)

    在新写的博客应用中,涉及很多关于权限的问题,比如修改用户信息,博客的修改与删除,虽然默认的提交信息都是session的用户,但是也应该防止一下篡改提交的可能,之前想的是在每个view中加一段判断的逻辑 ...

  4. SQL学习整理

    SQL整理 SQL 对大小写不敏感! 一.对数据的操作 实现功能分类: 1. 增: 1.1 表存在,插入栏位: //插入新的行(按栏位的顺序插入) INSERT INTO Table_1 VALUES ...

  5. 定义maven的项目结构

    创建一个Maven 的父项目 新建一个maven项目,选中create a simple project 填写以下内容: 如下内容: Group Id :edu.zipcloud.cloudstree ...

  6. Android GoogleMap 谷歌地图从零开始

    说明 由于国内使用v2最新的谷歌地图有很多限制,所有如果要在真机上测试运行要做一些准备 准备1: vpn必不可少啦 推荐cloud vpn或者betternet都是不错的免费vpn 准备2: 由于最新 ...

  7. (转载)Activity-数据状态的保存

    由于手机是便捷式移动设备,掌握在用户的手中,它的展示方向我们是无法预知的,具有不确定性.平时我们拿着手机多数为竖屏,但有时候我们感觉累了也会躺着去使用手机,那么这时手机屏幕的展示方向可能已经被用户切换 ...

  8. JQuery学习笔记系列(一)----选择器详解

    笔者好长时间没有更新过博客园的笔记了,一部分原因是去年刚刚开始工作一段时间忙碌的加班,体会了一种每天加班到凌晨的充实感,之后闲暇时间了也因为自己懒惰没有坚持记笔记的习惯,现在重新拾起来. 借用古人的一 ...

  9. ubuntu 安装 OpenCV-CUDA

    参考链接:http://www.cnblogs.com/platero/p/3993877.html 官方指导:https://help.ubuntu.com/community/OpenCV 0.这 ...

  10. jquery里面的一些方法

    Event 函数 绑定函数至 $(document).ready(function) 将函数绑定到文档的就绪事件(当文档完成加载时) $(selector).click(function) 触发或将函 ...