检测用户命令序列异常——使用LSTM分类算法【使用朴素贝叶斯，类似垃圾邮件分类的做法也可以，将命令序列看成是垃圾邮件】

通过搜集 Linux 服务器的 bash 操作日志，通过训练识别出特定用户的操作习惯，然后进一步识别出异常操作行为。

使用 SEA 数据集涵盖 70 多个 UNIX 系统用户的行为日志，这些数据来自 UNIX 系统 acct 机制记录的用户使用的命令。 SEA 数据集中每个用户都采集了 15000 条命令，从用户集合中随机抽取 50 个用户作为正常用户，剩余用户的命令块中随机插入模拟命令作为内部伪装者攻击数据。其中训练集合大小为 80，测试集合大小为 70。

数据集示意：

cpp

sh

xrdb

cpp

sh

xrdb

mkpts

test

stty

hostname

date

echo

[

find

chmod

tty

echo

env

echo

sh

userenv

wait4wm

xhost

xsetroot

reaper

xmodmap

sh

[

cat

stty

hostname

date

echo

[

find

chmod

tty

echo

sh

more

sh

more

sh

more

sh

more

sh

more

sh

more

sh

more

sh

more

sh

more

sh

more

sh

more

sh

launchef

launchef

sh

9term

sh

launchef

sh

launchef

hostname

[

cat

stty

hostname

date

echo

[

find

chmod

tty

echo

sh

more

sh

more

sh

ex

sendmail

sendmail

sh

MediaMai

sendmail

sh

rm

MediaMai

sh

rm

MediaMai

launchef

launchef

sh

sh

more

sh

sh

rm

MediaMai

netstat

netscape

netscape

netscape

netscape

netscape

netscape

netscape

netscape

netscape

netscape

netscape

netscape

netscape

netscape

netscape

netscape

netscape

netscape

netscape

sh

netscape

more

sh

rm

sh

MediaMai

=

telnet

tput

netscape

netscape

netscape

netscape

netscape

# -*- coding:utf-8 -*-

import sys

import re

import numpy as np

import nltk

import csv

import matplotlib.pyplot as plt

from nltk.probability import FreqDist

from sklearn.feature_extraction.text import CountVectorizer

from sklearn import cross_validation

from tflearn.data_utils import to_categorical, pad_sequences

from tflearn.datasets import imdb

import tflearn

#测试样本数

N=80

def load_user_cmd_new(filename):

    cmd_list=[]

    dist=[]

    with open(filename) as f:

        i=0

        x=[]

        for line in f:

            line=line.strip('\n')

            x.append(line)

            dist.append(line)

            i+=1

            if i == 100:

                cmd_list.append(x)

                x=[]

                i=0

    fdist = FreqDist(dist).keys()

    return cmd_list,fdist

def load_user_cmd(filename):

    cmd_list=[]

    dist_max=[]

    dist_min=[]

    dist=[]

    with open(filename) as f:

        i=0

        x=[]

        for line in f:

            line=line.strip('\n')

            x.append(line)

            dist.append(line)

            i+=1

            if i == 100:

                cmd_list.append(x)

                x=[]

                i=0

    fdist = FreqDist(dist).keys()

    dist_max=set(fdist[0:50])

    dist_min = set(fdist[-50:])

    return cmd_list,dist_max,dist_min

def get_user_cmd_feature(user_cmd_list,dist_max,dist_min):

    user_cmd_feature=[]

    for cmd_block in user_cmd_list:

        f1=len(set(cmd_block))

        fdist = FreqDist(cmd_block).keys()

        f2=fdist[0:10]

        f3=fdist[-10:]

        f2 = len(set(f2) & set(dist_max))

        f3=len(set(f3)&set(dist_min))

        x=[f1,f2,f3]

        user_cmd_feature.append(x)

    return user_cmd_feature

def get_user_cmd_feature_new(user_cmd_list,dist):

    user_cmd_feature=[]

    for cmd_list in user_cmd_list:

        x=[]

        for cmd in  cmd_list:

            v = [0] * len(dist)

            for i in range(0, len(dist)):

                if cmd == dist[i]:

                    v[i] = 1

            x.append(v)

        user_cmd_feature.append(x)

    return user_cmd_feature

def get_label(filename,index=0):

    x=[]

    with open(filename) as f:

        for line in f:

            line=line.strip('\n')

            x.append( int(line.split()[index]))

    return x

def do_knn(x_train,y_train,x_test,y_test):

    neigh = KNeighborsClassifier(n_neighbors=3)

    neigh.fit(x_train, y_train)

    y_predict=neigh.predict(x_test)

    score = np.mean(y_test == y_predict) * 100

    print  score

def do_rnn(x_train,x_test,y_train,y_test):

    global n_words

    # Data preprocessing

    # Sequence padding

    print "GET n_words embedding %d" % n_words

    #x_train = pad_sequences(x_train, maxlen=100, value=0.)

    #x_test = pad_sequences(x_test, maxlen=100, value=0.)

    # Converting labels to binary vectors

    y_train = to_categorical(y_train, nb_classes=2)

    y_test = to_categorical(y_test, nb_classes=2)

    # Network building

    net = tflearn.input_data(shape=[None, 100,n_words])

    net = tflearn.lstm(net, 10,  return_seq=True)

    net = tflearn.lstm(net, 10, )

    net = tflearn.fully_connected(net, 2, activation='softmax')

    net = tflearn.regression(net, optimizer='adam', learning_rate=0.1,name="output",

                             loss='categorical_crossentropy')

    # Training

    model = tflearn.DNN(net, tensorboard_verbose=3)

    model.fit(x_train, y_train, validation_set=(x_test, y_test), show_metric=True,

             batch_size=32,run_id="maidou")

if __name__ == '__main__':

    user_cmd_list,dist=load_user_cmd_new("../data/MasqueradeDat/User7")

    #print  "Dist:(%s)" % dist

    n_words=len(dist)

    user_cmd_feature=get_user_cmd_feature_new(user_cmd_list,dist)

    labels=get_label("../data/MasqueradeDat/label.txt",6)

    y=[0]*50+labels

    x_train=user_cmd_feature[0:N]

    y_train=y[0:N]

    x_test=user_cmd_feature[N:150]

    y_test=y[N:150]

    #print x_train

    do_rnn(x_train,x_test,y_train,y_test)

效果：

检测用户命令序列异常——使用LSTM分类算法【使用朴素贝叶斯，类似垃圾邮件分类的做法也可以，将命令序列看成是垃圾邮件】的更多相关文章

[分类算法] ：朴素贝叶斯 NaiveBayes
1. 原理和理论基础(参考) 2. Spark代码实例: 1)windows 单机 import org.apache.spark.mllib.classification.NaiveBayes im ...
【分类算法】朴素贝叶斯（Naive Bayes）
0 - 算法给定如下数据集 $$T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\},$$ 假设$X$有$J$维特征,且各维特征是独立分布的,$Y$有$K$种取值.则 ...
tf-idf、朴素贝叶斯的短文本分类简述
朴素贝叶斯分类器(Naïve Bayes classifier)是一种相当简单常见但是又相当有效的分类算法,在监督学习领域有着很重要的应用.朴素贝叶斯是建立在“全概率公式”的基础下的,由已知的尽可能多 ...
python实现随机森林、逻辑回归和朴素贝叶斯的新闻文本分类
实现本文的文本数据可以在THUCTC下载也可以自己手动爬虫生成, 本文主要参考:https://blog.csdn.net/hao5335156/article/details/82716923 nb ...
手写朴素贝叶斯（naive_bayes）分类算法
朴素贝叶斯假设各属性间相互独立,直接从已有样本中计算各种概率,以贝叶斯方程推导出预测样本的分类. 为了处理预测时样本的(类别,属性值)对未在训练样本出现,从而导致概率为0的情况,使用拉普拉斯修正(假设 ...
机器学习实战之朴素贝叶斯进行文档分类（Python 代码版）
贝叶斯是搞概率论的.学术圈上有个贝叶斯学派.看起来吊吊的.关于贝叶斯是个啥网上有很多资料.想必读者基本都明了.我这里只简单概括下:贝叶斯分类其实就是基于先验概率的基础上的一种分类法,核心公式就是条件概 ...
<Machine Learning in Action >之二朴素贝叶斯 C#实现文章分类
def trainNB0(trainMatrix,trainCategory): numTrainDocs = len(trainMatrix) numWords = len(trainMatrix[ ...
[机器学习] 分类 --- Naive Bayes（朴素贝叶斯）
Naive Bayes-朴素贝叶斯 Bayes' theorem(贝叶斯法则) 在概率论和统计学中,Bayes' theorem(贝叶斯法则)根据事件的先验知识描述事件的概率.贝叶斯法则表达式如下所示 ...
AI学习---分类算法[K-近邻 + 朴素贝叶斯 + 决策树 + 随机森林 ]
分类算法:对目标值进行分类的算法 1.sklearn转换器(特征工程)和预估器(机器学习) 2.KNN算法(根据邻居确定类别 + 欧氏距离 + k的确定),时间复杂度高,适合小数据 ...
机器学习Matlab打击垃圾邮件的分类————朴素贝叶斯模型
该系列来自于我<人工智能>课程回顾总结,以及实验的一部分进行了总结学习机垃圾分类是有监督的学习分类最经典的案例,本文首先回顾了概率论的基本知识.则以及朴素贝叶斯模型的思想.最后给出了垃圾 ...

随机推荐

github删除某个库repository
1.登陆gihub网站,在该选中需要删除的repository,点击进去 2.删除repository 点击进去以后进入新的页面,拉到页面尾部,如图然后弹出确认框,再输入需要删除的repositor ...
el-cascader 级联选择器使用时遇到的一些问题
Element UI Cascader官网文档 <el-form-item label="章节" style="margin-right: 64px"&g ...
【Java】【反射】
一,java的核心机制 java有两种核心机制:java虚拟机(JavaVirtual Machine)与垃圾收集机制(Garbage collection): Java虚拟机:是运行所有Java程序 ...
JaveWeb 公司项目（1）----- 使Div覆盖另一个Div完成切换效果
最近在做网页,用的是CSS+DIV的布局方法,搭建了一个简易的界面,大体上分为三个部分,如图所示: 左侧的为主功能导航栏,右侧是具体的功能实现,下方是固定的版权声明,单击左边不同的导航按钮,在div中 ...
config配置
<?php /** * User: Eden * Date: 2019/3/30 * 共有内容 */ /** CREATE TABLE `tf_configs` ( `id` int(11) N ...
Python 循环与定义函数
break for i in range(10): if i == 2: break print i 0 1 continue for i in range(10): if i == 2: conti ...
Python day3_string的常见方法2_笔记
1.分割字符串的4个方法partition,rpartition,split,rsplit(区别,partition是仅分割一个,split分割全部,r是从右边开始分割,split可以传参数,自定义分 ...
关于git提示“warning: LF will be replaced by CRLF”终极解答
一.发现问题 windows平台下使用git add,git deploy 文件时经常出现“warning: LF will be replaced by CRLF” 的提示. 网上很多解决办法提到: ...
try....fail....catch...Assert 模式的测试, fail是Junit中的功能
try { // 反射读取properties文件 new BufferedReader(new FileReader(myConfigPath[4])); //上面没有抛出异常就是执行fail, / ...
JAVA基础知识总结：十五
一.Set接口 Set集合不允许包含相同的元素,如果试图将两个相同的元素添加到一个集合中,使用add方法,添加失败,返回false 1.HashSet HashSet是Set集合的一个实现类,大多数情 ...

检测用户命令序列异常——使用LSTM分类算法【使用朴素贝叶斯，类似垃圾邮件分类的做法也可以，将命令序列看成是垃圾邮件】

检测用户命令序列异常——使用LSTM分类算法【使用朴素贝叶斯，类似垃圾邮件分类的做法也可以，将命令序列看成是垃圾邮件】的更多相关文章

随机推荐

热门专题