pandas 绘图机器学习看特征相关性

pandas 绘图

import numpy as np

import tflearn

from tflearn.layers.core import dropout

from tflearn.layers.normalization import batch_normalization

from tflearn.data_utils import to_categorical

from sklearn.model_selection import train_test_split

import sys

import pandas as pd

from pandas import Series,DataFrame

import matplotlib.pyplot as plt 

data_train = pd.read_csv("feature_with_dnn_todo2.dat")

data_train.info()

import matplotlib.pyplot as plt

print(data_train.columns)

for col in data_train.columns[1:]:

    fig = plt.figure()

    fig.set(alpha=0.2)

    plt.figure()

    data_train[data_train.label == 0.0][col].plot()

    data_train[data_train.label == 1.0][col].plot()

    data_train[data_train.label == 2.0][col].plot()

    data_train[data_train.label == 3.0][col].plot()

    plt.xlabel(u"sample data id")

    plt.ylabel(col)

    plt.title(col)

    plt.legend((u'white', u'cdn',u'tunnel', u"msad"),loc='best')

    plt.show()

结果：

Index(['label', 'flow_cnt', 'len(srcip_arr)', 'len(dstip_arr)',
       'subdomain_num', 'uniq_subdomain_ratio',
       'np.average(dns_request_len_arr)', 'np.average(dns_reply_len_arr)',
       'np.average(subdomain_tag_num_arr)', 'np.average(subdomain_len_arr)',
       'np.average(subdomain_weird_len_arr)',
       'np.average(subdomain_entropy_arr)', 'A_rr_type_ratio',
       'incommon_rr_type_rato', 'valid_ipv4_ratio', 'uniq_valid_ipv4_ratio',
       'request_reply_ratio', 'np.max(dns_request_len_arr)',
       'np.max(dns_reply_len_arr)', 'np.max(subdomain_tag_num_arr)',
       'np.max(subdomain_len_arr)', 'np.max(subdomain_weird_len_arr)',
       'np.max(subdomain_entropy_arr)', 'avg_distance', 'std_distance'],
      dtype='object')

。。。。

输入数据样例：

label,flow_cnt,len(srcip_arr),len(dstip_arr),subdomain_num,uniq_subdomain_ratio,np.average(dns_request_len_arr),np.average(dns_reply_len_arr),np.average(subdomain_tag_num_arr),np.average(subdomain_len_arr),np.average(subdomain_weird_len_arr),np.average(subdomain_entropy_arr),A_rr_type_ratio,incommon_rr_type_rato,valid_ipv4_ratio,uniq_valid_ipv4_ratio,request_reply_ratio,np.max(dns_request_len_arr),np.max(dns_reply_len_arr),np.max(subdomain_tag_num_arr),np.max(subdomain_len_arr),np.max(subdomain_weird_len_arr),np.max(subdomain_entropy_arr),avg_distance,std_distance
0.0,1.0,1.0,1.0,1.0,1.0,35.0,148.0,1.0,3.0,0.0,0.0,1.0,0.0,1.0,1.0,0.142857142857,35.0,148.0,1.0,3.0,0.0,-0.0,0,0
0.0,10.0,1.0,3.0,6.0,0.6,42.7,143.5,1.83333333333,8.5,0.0,2.75986309274,0.6,0.0,0.2,0.2,0.0117096018735,44.0,287.0,2.0,10.0,0.0,2.94770277922,2.2,1.46969384567
0.0,100.0,1.0,2.0,50.0,0.5,49.63,62.96,1.0,7.7,0.0,2.41418035734,0.51,0.0,0.26,0.01,0.00100745516825,56.0,134.0,1.0,14.0,0.0,3.27761343682,7.14285714286,2.65729646253
0.0,100.0,1.0,3.0,17.0,0.17,46.11,70.53,1.0,4.47058823529,0.0,1.29411764706,0.4,0.0,0.13,0.05,0.00108436347864,54.0,631.0,1.0,12.0,0.0,3.0,5.1875,1.84454432042
0.0,100.0,1.0,4.0,50.0,0.5,45.8,59.59,1.0,5.8,0.0,2.06068705052,0.5,0.0,0.22,0.01,0.00109170305677,46.0,126.0,1.0,6.0,0.0,2.58496250072,4.14285714286,0.925820099773
0.0,100.0,11.0,7.0,26.0,0.26,42.64,58.51,1.0,4.80769230769,0.0,1.53846153846,0.84,0.0,0.7,0.25,0.00117260787992,47.0,201.0,1.0,5.0,0.0,2.0,1.28,0.825590697622

。。。

pandas 绘图机器学习看特征相关性的更多相关文章

pandas绘图总结
转自:http://blog.csdn.net/genome_denovo/article/details/78322628 pandas绘图总结 pandas中的绘图函数(更加详细的绘图资料可参考p ...
什么是机器学习的特征工程？【数据集特征抽取（字典，文本TF-Idf）、特征预处理（标准化，归一化）、特征降维（低方差，相关系数，PCA）】
2.特征工程 2.1 数据集 2.1.1 可用数据集 Kaggle网址:https://www.kaggle.com/datasets UCI数据集网址: http://archive.ics.uci ...
matplotlib + pandas绘图
利用pandas处理日期数据,并根据日期绘制增长率曲线. 处理的json文本内容如下: # pd.json [{"name": "A", "date& ...
机器学习：特征脸算法 EigenFaces
人脸识别是机器学习和机器视觉领域非常重要的一个研究方向,而特征脸算法是人脸识别里非常经典的一个算法,EigenFaces 是基于PCA (principal component analysis) 即 ...
Python之Pandas绘图，设置显示中文问题
# -*- coding: utf-8 -*- # author:baoshan import pandas as pd import matplotlib.pyplot as plt plt.rcP ...
[Python]-pandas模块-机器学习Python入门《Python机器学习手册》-03-数据整理
<Python机器学习手册--从数据预处理到深度学习> 这本书类似于工具书或者字典,对于python具体代码的调用和使用场景写的很清楚,感觉虽然是工具书,但是对照着做一遍应该可以对机器学习 ...
[Python]-pandas模块-机器学习Python入门《Python机器学习手册》-02-加载数据：加载文件
<Python机器学习手册--从数据预处理到深度学习> 这本书类似于工具书或者字典,对于python具体代码的调用和使用场景写的很清楚,感觉虽然是工具书,但是对照着做一遍应该可以对机器学习 ...
Python数据科学手册-机器学习之特征工程
特征工程常见示例: 分类数据.文本.图像. 还有提高模型复杂度的衍生特征和处理缺失数据的填充方法.这个过程被叫做向量化.把任意格式的数据转换成具有良好特性的向量形式. 分类特征比如房屋数 ...
pandas绘图
#encoding:utf8 import pandas as pd import numpy as np import matplotlib.pyplot as plt df = pd.DataFr ...

随机推荐

笔试算法题（54）：快速排序实现之单向扫描、双向扫描（single-direction scanning, bidirectional scanning of Quick Sort）
议题:快速排序实现之一(单向遍历) 分析: 算法原理:主要由两部分组成,一部分是递归部分QuickSort,它将调用partition进行划分,并取得划分元素P,然后分别对P之前的部分和P 之后的部分 ...
笔试算法题（07）：还原后序遍历数组 & 半翻转英文句段
出题:输入一个整数数组,判断该数组是否符合一个二元查找树的后序遍历(给定整数数组,判定其是否满足某二元查找树的后序遍历): 分析:利用后序遍历对应到二元查找树的性质(序列最后一个元素必定是根节点,从左 ...
phpstorm破解激活码
一.将“0.0.0.0 account.jetbrains.com”添加到hosts文件中二.浏览器打开 http://idea.lanyus.com,点击页面中的“获得注册码”,然后在注册时切换至 ...
Wireshark does not show SSL/TLS
why it doesn't show as "TLS/SSL"? Because it's not on the standard port for SSL/TLS. You c ...
C#上位机开发（三）—— 构建SerialAssistant雏形
上一篇简单介绍了C#的一些基本知识,并成功的Hello,World,那么从这篇开始,我们来自己动手写一个串口助手: 1.构思功能串口助手在单片机开发中经常被用来调试,最基本的功能就是接收功能和发送功 ...
Spring之HelloWorld
[Spring是什么?] 1.Spring是一个开源框架. 2.Spring为简化企业级应用开发而生,使用Spring可以使简单的JavaBean实现以前只有EJB(EJB是sun的JavaEE服务器 ...
593. Valid Square
Problem statement: Given the coordinates of four points in 2D space, return whether the four points ...
JS前端取得并解析后台服务器返回的JSON数据的方法
摘要:主要介绍:使用eval函数解析JSON数据:$.getJSON()方法获得服务器返回的JSON数据 JavaScript eval() 函数 eval(string) 函数可计算某个字符串,并执 ...
子集和的目标值（codevs 1692）
题目描述 Description 给定n个整数in和目标值T,求某一非空子集使子集的元素的和与目标值之差的绝对值最小,元素可重复输入描述 Input Description 第一行为整数n ...
fastcgi与cgi的区别[转载]
cgi 在2000年或更早的时候用得比较多, 以前web服务器一般只处理静态的请求,如果碰到一个动态请求怎么办呢?web服务器会根据这次请求的内容,然后会fork一个新进程来运行外部c程序 (或per ...

pandas 绘图 机器学习看特征相关性

pandas 绘图 机器学习看特征相关性的更多相关文章

随机推荐

热门专题

pandas 绘图机器学习看特征相关性

pandas 绘图机器学习看特征相关性的更多相关文章