%config InlineBackend.figure_format = 'svg'

在jupyter notebook中使用这个命令绘制更清晰的图像，注意百分号后不能有空格。

1. Univariate visualization

单变量分析每次查看一个特征。当我们独立地分析一个特征时，我们通常最感兴趣的是它的值的分布。

1.1 数量特征

数量特征取有序的数值。这些值可以是离散的，像整数，或者是连续的，像实数，通常表达计数或者度量的含义。

使用 Histograms and density plots

# method in pandas

df['feature'].hist()

df['feature'].plot(kind='density')

# pandas的绘图函数中可以通过传入 subplot=True & layout=(m,n)来自定义绘制的多个子图的布局

# method in seaborn

sns.displot(df[feature])

# seaborn中的displot会同时绘制直方图和密度图

使用 Box plot and Violin plot

关于 Box plot 的很好的图视化解释参考箱形图。Box plot中的离群值需要特别关注。

# method in pandas，不知道是缺少相关参数的问题还是什么，没有画出离群点，seaborn中有画

df['feature'].plot(kind = 'box')

df['feature'].plot.box()

# method in seaborn

sns.boxplot(data=df['feature'])

sns.violinplot(data=df['feature'])

1.2 类别特征和二元特征

类别特征取固定数目的值。二元特征是类别特征只有两种取值时的一个特例情况。如果在类别特征上的值可以是无序的也可以是由顺序的。

使用频率表

df['feature'].value_counts()

# 默认结果中的 entry 按照最大频率到最小频率排列

使用 Bar plot

Bar plot 是频率表的图形化展示。

# method in pandas

df['feature'].value_counts().plot.bar()

# method in seaborn

sns.countplot(x='feature', data=df) # 至少传两个参数

seaborn中的barplot() 利用矩阵条的高度反映数值变量的集中趋势，这个barplot并不是我们在此处想要使用的barplot。一定要记住，seaborn中的barplot展示的是某种变量分布的平均值 ，当需要精确观察每类数值变量（数值变量在类别变量上做groupby）的分布趋势，boxplot与violinplot往往是更好的选择。

Tips: 将多幅图对比绘制的方法

figure, axes = plt.subplots(nrows=m, ncols=n,figsize=(m*x_length,n*y_length))

sns.plot(..., ax=axes[0])

df.plot(..., ax=axes[1])

figure.show()

总结：

直方图表示数值变量的分布情况，而条形图表示类别变量的频率的分布情况。
直方图的x轴是连续的，条形图的x轴是离散的；二者的y轴都是连续的。

2. Multivariate visualization

多变量图表允许我们去看两个或多个变量（注意：可以通过技巧在二维平面上绘制三个变量之间的某些关系） 之间的关系。

2.1 数量 vs 数量

使用 Correlation matrix and heatmap

# method : {‘pearson’, ‘kendall’, ‘spearman’}

corr_matrix = df[num_features].corr()

sns.heatmap(corr_matrix)

使用 Scatter plot

# method in matplotlib

plt.scatter(df['num_x'], df['num_y'])

# method in pandas

df.plot.scatter(x='num_x', y= 'num_y')

# method in seaborn

sns.jointplot(x='num_x', y='num_y', data = df, kind='scatter')

# this is the smoothed version of bivariate distribution

sns.jointplot('num_x', 'num_y', data=df, kink='kde')

使用 Scatterplot matrix

# method in pandas

pd.scatter_matrix(df['num_features'])

# method in seaborn

sns.pairplot(df['num_features'])

2.2 数量 vs 类别

前面我们提到过可以在二维平面展示三个变量之间的关系，这种技巧就是利用pandas或者seaborn的语义映射能力，将第三个变量（只能是类别）用不同颜色区分开来。下面是一个例子：

sns.scatter('num_x', 'num_y', data=df, hue='cate_third_var')

使用 Box plot and Violin plot

一般是观察一个数值变量在不同类别下的分布情况

sns.boxplot(x='..._feat', y='..._feat', orient='v')

# orient 默认为'v',这时传给x类别特征，传给y数值特征；当x，y的特征类型反着传时，必须把 orient设置为'h'才能正确绘图。orient可以看作时数值特征轴的方向。

# sns.violinplot()类似

使用 sns.catplot()

当我们想要一次在两个类别变量维度来分析一个数值变量时，在seaborn中有一个非常适合的函数叫做catplot()。

sns.catplot(x='cate_feature1', y='num_feature', col='cate_feature2', data=df, kind='box', col_wrap=n, height=m, aspect=.8)

上面的代码将会画m*n个子图，每个子图中是一个sns.boxplot(x='cate_feature1', y='num_feature', data=df), 但是每个子图中的数据df是cate_feature2取某个类别时的子集。

2.3 类别 vs 类别

使用 sns.countplot() plus "hue semantic"

原理是通过条形图来描述类别的分布，并且通过颜色语义映射的方法来加入第二个类别变量。注意，这种方法研究的主要对象仍然是第一个类别变量，语义映射只是把第二个类别变量对其的影响表示出来，语义映射的变量相当于辅助变量。

sns.countplot(x='cate_feature1', hue='cate_feature2', data=df)

使用 Contingency table

除了使用图形的方式来分析类别变量，还有一个来自统计学的传统工具：列联表（contingency table）也叫做交叉表（cross tabulation）。它将多个类别变量的频率分布用一张表格来表示。特别的是，它允许我们通过沿着一行或是沿着一列来查看一个变量在其他变量某些条件下的分布。

pd.crosstab(df['cate_feautre1'], df['cate_feature2'])

3. Whole dataset

3.1 Naive approach

最简单的方法就是使用前面介绍的分析一个，两个或者是三个变量的方法逐个地探索完整个数据集。也可以使用sns.pairplot()或者pd.scatter_matrix()一次完成。

3.2 Dimensional reduction

使用 t-SNE

from sklearn.manifold import TSNE

from sklearn.preprocessing import StandardScaler

# step1 对数值变量做归一化处理

# step2 对两类变量用LabelEncoder()

tsne = TSNE(random_state=17)

tsne_repr = tsne.fit_transform(X_scaled)

plt.scatter(tsne_repr[:,0], tsne_repr[:,1], alpha =.5)

EDA cheat sheet的更多相关文章

转：PostgreSQL Cheat Sheet
PostgreSQL Cheat Sheet CREATE DATABASE CREATE DATABASE dbName; CREATE TABLE (with auto numbering int ...
Git Cheat Sheet
Merge Undo git merge with conflicts $ git merge --abort Archive $ git archive --format zip --output ...
CSS3 Animation Cheat Sheet：实用的 CSS3 动画库
CSS3 Animation Cheat Sheet 是一组预设的动画库,为您的 Web 项目添加各种很炫的动画.所有你需要做的是添加样式表到你的网站,为你想要添加动画效果的元素应用预制的 CSS 类 ...
XSS (Cross Site Scripting) Prevention Cheat Sheet(XSS防护检查单)
本文是 XSS防御检查单的翻译版本 https://www.owasp.org/index.php/XSS_%28Cross_Site_Scripting%29_Prevention_Cheat_Sh ...
IOS Application Security Testing Cheat Sheet
IOS Application Security Testing Cheat Sheet [hide] 1 DRAFT CHEAT SHEET - WORK IN PROGRESS 2 Int ...
XSS Filter Evasion Cheat Sheet 中文版
前言译者注: 翻译本文的最初原因是当我自己看到这篇文章后,觉得它是非常有价值.但是这么著名的一个备忘录却一直没有人把它翻译成中文版.很多人仅仅是简单的把文中的各种代码复制下来,然后看起来很刁的发在 ...
HTML5 Cheat sheet PNG帮助手册（标签、事件、兼容）
HTML5 Cheat sheet PNG帮助手册(标签.事件.兼容) 1.HTML5标签 2.HTML5事件 3.HTML5兼容最新HTML5手册资料请参考:http://www.inmotion ...
[转]Swift Cheat Sheet
原文:http://kpbp.github.io/swiftcheatsheet/ A quick cheat sheet and reference guide for Apple's Swift ...
The iOS Design Cheat Sheet 界面设计速参
http://ivomynttinen.com/blog/the-ios-7-design-cheat-sheet/ With the release of iOS 7, app designers ...

随机推荐

django-Auth模块(详细介绍)
转载自https://www.cnblogs.com/liuqingzheng/articles/9628105.html 1 Auth模块是什么 Auth模块是Django自带的用户认证模块: 我们 ...
axios+FormData文件上传
axios+FormData文件上传原理:FormData上传创建一个FormData对象,将得到的文件流对象放在FormData内,然后使用axios上传注意: 1.请求头设置 headers ...
仿造email后缀搜索功能（2）
<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8" ...
Delphi 监视数据的值
RT-Thread中的串口DMA分析
这里分析一下RT-Thread中串口DMA方式的实现,以供做新处理器串口支持时的参考. 背景在如今的芯片性能和外设强大功能的情况下,串口不实现DMA/中断方式操作,我认为在实际项目中基本是不可接受的 ...
deep_learning_Function_tf.control_dependencies([])
tf.control_dependencies([])函数含义及使用 2019.02.23 14:01:14字数 60阅读 420 tf.control_dependencies([controls_ ...
从subversion开始(svn安装配置全过程（+全套安装文件与配置文件）)…..
从subversion开始(svn安装配置全过程(+全套安装文件与配置文件))-.. 博客分类: 工具使用 SVNsubversion配置管理Apache应用服务器 </div> 花了一 ...
libusb-test
/******************************************************************************** * * File Name : li ...
Java常用类库——观察者设计模式
观察者设计模式现在很多的购房者都在关注着房子的价格变化,每当房子价格变化的时候,所有的购房者都可以观察得到.实际上以上的购房者都属于观察者,他们都关注着房子的价格. 如果要想实现观察者模式,则必须依 ...
Java使用freemarker导出word文档
通过freemarker,以及JAVA,导出word文档. 共分为三步: 第一步:创建模板文件第二步:通过JAVA创建返回值. 第三步:执行分别介绍如下: 第一步: 首先创建word文档,按照想要 ...

EDA cheat sheet

1. Univariate visualization

1.1 数量特征

使用 Histograms and density plots

使用 Box plot and Violin plot

1.2 类别特征和二元特征

使用频率表

使用 Bar plot

2. Multivariate visualization

2.1 数量 vs 数量

使用 Correlation matrix and heatmap

使用 Scatter plot

使用 Scatterplot matrix

2.2 数量 vs 类别

使用 Box plot and Violin plot

使用 sns.catplot()

2.3 类别 vs 类别

使用 sns.countplot() plus "hue semantic"

使用 Contingency table

3. Whole dataset

3.1 Naive approach

3.2 Dimensional reduction

使用 t-SNE

EDA cheat sheet的更多相关文章

随机推荐

热门专题