第3章 探索性数据分析(单因子&对比)与可视化
1、理论铺垫
Dataframe和Series均适用
~集中趋势:均值mean()、中位数median()、与分位数quantile(q=0.25)、众数mode()
~离中趋势:标准差std()、方差var()
数据分布:偏态skew()与峰态kurt()、正态分布与三大分布正偏态(mean>median)
import scipy.stats as ss
正态分布:ss.norm 、卡方分布:ss.chi2 、t分布:ss.chi2、f分布:ss.chi2
偏态系数:数据平均值偏离状态的衡量
峰态系数:数据分布集中强度的衡量
~ 抽样定理:抽样误差、抽样精度
data.sample(10) #抽10个
data.sample(frac = 0.001) #抽样百分比为0.001
2、数据分类
· 定类(类别):根据事物离散、无差别属性进行的分类,如:名族
· 定序(顺序):可以界定数据的大小,但不能测定差值:如:收入的低、中、高
· 定距(间隔):可以界定数据大小的同时,可测定差值,但无绝对零点,如:温度
· 定比(比率):可以界定数据大小,可测定差值,有绝对零点,如:身高、体重
3、单属性分析
3.1异常值分析
离散异常值,连续异常值,常识异常值
3.2对比分析
绝对数与相对数(比什么),时间、空间、经验与计划(如何比)
绝对数比较:绝对的数字的比较,例如:收入
相对数比较:将几个有联系的指标进联合,构成一个新的数
3.3结构分析
各组成部分的分布与规律

3.4分布分析
数据分布频率的显式分析

其中seaborn是matplotlib的封装
Seaborn官网: http://seaborn.pydata.org/api.html
(1)柱状图 --- 以纵轴表示数值大小
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
#其中seaborn是matplotlib的封装
data = pd.read_csv('HR.csv',sep=',')
pd.set_option('display.max_columns',None) #控制列的输出
#处理异常之后的数据
data = data[data['last_evaluation']<=1][data['department']!='sale'][data['salary']!='nme']
#设置图画格式
sns.set_style(style="darkgrid")#style="whitegrid"
sns.set_context(context="poster",font_scale=0.5)
sns.set_palette(sns.color_palette('Reds')) plt.title('SALARY')
plt.xlabel('salary')
plt.ylabel('number')
#设置横轴的显示
plt.xticks(0.5+np.arange(len(data['salary'].value_counts())),data['salary'].value_counts().index)
#设置横轴显示的最小值是0,最大是4;纵轴显示的最小值是0,最大值是10000
plt.axis([0,4,0,10000])
plt.bar(0.5+np.arange(len(data['salary'].value_counts())),data['salary'].value_counts(),width=0.5)
for x,y in zip(0.5+np.arange(len(data['salary'].value_counts())),data['salary'].value_counts()):
plt.text(x,y,y,ha="center",va="bottom")#对每一类进行标注,标注的值为y,水平位置是center,垂直位置是bottom
plt.show() # sns.countplot(x="salary",data=data)
sns.countplot(x="salary",hue= "department",data=data)#多层绘制,例如以部门为分割
plt.show()


(2)直方图---以面积表示数值大小
横轴表示数据类型,纵轴表示分布情况
plt.figure(figsize=(10,8))
plt.subplot(1,3,1)
#其中kde表示可密度估计,hist表示直方图
sns.distplot(data['satisfaction_level'],bins=10,kde=False,hist=True)
plt.subplot(1,3,2)
sns.distplot(data['last_evaluation'],bins=10,kde=True,hist=True)
plt.subplot(1,3,3)
sns.distplot(data['average_monthly_hours'],bins=10,kde=True,hist=True)
plt.show()

(3)箱线图
用于显示一组数据分散情况的统计图
#saturation=0.75表示上四分位数,whis=3表示k=3,默认值是1.5,其中y表示呈现方式
sns.boxplot(y = data['time_spend_company'],saturation=0.75,whis=1.5)
plt.show()

(4)折线图
matplotlib--- plt.plot();seaborn--- sns.poinplot()
值得一提的是:sns中对折线图有两种画法
(见标黄部分,可以直接指定x和y,两种写法一样,结果还可以指定上下界----此处疯狂打call)
sub_data = data.groupby('time_spend_company').mean()
# print(sub_data)
sns.pointplot(sub_data.index,sub_data['left'])
# sns.pointplot(data['time_spend_company'],data['left'])
# plt.plot(sub_data.index,sub_data['left'],'ro-')
plt.show()


(5)饼图
seabon库中没有饼图的画法,只有matplotlib中有
libs = data['department'].value_counts().index
explodes = [0.1 if i == 'sales' else 0 for i in libs]
plt.pie(data['department'].value_counts(normalize=True),labels=libs,autopct="%.2f",colors=sns.color_palette('Reds'),explode = explodes)
plt.show()

第3章 探索性数据分析(单因子&对比)与可视化的更多相关文章
- 探索性数据分析EDA综述
目录 1. 数据探索的步骤和准备 2. 缺失值处理 为什么需要处理缺失值 Why data has missing values? 缺失值处理的技术 3. 异常值检测和处理 What is an ou ...
- “全栈2019”Java第四十九章:重载与重写对比详解
难度 初级 学习时间 10分钟 适合人群 零基础 开发语言 Java 开发环境 JDK v11 IntelliJ IDEA v2018.3 文章原文链接 "全栈2019"Java第 ...
- HTML第三章:表单
第三章:表单 表单标签form:<form></form>//相当于一张记录用户信息的单子 常用属性:method:表单的提交方式,常用的值有两个 ...
- 2017.2.28 activiti实战--第六章--任务表单(二)外置表单
学习资料:<Activiti实战> 第六章 任务表单(二)外置表单 6.3 外置表单 考虑到动态表单的缺点(见上节),外置表单使用的更多. 外置表单的特点: 页面的原样显示 字段值的自动填 ...
- 2017.2.28 activiti实战--第六章--任务表单(一)动态表单
学习资料:<Activiti实战> 第六章 任务表单(一)动态表单 内容概览:本章要完成一个OA(协同办公系统)的请假流程的设计,从实用的角度,讲解如何将activiti与业务紧密相连. ...
- 2017.2.22 activiti实战--第六章--任务表单
学习资料:<Activiti实战> 第六章 任务表单 本章将一步步完成一个协同办公系统(OA)的请假流程的设计,讲解如何将Activiti和实际业务联系起来. 首先讲解动态表单与外置表单的 ...
- 探索性数据分析(Exploratory Data Analysis,EDA)
探索性数据分析(Exploratory Data Analysis,EDA)主要的工作是:对数据进行清洗,对数据进行描述(描述统计量,图表),查看数据的分布,比较数据之间的关系,培养对数据的直觉,对数 ...
- python Pandas Profiling 一行代码EDA 探索性数据分析
文章大纲 1. 探索性数据分析 代码样例 效果 解决pandas profile 中文显示的问题 1. 探索性数据分析 数据的筛选.重组.结构化.预处理等都属于探索性数据分析的范畴,探索性数据分析是帮 ...
- 动态可视化 数据可视化之魅D3,Processing,pandas数据分析,科学计算包Numpy,可视化包Matplotlib,Matlab语言可视化的工作,Matlab没有指针和引用是个大问题
动态可视化 数据可视化之魅D3,Processing,pandas数据分析,科学计算包Numpy,可视化包Matplotlib,Matlab语言可视化的工作,Matlab没有指针和引用是个大问题 D3 ...
随机推荐
- python数据结构(三)
copy 复制对象,copy模块包含了两个行数copy和deepcopy,用于复制现有的对象. 浅副本(浅复制) copy()创建的浅副本是一个新容器,其中填充了原对象内容的引用 import cop ...
- 你知道Spring是怎么将AOP应用到Bean的生命周期中的吗?
聊一聊Spring是怎么将AOP应用到Bean的生命周期中的? 本系列文章: 听说你还没学Spring就被源码编译劝退了?30+张图带你玩转Spring编译 读源码,我们可以从第一行读起 你知道Spr ...
- 树的子结构(剑指offer-17)
题目描述 输入两棵二叉树A,B,判断B是不是A的子结构.(ps:我们约定空树不是任意一个树的子结构) 解析 解答 /** public class TreeNode { int val = 0; Tr ...
- 基于tcp/udp协议的套接字通信
目录 一.套接字分类 二.套接字的工作流程 三.基于tcp协议的套接字 四.基于udp协议的套接字 一.套接字分类 1.基于文件类型的套接字家族:AF_UNIX 2.基于网络类型的套接字家族:AF_I ...
- Bootstrap 搭建基础页面
基于Bootstrap实现下图所示效果的页面,一个居中的标题和一个大按钮: <!DOCTYPE html> <html lang="zh-cn"> < ...
- java 基础(二) 搭建Java编译环境(linux系统)
jdk安装配置 首先下载JDK和JRE,这里你的需要看看你的Linux系统是多少位的,比如我的是64位的:下载JDK并指定到Download目录,JRE同样操作:解压并且配置环境: tar -zxvf ...
- Flask 基础组件(三):路由系统
1. 常见路由 @app.route('/user/<username>') @app.route('/post/<int:post_id>') @app.route('/po ...
- Python之爬虫(二十四) 爬虫与反爬虫大战
爬虫与发爬虫的厮杀,一方为了拿到数据,一方为了防止爬虫拿到数据,谁是最后的赢家? 重新理解爬虫中的一些概念 爬虫:自动获取网站数据的程序反爬虫:使用技术手段防止爬虫程序爬取数据误伤:反爬虫技术将普通用 ...
- MySQL 三万字精华总结 + 面试100 问,吊打面试官绰绰有余(收藏系列)
写在之前:不建议那种上来就是各种面试题罗列,然后背书式的去记忆,对技术的提升帮助很小,对正经面试也没什么帮助,有点东西的面试官深挖下就懵逼了. 个人建议把面试题看作是费曼学习法中的回顾.简化的环节,准 ...
- 用Python演奏音乐
目录 背景 准备 安装mingus 下载并配置fluidsynth 下载soundfont文件 分析 乐谱格式 乐谱解析 弹奏音乐 添加伴奏 保存音乐 完整程序 背景 笔者什么乐器也不会,乐理知识也只 ...
正偏态(mean>median)