散点图进阶,结合箱体图与直方图对数据形成全面的认识

描述数据集中趋势的分析量:

均值 - 全部数据的算术平均值

众数 - 一组数据中出现次数最多的变量值

中位数 - 一组数据经过顺序排列后处于中间位置上的变量值

描述数据离散程度的分析量:

方差 - 一组数据各变量值与其平均值离差平方和的平均数

标准差 - 方差的平方根

偏态 - 描述数据分布形态的统计量,其描述的是某总体取值分布的对称性。偏度 = 三阶中心距 / 标准差的三次方

峰度 - 描述总体中所有取值分布形态陡缓程度的统计量,这个统计量需要与正态分布相比较。 峰度 = 四阶中心距 / 方差平方(标准差四次方) - 3

描述性分析数据的计算:

 # 准备数据
import numpy as np
import matplotlib.pyplot as plt n = 1000
x = np.random.randn(n)
y = [int((item)*100) for item in np.random.randn( n )] #100以内的正整数随机数 # 均值μ
mu = np.mean(y)
# 标准差δ sigma = np.sqrt(np.sum(np.square( y - mu ))/n)
sigma = np.std(y)
# 峰度(公式准确度待确认)
kurtosis = np.sum(np.power((y - mu),4))/(n) # 四阶中心距
kurtosis = kurtosis / np.power(sigma,4)-3 # 峰度 = 四阶中心距 / 方差平方(标准差四次方) - 3
# 偏度
skewness = np.sum(np.power((y - mu),3))/(n) # 三阶中心距
skewness = skewness / np.power(sigma,3) # 偏度 = 三阶中心距 / 标准差的三次方 print(mu, sigma,skewness, kurtosis)

结果:

-0.944 105.50647783 0.0750892544722 -0.171492308767

图表显示

 # 图表显示
fig = plt.figure( figsize = ( 8, 6 )) # 设置图表大小
#设置图表的大小:[左, 下, 宽, 高] 规定的矩形区域 (全部是0~1之间的数,表示比例)
rect_1 = [0.15, 0.30, 0.7, 0.55]
rect_2 = [0.85, 0.30, 0.15, 0.55]
rect_3 = [0.15, 0.05, 0.7, 0.2]
fig_1 = plt.axes(rect_1) # 第一个图表
fig_2 = plt.axes(rect_2) # 第二个图表
fig_3 = plt.axes(rect_3) # 第三个图表
#设置图表公共变量
title_size = 13
inner_color = 'cyan'
outer_color = 'teal'
# 第一个图表:散点图
fig_1.scatter( x, y, s = 20, color = inner_color, edgecolor = outer_color, alpha = 0.6)
fig_1.set_title('散点图 Scatter', fontsize = title_size)
fig_1.set_ylim( min(y),max(y)+50 )
fig_1.grid(True) # 第二个图表:箱体图
fig_2.boxplot(y,
widths = 0.55,
patch_artist = True, # 要求用自定义颜色填充盒形图,默认白色填充
boxprops = {'color':outer_color,'facecolor':inner_color, }, # 设置箱体属性,填充色和边框色
flierprops = {'marker':'o','markerfacecolor':inner_color,'color':outer_color,}, # 设置异常值属性,点的形状、填充色和边框色
meanprops = {'marker':'h','markerfacecolor':outer_color}, # 设置均值点的属性,点的形状、填充色
medianprops = {'linestyle':'-','color':'red'} # 设置中位数线的属性,线的类型和颜色
)
fig_2.set_ylim( fig_1.get_ylim()) #设置箱体图与散点图同一纵坐标轴
fig_2.get_yaxis().set_visible(False) #关闭坐标轴
fig_2.get_xaxis().set_visible(False) #关闭坐标轴
# 去除边框显示
remove_col = ['top','bottom','left','right']
for item in remove_col:
fig_2.spines[item].set_visible(False)
fig_2.spines[item].set_position(('data',0))
fig.text(0.86, 0.84,'箱体图 Boxplot', fontsize = title_size ) # 第三个图表:直方图
n, bins, patches = fig_3.hist( y, color = inner_color, alpha = 0.8, edgecolor = outer_color )
fig_3.set_ylim([0,max(n)+50])
fig_3.spines['top'].set_visible(False) # 去除边框显示
fig_3.spines['top'].set_position(('data',0)) # 去除边框刻度显示
fig_3.spines['right'].set_color('none') # 去除边框显示
fig_3.spines['right'].set_position(('data',0)) # 去除边框刻度显示
fig.text(0.17, 0.23,'直方图 Hist', fontsize = title_size ) # 文本信息
fig.text(0.9, .20, '均值 $\mu = {0:.2f}$'.format(mu))
fig.text(0.9, .15, '标准差 $\sigma = {0:.2f}$'.format(sigma))
fig.text(0.9, .10, '偏度 $\gamma 1 = {0:.2f}$'.format(skewness))
fig.text(0.9, .05, '峰度 $\gamma 2 = {0:.2f}$'.format(kurtosis))
plt.show()

结果:

用Python学分析:集中与分散的更多相关文章

  1. 用Python学分析 - 单因素方差分析

    单因素方差分析(One-Way Analysis of Variance) 判断控制变量是否对观测变量产生了显著影响 分析步骤 1. 建立检验假设 - H0:不同因子水平间的均值无差异 - H1:不同 ...

  2. 用Python学分析 - 二项分布

    二项分布(Binomial Distribution)对Bernoulli试验序列的n次序列,结局A出现的次数x的概率分布服从二项分布- 两分类变量并非一定会服从二项分布- 模拟伯努利试验中n次独立的 ...

  3. 用Python学分析 - t分布

    1. t分布形状类似于标准正态分布2.  t分布是对称分布,较正态分布离散度强,密度曲线较标准正态分布密度曲线更扁平3.  对于大型样本,t-值与z-值之间的差别很小 作用- t分布纠正了未知的真实标 ...

  4. 用Python学分析 - 正态分布

    正态分布(Normal Distribution) 1.正态分布是一种连续分布,其函数可以在实线上的任何地方取值. 2.正态分布由两个参数描述:分布的平均值μ和方差σ2 . 3.正态分布的取值可以从负 ...

  5. 用Python学分析 - 散点图

    # 运用散点图对数据分布得到直观的认识 import numpy as np import matplotlib.pyplot as plt # 设计 x, y 轴 n = 10000 x = np. ...

  6. 《用 Python 学微积分》笔记 3

    <用 Python 学微积分>原文见参考资料 1. 16.优化 用一个给定边长 4 的正方形来折一个没有盖的纸盒,设纸盒的底部边长为 l,则纸盒的高为 (4-l)/2,那么纸盒的体积为: ...

  7. 《用 Python 学微积分》笔记 2

    <用 Python 学微积分>原文见参考资料 1. 13.大 O 记法 比较两个函数时,我们会想知道,随着输入值 x 的增长或减小,两个函数的输出值增长或减小的速度究竟谁快谁慢.通过绘制函 ...

  8. Python学到什么程度就可以去找工作?掌握这4点足够了!

    大家在学习Python的时候,有人会问“Python要学到什么程度才能出去找工作”,对于在Python培训机构学习Python的同学来说这都不是问题,因为按照Python课程大纲来,一般都不会有什么问 ...

  9. Python学到什么程度才可以去找工作?掌握这4点足够了!

    大家在学习Python的时候,有人会问"Python要学到什么程度才能出去找工作",对于在Python培训机构学习Python的同学来说这都不是问题,因为按照Python课程大纲来 ...

随机推荐

  1. IDEA 的maven项目打jar 编写UDF 在hive端运行 (全过程,有录制的操作视频)

    一.       前提准备 服务端hive搭建完成,可以正常创建访问表 本地端使用的IDE是Intellij IDEA(我的是2017版本,老版本需要支持创建maven项目) ,并且电脑有网. 二.  ...

  2. Ocelot中文文档-缓存

    目前Ocelot使用CacheManager项目提供了一些非常基本的缓存.这是一个了不起的项目,它解决了很多缓存问题. 我会推荐这个软件包来做Ocelot缓存. 如果你看看这里的例子,你可以看到如何设 ...

  3. 关于SpringMVC控制器的一点补充

    首先复习一下之前控制器的写法:http://www.cnblogs.com/eco-just/p/7882016.html. 我们可以看到,之前的写法是这样的: @RequestMapping(&qu ...

  4. SpringCloud实战-Eureka

    熟悉微服务架构或Dubbo框架的都知道,微服务中最核心.最基础的组件就是注册中心了.下面利用Spring Cloud Eureka实现服务注册中心.并注册一个简单的服务提供者. 首先先创建一个spir ...

  5. Flex 将默认日期格式转化成通用格式

    flex 默认日期格式如:Wed Dec 16 00:00:00 GMT+0800 2015 想要得到的通用格式如:2015-12-16 转换方法如下: var sdate:String = &quo ...

  6. 构建基础的SpringMVC+Hibernate+SpringloC项目

    一. SpringMVC 阅读我的上一篇文章<使用MyEclipse2015构建SpringMVC项目>,知道基本的构建方法,先构建一个纯springmvc项目,再对web.xml按照本文 ...

  7. jenkins中集成commander应用

    jenkins中集成commander应用 jenkins 集成测试 promotion 最近参加公司的集成测试平台的开发,在开发中遇到了不少问题,两个星期的迭代也即将完成,在这也用这篇博客记录下开发 ...

  8. 杨老师课堂_Java核心技术下之控制台模拟记事本案例

    预览效果图: 背景介绍: 编写一个模拟记事本的程序通过在控制台输入指令,实现在本地新建文件打开文件和修改文件等功能. 要求在程序中: 用户输入指令1代表"新建文件",此时可以从控制 ...

  9. 进阶-MongoDB 知识梳理

    MongoDB 一.MongoDB简介 MongoDB是一个高性能,开源,无模式的文档型数据库,是当前NoSql数据库中比较热门的一种.它在许多场景下可用于替代传统的关系型数据库或键/值存储方式.Mo ...

  10. ubuntu宽带连接

    1.打开终端:    输入:sudo pppoeconf    根据提示输入宽带用户名和密码,若提示Plugin rp-pppoe.so loaded.则已连接成功.2.手动开启/断开连接:    p ...