统计分析_集中趋势and离散程度
1.数组的集中趋势-如何定义数组的中心
1.1 常用几下几个指标来描述一个数组的集中趋势
均值-算术平均数
。
中位数-将数组升序或降序排列后,位于中间的数。
众数-数组中出现最多的数。
1.2 指标特点
| 优点 | 缺点 | |
| 均值 | 充分利用所有数据,包含最多信息量,适用性强,应用最为广泛 | 极易受到异常值的影响,产生数据倾斜 |
| 中位数 | 避免异常值的影响 | 不敏感 |
| 众数 | 能够很好反应数组的集中趋势 | 当数组没有明显的集中趋势时,基本没有信息量 |
1.3 均值使用场景
场景:双11过后,淘宝店需要选择一个指标代表十一月的销售情况,应该如何选择呢?日均销售额是否适合?
回答:如果需要对外公布业绩或是向供应商结算的时候,日均销售额可用,因为这是十一月的真实数据。但如果需要依赖十一月销售额推断十二月销售额时或是判断十一月销售能力对比十月是否有提升时 ,十一月日均销售额不可用,因为双十一销售额的猛涨强依赖于外部环境变换,这种情况下双十一销售额为异常值,不可能在十二月复现,这种情况下十一月日销售额中位数优于日均销售额。
总结:在判断3个代表集中趋势的判断指标使用场景时,应该优先判断均值是否可用。当统计样本中存在极大值或极小值,且极值在我们需要处理的场景中不会复现,这种情况下均值不可用。
1.4 EXCEL和Python语言中的实现
EXCEL
均值:average(数组); 中位数:median(数组),quantile(数组,[quart]),0-最小值,1-下四分位数,2-中位数,3-上四分位数,4-最大值; 众数:mode(数组)
Python
import numpy as np from scipy import stats 均值:np.mean(数组) 中位数:np.median(数组) 众数:stats.mode(数组)[0][0]
2.数组的离散程度-数据的稳定程度
仅适用集中趋势无法提供充足的信息,结合集中趋势和离散程度才能更好的理解数据。
2.1 常用以下四个指标描述数组的离散程度
极差:最大值-最小值(上界-下界),代表数据的宽度,是度量数组离散程度最简单的指标。
局限性:仅是度量数组宽度,难以得出数据的真实分布形态,容易受异常值的影响。
四分位距:上四分位数-下四分位数,仅适用数据中央50%的数据,剔除异常值的影响。
方差:数值与均值的距离的平方数的平均值,一般情况下会用样本方差来估计总体方差。
总体方差为:
样本方差为:
标准差:方差的平方根,度量数据与均值的距离。
拓展:标准分=距离均值的标准差个数,可以对不同数据集的数据进行比较,而这些不同数据集的均值和标准差各不相同,标准分将几个数据集转换成z分布,这个分布均值为0,标准差为1。
2.2 EXCEL和Python语言中的实现
EXCEL
极差:Max(数组)-Min(数组) 四分位距:quantile(数组,3) - quantile(数组,1) 方差:Var(数组) 标准差:Stdev(数组)
Python
import numpy as np
from scipy import stats
import pandas as pd #离散趋势相关指标
print("极差:",np.max(df)-np.min(df))
print("四分位差:",np.percentile(df,75)-np.percentile(df,25))
print("标准差:",np.std(df))
print("方差:",np.var(df))
2.3 小结
离散程度标志着数组的稳定性高低,两个数组对比时,综合比较均值和标准差/方差,可以更好的理解数据。
2020-04-15 17:07
统计分析_集中趋势and离散程度的更多相关文章
- 我的Python分析成长之路9
pandas入门 统计分析是数据分析的重要组成部分,它几乎贯穿整个数据分析的流程.运用统计方法,将定量与定性结合,进行的研究活动叫做统计分析.而pandas是统计分析的重要库. 1.pandas数据结 ...
- SPSS数据分析—描述性统计分析
描述性统计分析是针对数据本身而言,用统计学指标描述其特征的分析方法,这种描述看似简单,实际上却是很多高级分析的基础工作,很多高级分析方法对于数据都有一定的假设和适用条件,这些都可以通过描述性统计分析加 ...
- python数据统计分析
1. 常用函数库 scipy包中的stats模块和statsmodels包是python常用的数据分析工具,scipy.stats以前有一个models子模块,后来被移除了.这个模块被重写并成为了 ...
- 『科学计算_理论』PCA主成分分析
数据降维 为了说明什么是数据的主成分,先从数据降维说起.数据降维是怎么回事儿?假设三维空间中有一系列点,这些点分布在一个过原点的斜面上,如果你用自然坐标系x,y,z这三个轴来表示这组数据的话,需要使用 ...
- 主成分分析(PCA)原理详解_转载
一.PCA简介 1. 相关背景 在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律.多变量大样本无疑会为研究和应用提供了丰富的信息,但也在一定程度上 ...
- Logical read, Physical read (SET STATISTICS IO)
在查询性能优化时,Logical Read非常重要,它的计数一般与查询出来的结果集数量成正比,与数据读取的速度也成正比. 1,SET STATISTICS IO 显式Disk IO的信息 Syntax ...
- \(\S1\) 描述性统计
在认识客观世界的过程中,统计学的思想和方法经常起着不可替代的作用.在许多工程及自然科学的专业领域中,包括可靠性分析.质量控制.生物信息.脑科学.心理分析.经济分析.金融风险管理.社会科学推断.行为科学 ...
- Oracle分析函数——函数列表
--------------聚合函数 SUM :该函数计算组中表达式的累积和 MIN :在一个组中的数据窗口中查找表达式的最小值 MAX :在一个组中的数据窗口中查找表达式的最大值 AVG :用于计算 ...
- Oracle所有分析函数<转>
Oracle分析函数——函数列表 SUM :该函数计算组中表达式的累积和 MIN :在一个组中的数据窗口中查找表达式的最小值 MAX :在一个组中的数据窗口中 ...
随机推荐
- 玩转控件:重写/重绘Dev中MessageBox弹窗控件
很久没有更新博客了,本想着直接发一篇<手撕ERP>系列,从控件重写.重绘,到框架搭建,再到部分模块实现+业务的.但是每次动手的时候,都觉得难以下手.直接从数据库设计开始吧,模块设计还没定下 ...
- StringBuilder内存碎片对性能的影响
StringBuilder内存碎片对性能的影响 TL;DR: StringBuilder内部是由多段char[]组成的半自动链表,因此频繁从中间修改StringBuilder,会将原本连续的内存分隔为 ...
- Css五种定位之间的区别
##CSS 定位机制## CSS 有三种基本的定位机制:普通流.浮动流和定位流. 除非专门指定,否则所有框都在普通流中定位.也就是说,普通流中的元素的位置由元素在 (X)HTML 中的位置决定. 块级 ...
- angular 项目中遇到rxjs error TS1005:';'
因为rxjs的版本问题,只需要在package.json 中将依赖的 rxjs:'^6.00' 改为 rxjs'6.00', 然后执行 npm update 更新下rxjs的依赖版本即可解决
- go:内置函数 | 闭包 | 数组 | 切片 | 排序 | map | 锁
内置函数 1.close: 主要是用来关闭channel 2.len:用来求长度,比如string.array.slice.map.channel 3.new与make都是用来分配内存 new用来分配 ...
- navicat和pymysql
内容回顾 select distinct 字段1,字段2,...from 表名 where 分组之前的过滤条件 group by 分组条件 having 分组之后过滤条件 order by 排序字段1 ...
- Slam笔记I
视觉Slam笔记I 第二讲-三位空间刚体运动 点与坐标系: 基础概念: 坐标系:左手系和右手系.右手系更常用.定义坐标系时,会定义世界坐标系,相机坐标系,以及其他关心对象的坐标系.空间中任意一点可由空 ...
- linux下vmware could not open /dev/vmmon/no/such/file/or/directory问题
执行 sudo vmware-modconfig --console --install-all 详解这里
- OpenCV-Python 姿态估计 | 五十
目标 在本章中 我们将学习利用calib3d模块在图像中创建一些3D效果. 基础 这将是一小部分.在上一次相机校准的会话中,你发现了相机矩阵,失真系数等.给定图案图像,我们可以利用以上信息来计算其姿势 ...
- 从零开始实现穿衣图像分割完整教程(附python代码演练)
时装业是人工智能领域很有前景的领域.研究人员可以开发具有一定实用价值的应用.我已经在这里展示了我对这个领域的兴趣,在那里我开发了一个来自Zalando在线商店的推荐和标记服装的解决方案. 在这篇文章中 ...