1.数组的集中趋势-如何定义数组的中心

1.1 常用几下几个指标来描述一个数组的集中趋势

均值-算术平均数

中位数-将数组升序或降序排列后,位于中间的数。

众数-数组中出现最多的数。

1.2 指标特点

  优点 缺点
均值 充分利用所有数据,包含最多信息量,适用性强,应用最为广泛 极易受到异常值的影响,产生数据倾斜
中位数 避免异常值的影响 不敏感
众数 能够很好反应数组的集中趋势 当数组没有明显的集中趋势时,基本没有信息量

1.3 均值使用场景

场景:双11过后,淘宝店需要选择一个指标代表十一月的销售情况,应该如何选择呢?日均销售额是否适合?

回答:如果需要对外公布业绩或是向供应商结算的时候,日均销售额可用,因为这是十一月的真实数据。但如果需要依赖十一月销售额推断十二月销售额时或是判断十一月销售能力对比十月是否有提升时 ,十一月日均销售额不可用,因为双十一销售额的猛涨强依赖于外部环境变换,这种情况下双十一销售额为异常值,不可能在十二月复现,这种情况下十一月日销售额中位数优于日均销售额。

总结:在判断3个代表集中趋势的判断指标使用场景时,应该优先判断均值是否可用。当统计样本中存在极大值或极小值,且极值在我们需要处理的场景中不会复现,这种情况下均值不可用。

1.4 EXCEL和Python语言中的实现

EXCEL

均值:average(数组);

中位数:median(数组),quantile(数组,[quart]),0-最小值,1-下四分位数,2-中位数,3-上四分位数,4-最大值;

众数:mode(数组)

 Python

import numpy as np

from scipy import stats

均值:np.mean(数组)

中位数:np.median(数组)

众数:stats.mode(数组)[0][0]

2.数组的离散程度-数据的稳定程度

仅适用集中趋势无法提供充足的信息,结合集中趋势和离散程度才能更好的理解数据。

2.1 常用以下四个指标描述数组的离散程度

极差:最大值-最小值(上界-下界),代表数据的宽度,是度量数组离散程度最简单的指标。

局限性:仅是度量数组宽度,难以得出数据的真实分布形态,容易受异常值的影响。

四分位距:上四分位数-下四分位数,仅适用数据中央50%的数据,剔除异常值的影响。

方差:数值与均值的距离的平方数的平均值,一般情况下会用样本方差来估计总体方差。

总体方差为:

样本方差为:

标准差:方差的平方根,度量数据与均值的距离。

拓展:标准分=距离均值的标准差个数,可以对不同数据集的数据进行比较,而这些不同数据集的均值和标准差各不相同,标准分将几个数据集转换成z分布,这个分布均值为0,标准差为1。

2.2 EXCEL和Python语言中的实现

EXCEL

极差:Max(数组)-Min(数组)

四分位距:quantile(数组,3) - quantile(数组,1)

方差:Var(数组)

标准差:Stdev(数组)

Python

import numpy as np
from scipy import stats
import pandas as pd #离散趋势相关指标
print("极差:",np.max(df)-np.min(df))
print("四分位差:",np.percentile(df,75)-np.percentile(df,25))
print("标准差:",np.std(df))
print("方差:",np.var(df))

2.3 小结

离散程度标志着数组的稳定性高低,两个数组对比时,综合比较均值和标准差/方差,可以更好的理解数据。

2020-04-15 17:07

统计分析_集中趋势and离散程度的更多相关文章

  1. 我的Python分析成长之路9

    pandas入门 统计分析是数据分析的重要组成部分,它几乎贯穿整个数据分析的流程.运用统计方法,将定量与定性结合,进行的研究活动叫做统计分析.而pandas是统计分析的重要库. 1.pandas数据结 ...

  2. SPSS数据分析—描述性统计分析

    描述性统计分析是针对数据本身而言,用统计学指标描述其特征的分析方法,这种描述看似简单,实际上却是很多高级分析的基础工作,很多高级分析方法对于数据都有一定的假设和适用条件,这些都可以通过描述性统计分析加 ...

  3. python数据统计分析

    1. 常用函数库   scipy包中的stats模块和statsmodels包是python常用的数据分析工具,scipy.stats以前有一个models子模块,后来被移除了.这个模块被重写并成为了 ...

  4. 『科学计算_理论』PCA主成分分析

    数据降维 为了说明什么是数据的主成分,先从数据降维说起.数据降维是怎么回事儿?假设三维空间中有一系列点,这些点分布在一个过原点的斜面上,如果你用自然坐标系x,y,z这三个轴来表示这组数据的话,需要使用 ...

  5. 主成分分析(PCA)原理详解_转载

    一.PCA简介 1. 相关背景 在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律.多变量大样本无疑会为研究和应用提供了丰富的信息,但也在一定程度上 ...

  6. Logical read, Physical read (SET STATISTICS IO)

    在查询性能优化时,Logical Read非常重要,它的计数一般与查询出来的结果集数量成正比,与数据读取的速度也成正比. 1,SET STATISTICS IO 显式Disk IO的信息 Syntax ...

  7. \(\S1\) 描述性统计

    在认识客观世界的过程中,统计学的思想和方法经常起着不可替代的作用.在许多工程及自然科学的专业领域中,包括可靠性分析.质量控制.生物信息.脑科学.心理分析.经济分析.金融风险管理.社会科学推断.行为科学 ...

  8. Oracle分析函数——函数列表

    --------------聚合函数 SUM :该函数计算组中表达式的累积和 MIN :在一个组中的数据窗口中查找表达式的最小值 MAX :在一个组中的数据窗口中查找表达式的最大值 AVG :用于计算 ...

  9. Oracle所有分析函数<转>

    Oracle分析函数——函数列表 SUM        :该函数计算组中表达式的累积和 MIN        :在一个组中的数据窗口中查找表达式的最小值 MAX        :在一个组中的数据窗口中 ...

随机推荐

  1. dpdk中QSBR具体实现

    目录 dpdk-QSBR实现 初始化 注册与注销 上线与下线 等待静默 附录 参考 dpdk-QSBR实现 dpdk19.01提供了qsbr模式的rcu库,其具体实现在lib/librte_rcu目录 ...

  2. C/C++、C#、JAVA(二):基本类型和转换操作

    基本类型和转换操作 数据类型 C语言中的基本类型如下. 类型 存储大小 值范围 char 1 字节 -128 到 127 或 0 到 255 unsigned char 1 字节 0 到 255 si ...

  3. linux下怎么找到某些命令出自于哪个包

    我们经常会遇到新装机器或者用别人的linux机器的时候找不到某个命令出自哪个软件包而不知道如何安装的情况,用如下命令可以解决 yum provides TARGET 举例说明: #要找到lsb-rel ...

  4. Airtest,Poco,Unity自动化测试集成

    作为一个Game Developer,测试部分是必不可少,程序完成需求首先要进行S0相关的测试,这样确保交付到策划验收和QA验收时是没有阻断性的bug或者显而易见代码缺陷.那么如何去做测试用例呢?肯定 ...

  5. Java 借助poi操作PDF工具类

    ​ 一直以来说写一个关于Java操作PDF的工具类,也没有时间去写,今天抽空写一个简单的工具类,拥有PDF中 换行,字体大小,字体设置,字体颜色,首行缩进,居中,居左,居右,增加新一页等功能,如果需要 ...

  6. vscode不能打开浏览器(Open browser failed!! Please check if you have installed the browser correctly!)

    vscode出现上述问题,我也查了很多相关资料,什么改默认浏览器设置什么的,改配置,改系统环境变量什么的,不但麻烦而且最后都难以成功. 下面分享一个可以解决的最简单办法.那就是:舍弃open in b ...

  7. identityserver4源码解析_3_认证接口

    目录 identityserver4源码解析_1_项目结构 identityserver4源码解析_2_元数据接口 identityserver4源码解析_3_认证接口 identityserver4 ...

  8. python爬取某站新闻,并分析最近新闻关键词

    在爬取某站时并做简单分析时,遇到如下问题和大家分享,避免犯错: 一丶网站的path为 /info/1013/13930.htm ,其中13930为不同新闻的 ID 值,但是这个数虽然为升序,但是没有任 ...

  9. web----HTML(HTML的概念)

    ##HTML 1.概念:最基础的网页开发语言 *Hyper Text Markup Lanugage 超文本标记语言 *超文本:超文本是用超链接的方法,将各种不同空间的文字信息组织在一起的网状文本. ...

  10. abp(net core)+easyui+efcore实现仓储管理系统——入库管理之六(四十二)

    abp(net core)+easyui+efcore实现仓储管理系统目录 abp(net core)+easyui+efcore实现仓储管理系统——ABP总体介绍(一) abp(net core)+ ...