摘自https://www.zhihu.com/question/20099757/answer/13971886

https://www.zhihu.com/question/20099757/answer/13971898

https://blog.csdn.net/Hearthougan/article/details/77859173

一组数据的方差定义是:\(S_1^2=\frac {\Sigma_1^n (X_i-\bar X)^2)}n\)。

但是如果从总体中选出样本,计算样本方差,公式就变成了:

\[S_2^2=\frac {\Sigma_1^n (X_i-\bar X)^2)}{n-1}
\]

为什么样本方差只除以 n-1 呢?因为我们从总体里取出样本,计算出这个样本的均值和方差,并不是关心样本本身,是为了以此反推总体的均值和方差,所以他们要尽可能接近。样本的均值与总体的均值是肯定是期望相等的(\(E(\bar X)=E(\mu)\)),但是样本方差如果用除以 n 的方式来计算,那他和总体的方差并不相等,而是偏小的(\(E(S_1^2)\le E(\sigma ^2)\))。

\[E(S_1^2)=\frac {\Sigma_1^n E((X_i-\bar X)^2)}n = \frac { E(\Sigma_1^n(X_i-\mu+\mu-\bar X)^2)}n
\]
\[= \frac {E(\Sigma_1^n (X_i-\mu)^2-2\Sigma_1^n (X_i-\mu)(\bar X-\mu)+n(\bar X-\mu)^2)}n
\]
\[=\frac {E(\Sigma_1^n (X_i-\mu)^2-2n (\bar X-\mu)(\bar X-\mu)+n(\bar X-\mu)^2)}n
\]
\[=\frac {E(\Sigma_1^n (X_i-\mu)^2-n (\bar X-\mu)^2)}n
\]
\[=E(\frac {\Sigma_1^n (X_i-\mu)^2}n)-{E( (\bar X-\mu)^2)}
\]
\[=Var(X)-Var(\bar X)=\sigma^2-\frac {\sigma^2}n=\frac {n-1}n{\sigma^2}\le\sigma^2
\]

所以,除非数据个个相等,不然 \(E(S_1^2)\) 总是比真正的 \(\sigma^2\) 略小。而他们的差距也正是\(\frac {n-1}n\),所以把除数改成 \(n-1\) 就刚刚好,这就是总体方差的无偏估计。

还有一种“自由度”的理解方式,我不是很理解:样本方差与样本均值,都是随机变量,都有自己的分布,也都可能有自己的期望与方差。取分母n-1,可使样本方差的期望等于总体方差,即这种定义的样本方差是总体方差的无偏估计。 简单理解,因为算方差用到了均值,所以自由度就少了1,自然就是除以(n-1)了。再不能理解的话,形象一点,对于样本方差来说,假如从总体中只取一个样本,即n=1,那么样本方差公式的分子分母都为0,方差完全不确定。这个好理解,因为样本方差是用来估计总体中个体之间的变化大小,只拿到一个个体,当然完全看不出变化大小。反之,如果公式的分母不是n-1而是n,计算出的方差就是0——这是不合理的,因为不能只看到一个个体就断定总体的个体之间变化大小为0。我不知道是不是说清楚了,详细的推导相关书上有,可以查阅。

为什么样本方差是除以 n-1 而不是 n?的更多相关文章

  1. 无偏方差为什么除以n-1

    设样本均值为,样本方差为,总体均值为,总体方差为,那么样本方差有如下公式:. 很多人可能都会有疑问,为什么要除以n-1,而不是n,但是翻阅资料,发现很多都是交代到,如果除以n,对样本方差的估计不是无偏 ...

  2. 初识PCA数据降维

    PCA要做的事降噪和去冗余,其本质就是对角化协方差矩阵. 一.预备知识 1.1 协方差分析 对于一般的分布,直接代入E(X)之类的就可以计算出来了,但真给你一个具体数值的分布,要计算协方差矩阵,根据这 ...

  3. 非参数估计——核密度估计(Parzen窗)

    核密度估计,或Parzen窗,是非参数估计概率密度的一种.比如机器学习中还有K近邻法也是非参估计的一种,不过K近邻通常是用来判别样本类别的,就是把样本空间每个点划分为与其最接近的K个训练抽样中,占比最 ...

  4. CSS布局奇淫技巧之--各种居中

    居中是我们使用css来布局时常遇到的情况.使用css来进行居中时,有时一个属性就能搞定,有时则需要一定的技巧才能兼容到所有浏览器,本文就居中的一些常用方法做个简单的介绍. 注:本文所讲方法除了特别说明 ...

  5. CSS布局奇技淫巧:各种居中

    居中是我们使用css来布局时常遇到的情况.使用css来进行居中时,有时一个属性就能搞定,有时则需要一定的技巧才能兼容到所有浏览器,本文就居中的一些常用方法做个简单的介绍. 注:本文所讲方法除了特别说明 ...

  6. [css] 垂直居中方法

    原文链接:http://www.cnblogs.com/2050/p/3392803.html 一.text-algin:center; 适用于行内元素水平居中,如图片.按钮.文字, 但是在IE67下 ...

  7. [POJ2348]Euclid's Game

    Time Limit: 1000MS   Memory Limit: 65536K Total Submissions: 8313   Accepted: 3374 Description Two p ...

  8. 2015第10周日CSS—3

    CSS各种居中方法 CSS的居中有水平居中和垂直居中,这两种居中又分为行内元素居中和块级元素居中,不同的居中用不同方法. 水平居中 1.行内元素水平居中(文本,图片) 给父层设置 text-align ...

  9. A tutorial on Principal Components Analysis | 主成分分析(PCA)教程

    A tutorial on Principal Components Analysis 原著:Lindsay I Smith, A tutorial on Principal Components A ...

  10. CSS布局之--各种居中

    居中是我们使用css来布局时常遇到的情况.使用css来进行居中时,有时一个属性就能搞定,有时则需要一定的技巧才能兼容到所有浏览器,本文就居中的一些常用方法做个简单的介绍. 注:本文所讲方法除了特别说明 ...

随机推荐

  1. 在计算框架MindSpore中手动保存参数变量(Parameter 变量)—— from mindspore.train.serialization import save_checkpoint

    本文参考内容: https://www.mindspore.cn/doc/programming_guide/zh-CN/r1.2/advanced_usage_of_checkpoint.html? ...

  2. 强化学习框架chainerrl的安装

    源码地址: https://gitee.com/mirrors_chainer/chainerrl PS: 需要注意的是本文的安装方式并不能支持CUDA,也就是无法使用GPU进行计算:年久失修的计算框 ...

  3. 多节点高性能计算GPU集群的构建

    建议参考原文: https://www.volcengine.com/docs/6535/78310 ============================================= 一直都 ...

  4. baselines算法库common/vec_env/dummy_vec_env.py模块分析

    baselines算法库设计可以和多个并行环境进行交互,也就是并行采样,实现多进程并行采样的模块为subproc_vec_env.py,与此相对的只实现单个进程下多环境交互的模块即为本文所要讲的dum ...

  5. AMiner的数据质量和完善问题

    最近参加到了一个国家科技项目中,这里就不吐槽这种高校承接国家科技项目是一件多么不靠谱的事情了,这里就说说我们的对标产品"AMiner".补充一下,虽然个人对AMiner的评价不是很 ...

  6. vscode下如何把缩进为2个空格的python项目改为4个空格的缩进

    最近在看老项目的代码,是python2.7年代的项目,那个时候很多的python项目都是使用2个空格,不过现在估计大多数人写python项目都是使用4个空格的了,而我看这两个空格的项目代码也是感觉十分 ...

  7. Java数组小白版

    一.数组概念 一.数组定义 数组就是指在计算机内存中开辟的连续存储空间,用于存放程序运行中需要用到的一组相同类型数据的容器. 二.数组的声明 +数组的长度 定义数组时需要确定数组的长度(元素的个数), ...

  8. TS中简单实现一下依赖注入

    依赖注入(Dependency Injection,DI)是一种设计模式,主要用于实现控制反转(Inversion of Control,IoC).它通过将对象的依赖关系从内部管理转移到外部容器来解耦 ...

  9. 编写自己的简易版网络协议栈(1)--arp协议,使用wireshark抓包分析

    实验环境: 略. 实验背景:已编写好基于以太网接口的输入处理,能够解析到以太网数据包内的帧类型. 1. 协议栈底层采用轮询方式,即轮询以太网数据包. 2. 若收到数据,则交由以太网输入处理模块进行解析 ...

  10. 嵌入式Linux ubi文件系统制作、分区设置、只读文件系统,uboot启动参数root

    当前平台, 基于君正的X10000平台的嵌入式Linux 系统 0  目的 我要设置根文件系统为可读写, 设置data分区上的文件系统为只读 1 设置各文件系统的读写属性 /bin/mount -o ...