为什么样本方差是除以 n-1 而不是 n？

一组数据的方差定义是：\(S_1^2=\frac {\Sigma_1^n (X_i-\bar X)^2)}n\)。

但是如果从总体中选出样本，计算样本方差，公式就变成了：

\[S_2^2=\frac {\Sigma_1^n (X_i-\bar X)^2)}{n-1}
\]

为什么样本方差只除以 n-1 呢？因为我们从总体里取出样本，计算出这个样本的均值和方差，并不是关心样本本身，是为了以此反推总体的均值和方差，所以他们要尽可能接近。样本的均值与总体的均值是肯定是期望相等的（\(E(\bar X)=E(\mu)\)），但是样本方差如果用除以 n 的方式来计算，那他和总体的方差并不相等，而是偏小的（\(E(S_1^2)\le E(\sigma ^2)\)）。

\[E(S_1^2)=\frac {\Sigma_1^n E((X_i-\bar X)^2)}n = \frac { E(\Sigma_1^n(X_i-\mu+\mu-\bar X)^2)}n
\]

\[= \frac {E(\Sigma_1^n (X_i-\mu)^2-2\Sigma_1^n (X_i-\mu)(\bar X-\mu)+n(\bar X-\mu)^2)}n
\]

\[=\frac {E(\Sigma_1^n (X_i-\mu)^2-2n (\bar X-\mu)(\bar X-\mu)+n(\bar X-\mu)^2)}n
\]

\[=\frac {E(\Sigma_1^n (X_i-\mu)^2-n (\bar X-\mu)^2)}n
\]

\[=E(\frac {\Sigma_1^n (X_i-\mu)^2}n)-{E( (\bar X-\mu)^2)}
\]

\[=Var(X)-Var(\bar X)=\sigma^2-\frac {\sigma^2}n=\frac {n-1}n{\sigma^2}\le\sigma^2
\]

所以，除非数据个个相等，不然 \(E(S_1^2)\) 总是比真正的 \(\sigma^2\) 略小。而他们的差距也正是\(\frac {n-1}n\)，所以把除数改成 \(n-1\) 就刚刚好，这就是总体方差的无偏估计。

还有一种“自由度”的理解方式，我不是很理解：样本方差与样本均值，都是随机变量，都有自己的分布，也都可能有自己的期望与方差。取分母n-1，可使样本方差的期望等于总体方差，即这种定义的样本方差是总体方差的无偏估计。简单理解，因为算方差用到了均值，所以自由度就少了1，自然就是除以(n-1)了。再不能理解的话，形象一点，对于样本方差来说，假如从总体中只取一个样本，即n=1，那么样本方差公式的分子分母都为0，方差完全不确定。这个好理解，因为样本方差是用来估计总体中个体之间的变化大小，只拿到一个个体，当然完全看不出变化大小。反之，如果公式的分母不是n-1而是n，计算出的方差就是0——这是不合理的，因为不能只看到一个个体就断定总体的个体之间变化大小为0。我不知道是不是说清楚了，详细的推导相关书上有，可以查阅。

为什么样本方差是除以 n-1 而不是 n？的更多相关文章

无偏方差为什么除以n-1
设样本均值为,样本方差为,总体均值为,总体方差为,那么样本方差有如下公式:. 很多人可能都会有疑问,为什么要除以n-1,而不是n,但是翻阅资料,发现很多都是交代到,如果除以n,对样本方差的估计不是无偏 ...
初识PCA数据降维
PCA要做的事降噪和去冗余,其本质就是对角化协方差矩阵. 一.预备知识 1.1 协方差分析对于一般的分布,直接代入E(X)之类的就可以计算出来了,但真给你一个具体数值的分布,要计算协方差矩阵,根据这 ...
非参数估计——核密度估计（Parzen窗）
核密度估计,或Parzen窗,是非参数估计概率密度的一种.比如机器学习中还有K近邻法也是非参估计的一种,不过K近邻通常是用来判别样本类别的,就是把样本空间每个点划分为与其最接近的K个训练抽样中,占比最 ...
CSS布局奇淫技巧之--各种居中
居中是我们使用css来布局时常遇到的情况.使用css来进行居中时,有时一个属性就能搞定,有时则需要一定的技巧才能兼容到所有浏览器,本文就居中的一些常用方法做个简单的介绍. 注:本文所讲方法除了特别说明 ...
CSS布局奇技淫巧：各种居中
居中是我们使用css来布局时常遇到的情况.使用css来进行居中时,有时一个属性就能搞定,有时则需要一定的技巧才能兼容到所有浏览器,本文就居中的一些常用方法做个简单的介绍. 注:本文所讲方法除了特别说明 ...
[css] 垂直居中方法
原文链接:http://www.cnblogs.com/2050/p/3392803.html 一.text-algin:center; 适用于行内元素水平居中,如图片.按钮.文字, 但是在IE67下 ...
[POJ2348]Euclid's Game
Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 8313 Accepted: 3374 Description Two p ...
2015第10周日CSS—3
CSS各种居中方法 CSS的居中有水平居中和垂直居中,这两种居中又分为行内元素居中和块级元素居中,不同的居中用不同方法. 水平居中 1.行内元素水平居中(文本,图片) 给父层设置 text-align ...
A tutorial on Principal Components Analysis | 主成分分析（PCA）教程
A tutorial on Principal Components Analysis 原著:Lindsay I Smith, A tutorial on Principal Components A ...
CSS布局之--各种居中
居中是我们使用css来布局时常遇到的情况.使用css来进行居中时,有时一个属性就能搞定,有时则需要一定的技巧才能兼容到所有浏览器,本文就居中的一些常用方法做个简单的介绍. 注:本文所讲方法除了特别说明 ...

随机推荐

从hp的暗影精灵4来看移动cpu的实际性能表现与官方出厂性能数据之间的差距
手上有一款暗影精灵4的笔记本,CPU为i7-9750H,官方给出的睿频为4.5Ghz,但是自己使用过程中最高睿频只能达到3.9Ghz与4.1Ghz之间,根本就没有超过4.1Ghz的时候. (图的原网址 ...
关于python：pip安装选项“ ignore-installed”和“ force-reinstall”之间的区别
参考: https://www.codenong.com/51913361/ ==================================================== 官方文档解释: ...
RDMA简介
RDMA(Remote Direct Memory Access) RDMA顾名思义是一种直接访问内存技术.它能够实现的是一台计算机内存到另一台计算机内存之间的通过网络直接访问,不涉及两台计算机的操作 ...
Element ui 动态自定义表格单元格样式
最终实现效果在Element UI 的文档中提到了用cell-style 方法来自定义单元格样式: 具体使用方法: 1. 在el-table 标签中添加 cell-style 绑定的自定义方法 2. ...
Pipenv 使用
Pipenv 是 Python 官方推荐的依赖管理工具,旨在简化 pip 和 virtualenv 的使用.其使用 Pipfile 和 Pipfile.lock 来管理项目的依赖和虚拟环境. 安装 p ...
docker系列教程：docker图形化工具安装及docker系列教程总结
通过前面的学习,我们已经掌握了docker-compose容器编排及实战了.高级篇也算快完了.有没有相关,我们前面学习的时候,都是通过命令行来操作docker的,难道docker就没有图形化工具吗?答 ...
Coursera, Big Data 5, Graph Analytics for Big Data, Week 4
Graph Analytics With Neo4j 讲了怎样用Cypher 脚本语言去操作 Neo4j, 包括加graph, 导入csv数据. 接着讲了一些neo4j 的基本操作. 最后讲的,pat ...
sentinel 的限流规则及流量控制
sentinel 前方参考计算QPS-Sentinel限流算法 https://www.cnblogs.com/yizhiamumu/p/16819497.html Sentinel 介绍与下载使用 ...
hashmap组成原理及调用时机
整个HashMap中最重要的点有四个:初始化,数据寻址-hash方法,数据存储-put方法,扩容-resize方法,只要理解了这四个点的原理和调用时机,也就理解了整个HashMap的设计. 如果有疑惑 ...
Stooges – AI 孙燕姿
很久没有写文章了... 最近听了 AI 孙燕姿的一首歌 <一场游戏一场梦>, 有感而发. 所以特别写一篇记入一下我的这半年很火的 AI 的想法.

为什么样本方差是除以 n-1 而不是 n？

为什么样本方差是除以 n-1 而不是 n？的更多相关文章

随机推荐

热门专题