数理统计11：区间估计，t分布，F分布

在之前的十篇文章中，我们用了九篇文章的篇幅讨论了点估计的相关知识，现在来稍作回顾。

首先，我们讨论了正态分布两个参数——均值、方差的点估计，给出了它们的分布信息，并指出它们是相互独立的；然后，我们讨论到其他的分布族，介绍了点估计的评判标准——无偏性、相合性、有效性；之后，我们基于无偏性和相合性的讨论给出了常用分布的参数点估计，并介绍了两种常用于寻找点估计量的方法——矩法与极大似然法；最后，我们对点估计的有效性进行了讨论，给出了一些验证、寻找UMVUE的方法，并介绍了CR不等式，给出了无偏估计效率的定义。以上就是我们在前九篇文章中提到的主要内容，还顺便介绍了一些常用的分布：$\Gamma$分布、$\beta$分布、$\chi^2$分布。

今天开始，我们将进入区间估计与假设检验部分。由于本系列为我独自完成的，缺少审阅，如果有任何错误，欢迎在评论区中指出，谢谢！

Part 1：什么是区间估计

区间估计同样是参数估计的一种方法，不同于点估计用样本计算出的一个统计量直接作为原始参数的估计，区间估计会根据抽取出的样本，计算出一个基于样本观测值的区间。简单说来，如果对总体$f(x;\theta)$中的参数$\theta$作估计，则首先从总体中获得样本$\boldsymbol{X}=(X_1,\cdots,X_n)$，并确定两个具有确定大小关系的统计量$\hat g_1(\boldsymbol{X})\le \hat g_2(\boldsymbol{X})$，根据样本观测值计算出的区间$[\hat g_1(\boldsymbol{X}),\hat g_2(\boldsymbol{X})]$就是待估参数$\theta$的区间估计。

由此，我们可以看出，区间估计依然是依赖于统计量的，并且往往需要不止一个统计量。区间估计相比于点估计的特点是，区间估计给出了一个相对“粗糙”的范围，这就导致你需要使用这个参数时，不像点估计一样能直接把估计值拿来用；但是，区间估计具有涵盖参数真值的可能，因为当参数空间$\Theta$的取值连续时，点估计$\hat\theta$与真值相等的可能性$\mathbb{P}(\hat\theta=\theta)=0$，但是区间估计包含真值的可能性$\mathbb{P}(\theta\in[\hat g_1(\boldsymbol{X}),\hat g_2(\boldsymbol{X})])>0$，这使得区间估计比起点估计而言，增加了一定的可靠性。

这么说可能比较抽象，让我们举一个实际的例子，还记不记得第一篇文章中yhh送我们的橙子？厂家声称一箱子橙子的平均重量是80斤，而我们称量后发现橙子的平均重量是79.9斤，我们不能说厂家的声称是错误的，因为点估计与真值相等的概率为0。然而，我们通过某种手段得到了橙子重量的区间估计是$[79.5,80.5]$斤，则你可能就会认为，橙子的重量极可能就落在这个范围内，与80斤相差不大，因此厂家的声称是可以接受的。

区间估计还有另一方面的可靠性。在上面的讨论中，我们得到的点估计是79.9斤，如果换一箱橙子，它的重量不可能还是79.9斤了。但是，新一箱橙子的重量可能是70斤吗？可能性有多大？可能是80.1斤吗？可能性又有多大？点估计无法给出直观的感受，它只会让你觉得，80.1斤的概率要比70斤大点儿。但是，如果我们获得了这样的一个区间估计：$[79.5,80.5]$，则你就会觉得80.1斤出现的可能性比较大点，而70斤几乎不可能出现。假如区间估计是$[60, 100]$，则70斤和80.1斤就都很有可能出现了。这就是区间估计带来的好处，能让我们对预测的可能取值有更直观的感受。

除了这种双侧都用统计量表示的区间估计，还存在一种单侧区间估计，即形如$(-\infty,u(\boldsymbol{X})]$或者$[l(\boldsymbol{X}),+\infty)$的区间估计。这一般代表我们只关注参数的一侧，而不关注另一侧，我们称这种区间估计为单侧区间估计。不过，这种区间估计不是我们所要关注的重点。

Part 2：如何评价区间估计

最早接触过的，用一个区间来表示估计范围的，应该是高中所学的$3\sigma$原则：正态分布的取值落在$[\mu-3\sigma,\mu+3\sigma]$之外的概率小于0.01。虽然这并非区间估计（务必注意这不是区间估计），但我们也能据此来感受区间估计的两大评价指标：精度、可靠度。

精度用区间估计的平均长度来度量。为什么要加入“平均”二字呢？因为区间估计的上界和下界都是统计量，而统计量自身具有两重性，故区间长度$\hat g_2(\boldsymbol{X})-\hat g_1(\boldsymbol{X})$也是一个随机变量，其平均长度就是

\[\mathbb{E}[\hat g_2(\boldsymbol{X})-\hat g_1(\boldsymbol{X})].
\]

可靠度指的是待估参数$\theta$被包含在区间$[\hat g_1(\boldsymbol{X}),\hat g_2(\boldsymbol{X})]$内的可能性，其量度不像精度那么容易度量，这里需要引入置信水平（置信度）与置信系数的概念。置信水平指的是$[\hat g_1(\boldsymbol{X}),\hat g_2(\boldsymbol{X})]$包含待估参数$\theta$的概率，一般说来这个概率可能与$\theta$有关，在这种情况下，置信系数则是置信水平在$\theta\in\Theta$上的下确界。这样，即使置信水平是一个关于$\theta$的函数，置信系数也是一个$[0,1]$之间的常数，不过我们之后经常会取置信水平本身就是常数的区间作为待估参数的区间估计。

显然，精度和可靠度是相互制约的，如果样本容量一定，精度低了可靠度就高，为使置信系数达到$1$，这个区间估计一般是$\mathbb{R}$。我们应当在精度和可靠度中相互权衡，来挑选合适的置信区间，为此，常使用Neyman建议的方案：在保证置信系数达到指定要求的前提下，尽可能提高精度。即，首先我们需要对区间估计有一个预期的表现，在这个预期表现之下选择平均长度最小的区间估计。当然，预期的表现要合理，不能要一个$100\%$包含待估参数的蛮横要求，这样区间估计就会很尴尬。现行的教材一般要求这个置信系数是$95\%$，将其一般化，可以提出如下置信区间的概念。

设$[\hat \theta_1,\hat \theta_2]$是参数$\theta$的一个区间估计，其中$\hat\theta_1=\hat\theta_1(\boldsymbol{X})$，$\hat\theta_2=\hat\theta_2(\boldsymbol{X})$。若对于给定的$0<\alpha<1$（常取$\alpha=0.05$），有

\[\mathbb{P}(\theta\in[\hat\theta_1,\hat\theta_2])\ge 1-\alpha,\quad \forall\theta\in\Theta,
\]

则称$[\hat\theta_1,\hat\theta_2]$是$\hat\theta$的置信水平为$1-\alpha$的置信区间，该区间的置信系数就是$\inf\limits_{\theta\in\Theta}\mathbb{P}(\theta\in[\hat\theta_1,\hat\theta_2])$。

我想，大多数读者应该此前已经听说过置信区间这个名词，只是不知道其官方定义是什么。注意到，置信区间的定义是基于Neyman建议的，即首要条件是保证置信水平，尽可能让精度小（不一定需要）。如果$\mathbb{P}(\theta\in[\hat\theta_1,\hat\theta_2])$在$\theta\in\Theta$上是一个常数，则置信度就是置信系数，这也是我们更经常处理的情况。

对于单侧区间估计的情形，我们称满足$\mathbb{P}(\theta\in[\hat\theta_l,\infty))\ge 1-\alpha$或$\mathbb{P}(\theta\in(-\infty,\hat\theta_u])$的单侧置信区间端点$\hat\theta_l,\hat\theta_u$为置信水平为$1-\alpha$的置信限。也就是说，“限”即上限或下限，描述的是单侧的置信区间。

这样，我们就把区间估计部分的基本概念给阐释了一遍，但至于如何寻找区间估计，相信大多数读者依然不明白。这没有关系，阅读以上的部分，你只要明白Neyman的建议，以及什么叫置信区间、置信水平即可。

Part 3：$t$分布和$F$分布

在开始区间估计的寻找之前，我们需要介绍正态分布的另外两个衍生分布：$t$分布和$F$分布，它们在寻找正态分布区间估计的过程中会发挥重要的作用。

首先是$t$分布。设随机变量$X\sim N(0,1)$，$Y\sim \chi^2(n)$，且$X$和$Y$相互独立，则

\[T\xlongequal{def}\frac{X}{\sqrt{Y/n}}\sim t(n),
\]

其中$n$为自由度。形式上，分子是标准正态随机变量，分母是$\chi^2$变量除以其自由度并开根号，$t$分布的自由度即$\chi^2$分布的自由度。

书上提到，$t(n)$分布的密度函数是

\[p_n(x)=\frac{\Gamma(\frac{n+1}{2})}{\Gamma(\frac{n}{2})\sqrt{n\pi}}\left(1+\frac{x^2}{n} \right)^{-\frac{n+1}{2}},
\]

这不是一个需要记忆的结论，证明也比较复杂，故在此不给出。

需要注意的是$t$分布的一些性质：

$t$分布关于原点对称，即其密度函数是偶函数。
随着自由度$n$增大，$t(n)$分布趋近于标准正态分布。
若$T\sim t(n)$，则$\mathbb{E}(T^r)$只有当$r<n$时存在。特别当$n\ge 2$时，

\[\mathbb{E}(T)=0,
\]

当$n\ge 3$时，

\[\mathbb{D}(T)=\frac{n}{n-2}.
\]

显然其矩特征随着$n$增大，也趋近于$N(0,1)$的矩特征。
自由度为$1$的$t(1)$分布就是柯西分布，密度为

\[p(x)=\frac{1}{\pi(1+x^2)}.
\]

其任意阶矩不存在，常用于构造反例。

接下来介绍$F$分布。设随机变量$X\sim \chi^2(m)$，$Y\sim \chi^2(n)$，且$X,Y$相互独立，则

\[F\xlongequal{def}\frac{X/m}{Y/n}\sim F(m,n),
\]

其中$m,n$称为$F$分布的自由度，分子的自由度在前，分母的自由度在后。同样，$F$分布具有一些常用的性质：

若$Z\sim F(m,n)$，则$1/Z\sim F(n,m)$，这由定义显然。
若$t\sim t(n)$，则$t^2\sim F(1,n)$，这由定义显然。

这样，结合之前已经介绍过的$\chi^2$分布，我们就将正态分布的三大衍生分布介绍完毕了，尽管它们各自具有一定的性质，但其构造方式是最重要的。这三大分布，都可以由正态分布随机变量构造而成（$\chi^2$变量也可以视为正态变量），结合正态分布所自带的变换性质，可以呈现出各种各样的变化。

比如，如果$X_1,\cdots,X_n$是从正态总体$N(\mu,\sigma^2)$所抽取的简单随机样本，这里$\mu,\sigma^2$未知，所以$\bar X,S^2$的分布中肯定都带有未知参数，如果我们想消除未知参数的影响，可以参考正态分布的标准化过程：$(U-\mu)/\sigma\sim N(0,1)$构造出不含未知参数的统计量。

首先，由于$\bar X\sim N(\mu,\sigma^2/n)$，所以

\[\frac{\sqrt{n}(\bar X-\mu)}{\sigma}\sim N(0,1),
\]

又由于

\[\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1),
\]

所以有

\[\frac{\frac{\sqrt{n}(\bar X-\mu)}{\sigma}}{\sqrt{\frac{(n-1)S^2}{\sigma^2}/(n-1)}}=\frac{\sqrt{n}(\bar X-\mu)}{S}\sim t(n-1).
\]

神奇的是，未知参数$\sigma$被消除了，所以我们得到了一个具有确定分布的统计量。这个方法，在下一篇文章中将发挥重要的作用，其他的变换我们也以后再展开。

本文的前两个部分是区间估计的基本知识介绍，第三部分是正态分布的另外两个衍生分布，在下一篇文章中，我们将探索构造区间估计的方法。