RSS(Residual Sum of Squares)的自由度为什么是n-1呢
【转载请注明出处】http://www.cnblogs.com/mashiqi
在回归问题中,偶尔我们会遇到求方差的估计的情况。举了例子,我们常常通过Gaussian分布${\cal N}(\mu ,{\sigma^2})$的样本集合$\{x_i\}_{i=1}^n$去估计分布的参数$\mu,\sigma^2$。对$\mu$的估计应该大家都很熟悉了:$\hat{\mu}=\bar{x} =\frac{1}{n} \sum_{i=1}^n x_i$,然而,对$\sigma^2$的估计,在教科书中,却常常见到两种形式:

第一种形式就不解释了,第二种形式一般称为对$\sigma^2$的无偏估计形式。这是除以$n-1$才是无偏的呢?这个问题往往是刚接触的同学的困惑。不过这个$n-1$似乎也不是那么的天外来客:你看,$\bar{x}$与$x_i$并不是独立的,这必然导致每一个求和项$(x_1-\bar{x}),(x_2-\bar{x}),\cdots,(x_n-\bar{x})$之间并不是完全的独立的关系,因此求和之后直接除以$n$肯定不对啊,要调整,这个调整就是减一:$n \rightarrow n-1$。以上是一个make sense的解释,相信大家听了过后就会理解为什么要减一了。但是处女座同学和强迫症患者往往不会仅仅满足于此(裤子都脱了,你就给我说这些!?),所以,下面就给一个mathematical的解释。
RSS(Residual Sum of Squares)的定义是:

其中$\bar{x} = \frac{1}{n} \sum_{i=1}^n x_i$是平均值。我们的目标是没有蛀牙把$RSS$转化成一个个相互独立的项然后求和。

我们记最后的中间的这个矩阵为$A$,由于$A$是实对称的,因此肯定和对角矩阵合同。对$A$进行对角分解得:

其中$P$是正交矩阵。于是有

其中$y=P^Tx$。我们现在来检查一下$y$的方差(假设$Ex=0$):

因此$y$的各个分量$\{y_i\}_{i=1}^n$之间相互独立,并且方差为$\sigma^2$。所以从式来看,$RSS/(n-1)$确实是对$\sigma^2$的一个不错的估计(无偏的)!
正交矩阵$P$是怎么得到的呢?

$\lambda=0$对应的单位特征向量为$(1/\sqrt{n},1/\sqrt{n},\cdots,1/\sqrt{n})^T$;
$\lambda=1$对应的$n-1$个单位特征向量为$p_i$,其中$p_i \in \{\alpha \in \mathcal{R}^n|(1,1,\cdots,1)\alpha=0,||\alpha||_2=1\}$,并且$p_i,p_j$之间相互垂直。
经过我抓耳挠腮的推导后,求出$p_i$是这样的(大家拿去用吧不用感谢我/羞):

其中$p_i$的前$i-1$个分量是$\frac{1}{\sqrt{(i-1)i}}$,第$i$个分量是$-\frac{i-1}{\sqrt{(i-1)i}}$,后面的就算是0。其中需要专门给出的是$p_i=(\frac{1}{\sqrt{2}},-\frac{1}{\sqrt{2}},0,\cdots,0)$。因此:

因此,$x$和$y$之间的对应关系就是:

补充内容:
$$\sum_{i=1}^n (x_i - \bar{x})^2 = \sum_{i=1}^n x_i^2 - \frac{1}{n} \sum_{i,j=1}^n x_i x_j = \frac{1}{2n} \sum_{i,j=1}^n (x_i - x_j)^2$$
RSS(Residual Sum of Squares)的自由度为什么是n-1呢的更多相关文章
- residual sum of squares(ESL 读书笔记)
The learning algorithm has the property that it can modify its input/output relationship f-hat in re ...
- SPOJ 11840. Sum of Squares with Segment Tree (线段树,区间更新)
http://www.spoj.com/problems/SEGSQRSS/ SPOJ Problem Set (classical) 11840. Sum of Squares with Segme ...
- Sum of Squares of the Occurrence Counts解题报告(后缀自动机+LinkCutTree+线段树思想)
题目描述 给定字符串\(S(|S|\le10^5)\),对其每个前缀求出如下的统计量: 对该字符串中的所有子串,统计其出现的次数,求其平方和. Sample Input: aaa Sample Out ...
- [Project Euler 429] Sum of squares of unitary divisors(数论)
题目链接:https://projecteuler.net/problem=429 题目: 我们称 N 的约数 d 为特殊的当且仅当 gcd(d, n / d) = 1. 设 S(n) 为 n 所有特 ...
- 线性回归中常见的一些统计学术语(RSE RSS TSS ESS MSE RMSE R2 Pearson's r)
TSS: Total Sum of Squares(总离差平方和) --- 因变量的方差 RSS: Residual Sum of Squares (残差平方和) --- 由误差导致的真实值和估计值 ...
- 回归平方和 ESS,残差平方和 RSS,总体平方和 TSS
https://zhidao.baidu.com/question/565190261749684764.html 回归平方和 ESS,残差平方和 RSS,总体平方和 TSS 总变差 ...
- 机器学习---线性回归(Machine Learning Linear Regression)
线性回归是机器学习中最基础的模型,掌握了线性回归模型,有利于以后更容易地理解其它复杂的模型. 线性回归看似简单,但是其中包含了线性代数,微积分,概率等诸多方面的知识.让我们先从最简单的形式开始. 一元 ...
- (转)决定系数R2
有些讲得太烂了,我来通俗的梳理一下R2. Calculating R-squared 在线性回归的模型下,我们可以计算SE(line), SE(y均值). The statistic R2descri ...
- ML之多元线性回归
转自:http://www.cnblogs.com/zgw21cn/archive/2009/01/07/1361287.html 1.多元线性回归模型 假定被解释变量与多个解释变量之间具有线性关系, ...
随机推荐
- 使用Python一步一步地来进行数据分析总结
原文链接:Step by step approach to perform data analysis using Python译文链接:使用Python一步一步地来进行数据分析--By Michae ...
- HDU3333 Turing Tree 树状数组+离线处理
Turing Tree Time Limit: 6000/3000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total ...
- 教你解决Sublime Text中文乱码问题
教你解决Sublime Text中文乱码问题[转载自成长的企鹅] Sublime Text 2是一个非常不错的源代码及文本编辑器,但是不支持GB2312和GBK编码在很多情况下会非常麻烦. ...
- Json不知道key值情况下获取第一个键值对
JObject jsonData = new JObject(); jsonData.Add("1", "1"); jsonData.Add("2&q ...
- 从零开始HTML(一 2016/9/19)
就是准备跟着W3C上的教程过一遍HTML啦,边看边记录更便于理解记忆吧~ 1.属性 HTML 标签可以拥有属性.属性提供了有关 HTML 元素的更多的信息.属性总是以名称/值对的形式出现,比如:nam ...
- 学的一点点ps
从C语言的代码中解脱开始学ps,看到色彩鲜明的东西,心里只有那么爽.哈哈.只学习3天,虽然只是一些皮毛,可还是学到了一些以前不知道的东西.让我对ps多了很多兴趣,决定以后要自学更多的ps技能.要给图片 ...
- STM32学习笔记(五) USART异步串行口输入输出(轮询模式)
学习是一个简单的过程,只要有善于发掘的眼睛,总能学到新知识,然而如何坚持不懈的学习却很困难,对我亦如此,生活中有太多的诱惑,最后只想说一句勿忘初心.闲话不多扯,本篇讲诉的是异步串行口的输入输出,串口在 ...
- Spring中@Async注解实现“方法”的异步调用
原文:http://www.cnblogs.com/zhengbin/p/6104502.html 简单介绍: Spring为任务调度与异步方法执行提供了注解支持.通过在方法上设置@Async注解,可 ...
- Monkey测试的策略和分析
Monkey测试针对不同的对象和不同的目的采用不同的测试方案,首先测试的对象.目的及类型如下: 测试的类型分为:应用程序的稳定性测试和压力测试 测试对象分为:单一apk和apk集合 测试的目的分为:解 ...
- .net Web开发学习日志 —C/S和B/S结构区别
查看到<C/S和B/S结构区别整理> B/S结构与C/S结构都是有各自的优缺点: 前者无需安装,只要有浏览器即可,随时随地查询相关的业务,业务扩展强,维护强,共享强.在跨浏览器较难,响应速 ...