The Elements of Statistical Learning第3章导读
1、 公式(3.4)的推导。
可以直接对公式(3.3)中的$\beta_0$求导就得到$\hat{\beta}_0=\bar{y}-\beta_1\bar{x}$。
对公式(3.3)中的$\beta_0$求导会有:
$(y_1-\hat{\beta_0}-\hat{\beta_1}x_1)x_1+(y_2-\hat{\beta_0}-\hat{\beta_1}x_2)x_2\ldots+(y_n-\hat{\beta_0}-\hat{\beta_1}x_n)x_n$
将$\hat{\beta}_0=\bar{y}-\beta_1\bar{x}$代入上面的式子就有:
$\displaystyle \sum_{i=0}^n (y_i-(\bar{y}-\beta_1\bar{x})-\hat{\beta_1}x_i)x_i $
$\displaystyle = \sum_{i=0}^n (y_ix_i-\bar{y}x_i+\beta_1\bar{x}x_i-\hat{\beta_1}x_i^2) $ 公式(1)
注意这样两个事实:
(a) $\displaystyle \sum_{i=0}^n \left(-x_i+\bar{x}\right)\bar{x}=\sum_{i=0}^n \left(-x_i\bar{x}+\bar{x}^2\right)=0$
(b) $\displaystyle \sum_{i=0}^n \left(-y_i+\bar{y}\right)\bar{x}=\sum_{i=0}^n \left(-y_i\bar{x}+\bar{y}\bar{x}\right)=0$
将这个两个等式代入到公式(1)中,则有
$\displaystyle \sum_{i=0}^n\left(y_ix_i-\bar{y}x_i-\bar{x}(y_i-\bar{y}-\left( \bar{x}x_i+x_i^2-x_i\bar{x}+\bar{x}^2\right) \hat{\beta_1}\right) $
$\displaystyle = \sum_{i=0}^n\left((y_i-\bar{y})(x_i-\bar{x})-( x_i-\bar{x})^2\hat{\beta_1} \right)$
2、公式(3.7)的由来。
公式(3.7)反应了样本均值与总体(Population) 均值之间的偏离程度。假设总体的均值为$\mu$,方差为$\sigma^2$,$\mu_1,\mu_2,\ldots,\mu_n$是从总体中抽取的$n$个样本。样本均值$\bar{\mu}=\frac{1}{n}\sum_{i=1}^n\mu_i$,则有:
$var(\bar{\mu})=E(\bar{\mu}-E(\bar{\mu}))=E\left(\frac{1}{n}\sum_{i=1}^n(\mu_i-\mu)\right)=\frac{\sigma^2}{n}$
这个公式需要用到这样的事实:各个样本之间是独立的随机变量,比如$x_1,x_2$是独立同分布的随机变量,其对应的分布的期望和方差分别为$\mu$和$\sigma^2$,则:
$E\left(x_1+x_2-E(x_1+x_2)\right)^2=E\left(x_1+x_2-2\mu\right)^2=E(x_1^2)+E(x_2^2)+2E(x_1x_2)-4\mu E(x_1)-4\mu E(x_2)+4\mu^2)$
$=E(x_1^2)+E(x_2^2)-2\mu^2=2\sigma^2$
注意,由于前面已经假设$x_1,x_2$是独立的,则$E(x_1x_2)=E(x_1)E(x_2)$。
3、公式(3.8)的推导。
可用方差(或标准差的平方)来度量某次参数估计与参数的均值之间差多远(见公式(3.7))。在对参数$\hat{\beta_1}$的估计中,随机变量是$y_i=f(x_i)+\epsilon_i$,其中$var(\epsilon_i)=\sigma^2$,因此有$var\left(y_i-\bar{y}\right)=\sigma^2$(注意,这里的$\bar{y}$是由多个$y_i$相加而得到,可看成是一个常量,实际上它会接近于$\epsilon_i$对应的分布的均值)。 这里假定$\epsilon_i$是对同一分布采样得到,而且这些采样是独立的(见原版书Pxx也是这样规定的),则
$\displaystyle \sum_{i=1}^n var\left((x_i-\bar{x})(y_i-\bar{y})\right)=n\sigma^2\left(\sum_{i=1}^n(x_i-\bar{x})^2\right)$
这个等式成立是利用了这样的定理:若随机变量$\xi_1$与$\xi_2$互不相关,则$var(\xi_1+\xi_2)=var(\xi_1)+var(\xi_2)$。
因此,有
$SE\left(\hat{\beta_1}\right)^2=SE\left(\frac{\sum_{i=1}^n\left((x_i-\bar{x})(y_i-\bar{y})\right)}{\sum_i^n(x_i-\bar{x})}\right)^2=\frac{n\sigma^2\left(\sum_{i=1}^n(x_i-\bar{x})^2\right)}{n\left(\sum_{i=1}^n(x_i-\bar{x})^4\right)}=\frac{\sigma^2}{\left(\sum_{i=1}^n(x_i-\bar{x})^2\right)}$
注意,上面这个等式中的$(x_i-\bar{x}$不是随机变量。
同理可得$SE(\hat{\beta_0})^2=\sigma^2\left[\frac{1}{n}-\frac{\bar{x}^2}{\left(\sum_{i=1}^n(x_i-\bar{x})^2\right)}\right]$
4、公式(3.23)的说明。
公式(3.23)的分子是一个自由度为p的卡方分布(chi squred distribution);而分每是一个自由度为(n-p-1)的卡方分布,因此它们相除就是F分布,即F(p,n-p-1)。
The Elements of Statistical Learning第3章导读的更多相关文章
- More 3D Graphics (rgl) for Classification with Local Logistic Regression and Kernel Density Estimates (from The Elements of Statistical Learning)(转)
This post builds on a previous post, but can be read and understood independently. As part of my cou ...
- Some 3D Graphics (rgl) for Classification with Splines and Logistic Regression (from The Elements of Statistical Learning)(转)
This semester I'm teaching from Hastie, Tibshirani, and Friedman's book, The Elements of Statistical ...
- ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(三)
照例文章第一段跑题,先附上个段子(转载的哦~): I hate CS people. They don't know linear algebra but want to teach projecti ...
- Hand on Machine Learning第三章课后作业(1):垃圾邮件分类
import os import email import email.policy 1. 读取邮件数据 SPAM_PATH = os.path.join( "E:\\3.Study\\机器 ...
- 《Deep Learning》第二章 线性代数 笔记
第二章 线性代数 2.1 名词 标量(scalar).向量(vector).矩阵(matrix).张量(tensor) 2.2 矩阵和向量相乘 1. 正常矩阵乘法: 2. 向量点积: 3. Hadam ...
- 斯坦福公开课:Statistical Learning中做错的选择题
4.4 R1 In which of the following problems is Case/Control Sampling LEAST likely to make a positive i ...
- Learning Perl 第九章习题第二题
把输入文件中的所有Fred换成Larry, 不区分大小写. 知识点 1. 文本文件读写 2. 简单的正则替换 3. unless 的用法 4. $_ 的用法
- Introduction to statistical learning:with Applications in R (书,数据,R代码,链接)
http://faculty.marshall.usc.edu/gareth-james/ http://faculty.marshall.usc.edu/gareth-james/ISL/
- Hand on Machine Learning 第三章:分类器
1. 获取数据 使用MNIST数据集练习分类任务 from sklearn.datasets import fetch_mldata from scipy.io import loadmat mnis ...
随机推荐
- 一个简单的基于HTTP协议的屏幕共享应用
HTTP协议可以能是应用层协议里使用最广泛并且用途最多样的一个了.我们一般使用HTTP协议来浏览网页,但是HTTP协议还用来做很多其它用途.对开发人员来讲很常见的一种就是用HTTP协议作为各种版本控制 ...
- POJ 1062 昂贵的聘礼详解最短路变形
POJ上难得一见的中文题…… 思路:建立一个以0为源点的地图,那么Map[0][n]的值代表 第n号物品的价值,Map[i][j]代表用 j 替代 i 后,物品j的价值.我们认为酋长的承诺为节点 ‘ ...
- Split()特殊字符
关于点的问题是用string.split("[.]") 解决. 关于竖线的问题用 string.split("\\|")解决. 关于星号的问题用 string. ...
- 多个inline元素、block元素、inline-block元素在父容器中的换行情况
1.首先看inine元素的换行情况 <style> *{padding:0;margin:0} div.wrap{width:200px;height:200px;border:1px s ...
- javascript中的原型继承
在Javascript面向对象编程中,原型继承不仅是一个重点也是一个不容易掌握的点.在本文中,我们将对Javascript中的原型继承进行一些探索. 基本形式 我们先来看下面一段代码: <cod ...
- zookeeper启动失败
集群中3个节点,第一个started,第二个说Starting zookeeper ... already running as process xxxx,第三个说Starting zookeeper ...
- git 以及 github 使用系列
本人打算开始写一个有关git 使用,以及github 使用的系列文章了,一来可以自己总结,二来github用好了,可以存放自己的一些知识框架吧. 1.准备 : 有一个 github上的账号, wind ...
- 【HighCharts系列教程】三、图表属性——chart
一.chart属性说明 Chart是HighCharts图表中主要属性,包括了图表区域的颜色.线条.高度.宽度.对齐.图表类型等诸多属性,也是HighCharts图表中必须配置的属性之一. 配置cha ...
- Bundle display name 与 Bundle name 的区别
Bundle display name 与 Bundle name 的区别是什么?"Bundle Name" and "Bundle display name" ...
- HDU 1828 POJ 1177 Picture
矩形周长并 POJ上C++,G++都能过,HDU上C++过了,G++WA ,不知道为什么 #include<cstdio> #include<cstring> #include ...