Linear & Ridge Regression

对于$n$个数据$\{(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)\},x_i\in\mathbb{R}^d,y_i\in\mathbb{R}$。我们采用以下矩阵来记上述数据:

\begin{equation}\mathbf{X}=\left[\begin{array}& x_1^\prime\\ x_2^\prime\\\vdots\\ x_n^\prime\end{array}\right]\quad y=\left(\begin{array}&y_1\\y_2\\\vdots\\y_n\end{array}\right)\end{equation}

我们想要拟合出$y=\mathbf{X}\beta+\epsilon$,其中$\epsilon$为服从均值为0,方差为$\sigma^2$的高斯分布。

一、 最大似然估计

$\epsilon$的密度函数:

$$f(\epsilon)=\frac{1}{\sqrt{2\pi}\sigma}exp\{-\frac{\epsilon^2}{\sigma^2}\}=\frac{1}{\sqrt{2\pi}\sigma}exp\{-\frac{\|y-\mathbf{X}\beta\|^2}{\sigma^2}\}$$

似然函数:

$$L(\beta)=\prod_{i=1}^n\frac{1}{\sqrt{2\pi}\sigma}exp\{-\frac{(y_i-x_i^\prime\beta)^\prime(y_i-x_i^\prime\beta)}{\sigma^2}\}$$

log-似然函数:

$$l(\beta)=n\mathop{log}\frac{1}{\sqrt{2\pi}\sigma}-\sum_{i=1}^n\frac{(y_i-x_i^\prime\beta)^\prime(y_i-x_i^\prime\beta)}{\sigma^2}$$

令$\frac{dl(\beta)}{d\beta}=0$ $\Longrightarrow$ $(\mathbf{X}^\prime\mathbf{X})\hat{\beta}_{ML}=\mathbf{X}^\prime y$

其中$\mathbf{X}^\prime\mathbf{X}$和$\mathbf{X}^\prime y$是充分统计量。

充分统计量:直观来讲应该能够将样本中所有包含的关于未知参数的信息全部包括起来,这样的统计量就是充分统计量。具体的说,在统计量$T$给定后,样本的条件分布已经不在依赖于参数$\theta$。数学定义:设有一个分布族$\mathcal{F}=\{F\},(x_1,x_2,\cdots,x_n)$是从某总体$F\in\mathcal{F}$中抽取的一个样本,$T=T(x_1,x_2,\cdots,x_n)$为一个(一维或多维)统计量,如果当给定$T=t$下, 样本$(x_1,x_2,\cdots,x_n)$的条件分布于总体分布$F$无关,则称$T$为此分布族的充分统计量(sufficient statistic)。

假设$(\mathbf{X}^\prime\mathbf{X})^{-1}$存在,则

\begin{align*}\hat{\beta}_{ML}&=(\mathbf{X}^\prime\mathbf{X})^{-1}\mathbf{X}^\prime y\\&=\mathbf{X}^\prime\mathbf{X}(\mathbf{X}^\prime\mathbf{X})^{-2}y\\&=\mathbf{X}^\prime\alpha\end{align*}

其中$\alpha=\mathbf{X}(\mathbf{X}^\prime\mathbf{X})^{-2}y$。最后的预测模型:$y=x\hat{\beta}_{ML}=x\mathbf{X}^\prime\alpha$

二、最小二乘法

原则:使拟合出来的直线到各点的距离之和最小。其模型如下:

\begin{equation}\mathop{\min}\quad  \sum_{i=1}^n(y_i-x_i^\prime\beta)^2\label{equ:leastSquare}\end{equation}

对式子\ref{equ:leastSquare}求导,并令其为0可得:$\mathbf{X}^\prime\mathbf{X}\beta=\mathbf{X}^\prime y$,同样假设$\mathbf{X}^\prime\mathbf{X}$可逆,故$\hat{\beta}_{LS}=(\mathbf{X}^\prime\mathbf{X})^{-1}\mathbf{X}^\prime y$。

三、岭回归(Ridge regression)

当自变量之间存在多重相关性的时候,矩阵$\mathbf{X}^\prime\mathbf{X}$并不一定可逆,或者$|\mathbf{X}^\prime\mathbf{X}|$非常小,导致最小二乘法回归出来的系数会产生过拟合现象。此时可以给最小二乘法加入二次的penalty,得到岭回归。

1)从最大似然函数加上penalized $-\lambda\|\beta\|^2$来看。

其中$\epsilon$的密度函数:

$$f(\epsilon)=\frac{1}{\sqrt{2\pi}\sigma}exp\{-\frac{\epsilon^2+\lambda\|\beta\|^2}{2\sigma^2}\}=\frac{1}{\sqrt{2\pi}\sigma}exp\{-\frac{(y-x^\prime\beta)^2+\lambda\beta^\prime\beta}{2\sigma^2}\}$$

似然函数:

$$L(\theta)=\prod_{i=1}^n\frac{1}{\sqrt{2\pi}\sigma}exp\{-\frac{(y_i-x_i^\prime\beta)^2+\lambda\beta^\prime\beta}{2\sigma^2}\}$$

log-似然函数:

$$l(\theta)=n\mathop{log}\frac{1}{\sqrt{2\pi}\sigma}-\sum_{i=1}^n\frac{(y_i-x_i^\prime\beta)^2+\lambda\beta^\prime\beta}{2\sigma^2}$$

对log-似然函数求导得:

$$\frac{dl(\theta)}{d\theta}=-\mathbf{X}^\prime y+\mathbf{X}^\prime\mathbf{X}\beta+\lambda\beta=0 \Longrightarrow \mathbf{X}^\prime y=(\mathbf{X}^\prime\mathbf{X}+\lambda\mathbf{I})\hat{\beta_{ML}}$$

由于矩阵$(\mathbf{X}^\prime \mathbf{X}+\lambda\mathbf{I})$必定可逆,故:

$$\hat{\beta_{ML}}=(\mathbf{X}^\prime \mathbf{X}+\lambda\mathbf{I})^{-1}\mathbf{X}^\prime y$$

2)从贝叶斯角度

假设待考察的量遵循某概率分布,且根据这些概率及观察到的数据进行推断,以作出最优的决策。

贝叶斯公式:$\mathbb{P}(h|D)=\frac{\mathbb{P}(h)\mathbb{P}(D|h)}{\mathbb{P}(D)}$.

最大后验概率(Maximum a Posteriori Probability,MAP):

$$h_{MAP}=\mathop{argmin}_{h\in H}\mathbb{P}(h|D)=\mathop{argmin}_{h\in H}\frac{\mathbb{P}(h)\mathbb{P}(D|h)}{\mathbb{P}(D)}=\mathop{argmin}_{h\in H}\mathbb{P}(h)\mathbb{P}(D|h)$$

假设$\beta$服从先验分布$\beta\sim N(0,\lambda^{-1})$,则

\begin{align*}\mathop{\max}_{h\in H}\mathbb{P}(h|D)&=\frac{1}{\sqrt{2\pi}\sigma}exp\{-\frac{(y-\mathbf{X}\beta)^\prime(y-\mathbf{X}\beta)}{2\sigma^2}\}\frac{\sqrt{\lambda}}{\sqrt{2\pi}}exp\{-\frac{\beta^\prime\beta}{\frac{2}{\lambda}}\}\\ &=\frac{\sqrt{\lambda}}{2\pi\sigma}exp\{-\frac{(y-\mathbf{X}\beta)^\prime(y-\mathbf{X}\beta)}{2\sigma^2}-\frac{\lambda\beta^\prime\beta}{2}\}\end{align*}

$$\Longrightarrow\mathop{\min}\frac{(y-\mathbf{X}\beta)^\prime(y-\mathbf{X}\beta)}{2\sigma^2}+\frac{\lambda}{2}\beta^\prime\beta$$

令导数等于0$\Longrightarrow \frac{-\mathbf{X}^\prime(y-\mathbf{X}\beta)}{\sigma^2}+\lambda\beta=0$

$$\Longrightarrow (\mathbf{X}^\prime\mathbf{X}+\sigma^2\lambda\mathbf{I})\hat{\beta_{MAP}}=\mathbf{X}^\prime y$$

$$\Longrightarrow \sigma^2\lambda\hat{\beta_{MAP}}=\mathbf{X}^\prime y-\mathbf{X}^\prime\mathbf{X}\hat{\beta_{MAP}}=\mathbf{X}^\prime(y-\mathbf{X}\hat{\beta_{MAP}})$$ $$\Longrightarrow \hat{\beta_{MAP}}=(\sigma^2\lambda)^{-1}\mathbf{X}^\prime(y-\mathbf{X}\hat{\beta_{MAP}})\triangleq\mathbf{X}^\prime\alpha$$

其中$\alpha = (\sigma^2\lambda)^{-1}(y-\mathbf{X}\hat{\beta_{MAP}})$。

由$\sigma^2\lambda\alpha = y-\mathbf{X}\hat{\beta_{MAP}}=y-\mathbf{X}\mathbf{X}^\prime\alpha$

$$\Longrightarrow (\sigma^2\lambda+\mathbf{X}\mathbf{X}^\prime)\alpha=y$$

$$\Longrightarrow \alpha=(\mathbf{X}\mathbf{X}^\prime+\sigma^2\lambda)^{-1}y=(\mathbf{K}+\lambda\sigma^2)^{-1}y$$

故我们只需要知道矩阵$\mathbf{K}$即可计算出$\alpha$和$\beta$值。当我们将上述矩阵$\mathbf{K}$替换成kernel矩阵,则可在更高维的空间进行回归,而且我们并不需要去关心这个映射的具体形式。

Jordan Lecture Note-4: Linear & Ridge Regression的更多相关文章

  1. Ridge Regression and Ridge Regression Kernel

    Ridge Regression and Ridge Regression Kernel Reference: 1. scikit-learn linear_model ridge regressio ...

  2. 【机器学习】Linear least squares, Lasso,ridge regression有何本质区别?

    Linear least squares, Lasso,ridge regression有何本质区别? Linear least squares, Lasso,ridge regression有何本质 ...

  3. [Scikit-learn] 1.1 Generalized Linear Models - Bayesian Ridge Regression

    1.1.10. Bayesian Ridge Regression 首先了解一些背景知识:from: https://www.r-bloggers.com/the-bayesian-approach- ...

  4. Jordan Lecture Note-1: Introduction

    Jordan Lecture Note-1: Introduction 第一部分要整理的是Jordan的讲义,这份讲义是我刚进实验室时我们老师给我的第一个任务,要求我把讲义上的知识扩充出去,然后每周都 ...

  5. support vector regression与 kernel ridge regression

    前一篇,我们将SVM与logistic regression联系起来,这一次我们将SVM与ridge regression(之前的linear regression)联系起来. (一)kernel r ...

  6. How and when: ridge regression with glmnet

    @drsimonj here to show you how to conduct ridge regression (linear regression with L2 regularization ...

  7. ISLR系列:(4.2)模型选择 Ridge Regression & the Lasso

    Linear Model Selection and Regularization 此博文是 An Introduction to Statistical Learning with Applicat ...

  8. 再谈Lasso回归 | elastic net | Ridge Regression

    前文:Lasso linear model实例 | Proliferation index | 评估单细胞的增殖指数 参考:LASSO回歸在生物醫學資料中的簡單實例 - 生信技能树 Linear le ...

  9. 线性回归——lasso回归和岭回归(ridge regression)

    目录 线性回归--最小二乘 Lasso回归和岭回归 为什么 lasso 更容易使部分权重变为 0 而 ridge 不行? References 线性回归很简单,用线性函数拟合数据,用 mean squ ...

随机推荐

  1. [娱乐]GameMaker绘制参数方程的图像

    今天,我翻了旧物,硬着头皮看了这源码.突然恍然大悟,这岂不就是当年学的参数方程! 目前,最早开始教授参数方程实在高三时,并作为一门选修课程,简化了求解圆锥曲线方程的难度,在高考中也很容易拿分,考试过后 ...

  2. 在 MacOS 上编译链接 OpenGL 程序

    几个星期以前开始折腾在我的MBA上写 OpenGL 小程序.我不太熟悉MacOS上的开发工具比如XCode,所以一开始的想法就是用vim来写程序,然后手工编译链接.网上查了一下,MacOS上的Open ...

  3. ajax跨域解决方案(服务端仅限java)

    楼主前端知识菜鸟,高手勿喷,在此记录工作中遇到的问题及解决方案,大神请滤过 方法1.jsonp(js客户端ajax请求参数方式设置) 方法2.服务端接口设置: HttpServletResponse ...

  4. MFC对话框

    创建对话框步骤: 第一,创建对话框资源,主要包括创建新的对话框模板.设置对话框属性和为对话框添加各种控件: 第二,生成对话框类,主要包括新建对话框类.添加控件变量和控件的消息处理函数等. 创建对话框类 ...

  5. javascript设计模式3

    门户大开式对象 var Book=function(isbn,title,author){ if (isbn==undefined) throw new Error("不合法"); ...

  6. JavaScript中值的真真假假(true and false)

    值为flase的有: false 0 "" //空串 null undefined NaN 除了以上的之外的都是ture,包括"0" (zero in quot ...

  7. leetcode@ [295]Find Median from Data Stream

    https://leetcode.com/problems/find-median-from-data-stream/ Median is the middle value in an ordered ...

  8. 配置nginx,支持php的pathinfo路径模式

    nginx模式默认是不支持pathinfo模式的,类似index.php/index形式的url会被提示找不到页面.下面的通过正则找出实际文件路径和pathinfo部分的方法,让nginx支持path ...

  9. $GLOBALS 添加超全局变量

    <?php function test() { $foo = "local variable"; echo '$foo in global scope: ' . $GLOBA ...

  10. 【Stage3D学习笔记续】真正的3D世界(五):粒子特效

    先看效果,按下空格键添加粒子特效: 一般而言粒子特效的实现都是比较复杂的,且不说实现粒子特效的编码和设计,光是编写一个粒子编辑器就不是简单的一件事,但是作者使用了很取巧的方式来完成,我们接下来深入代码 ...