4、Normal Equation 的向量投影解法与几何和直觉解释

参考：https://zhuanlan.zhihu.com/p/269232332

在线性回归的正交方程 ( Normal Equation )推导一文中提到使用 向量投影 的方法一步就能推导出 正交方程。从向量投影的角度，体现 线性回归 的本质。

预备知识：向量投影

平面A由基向量 $a_{1} 、a_{2}$ 所张成（Span ），换言之，平面A是 $[a_{1}, a_{2}]$ 的列空间。

$b$ 是平面外的一点， $p$ 是 $b$ 在平面上的投影， $p = A\tilde{x}$ ，求 $\tilde{x}$

$e$ 是 $b$ 和 $p$ 之间的距离： $e = b - p = b- A\tilde{x}$

用人话来解释下： $a_{1} 、a_{2}$ 构建了一个平面，平面内的任何向量，它俩均可通过 线性组合 构建出来，换言之，平面外的向量它俩就搞不定了。向量 $b$ 在 $a_{1} 、a_{2}$ 构建的平面外，不论 $a_{1} 、a_{2}$ 如何组合都不可能组合出 $b$ ，这个问题 无解。但是，可以组合出 $b$ 在平面内的投影 $p$ ，这是平面内最接近 $b$ 的点， $e$ 是 $b$ 和 $p$ 之间的偏差。于是，问题就变成了：如何找到组合 $\tilde{x}$ ，使 $A\tilde{x} = p$ 。

线性代数的初心是解决： $Ax = b$ ，在明显无解的情况下（方程数 > 变量数，超定），退而求其次，解一个可以解决的近似问题： $A\tilde{x} = p$ 。

$a_{1} 、a_{2}$ 垂直于 $e$

$a_{1}^{T}\cdot(b-A\tilde{x})= 0$

$a_{2}^{T}\cdot(b-A\tilde{x})= 0$

$\begin{bmatrix} a_{1}^{T} \\ a_{2}^{T}\end{bmatrix}(b-A\tilde{x})=\begin{bmatrix} 0 \\ 0\end{bmatrix}$

$A^{T}(b-A\tilde{x})=0$

$A^{T}b=A^{T}A\tilde{x}$

$\tilde{x} =(A^{T}A)^{-1}A^{T}b$

----------------------------------------------------------------------------------------------------------------------------------------------

言归正传，回到线性回归的问题：

线性回归要解决的问题是：找到合适的 $\theta$ ，使 $X\theta = {y}$

实际应用中，方程的数量（样本数）经常远大于变量 / 未知数的数量（特征数），例如以下数据情况：100条数据10个字段，意味着100个方程10个未知数，显然，这样的超定方程组是无解的（over determined ），所以我们不得不改变目标，寻找一个最“接近”的近似解 ${\theta}$ ，使得 $X\theta = \tilde{y}$ ， $\tilde{y}$ 是 $y$ 在 $x$ 的列空间的投影。

将 $X$ 代入 $A$ ，将 $y$ 代入 $b$ ，将 $\theta$ 代入 $\tilde{x}$ ，于是就得到 Normal Equation:

$\theta=(X^{T}X)^{-1}X^{T}y$

翻译成线性回归的语境：由于 $y$ 不在 $x_{1} 、x_{2}$ 所张成的空间内，不论 $x_{1} 、x_{2}$ 如何进行线性组合，都不可能组合出 $y$ ，但是，可以组合出 $y$ 在平面内的投影 $\tilde{y}$ ，线性回归的目标就是找到参数 $\theta$ ，使 $X\theta = \tilde{y}$ 。

在理解了线性回归的投影本质后，使用向量投影公式，只需一步就可以得到Normal Equation： $\theta=(X^{T}X)^{-1}X^{T}y$ 。

也可以表示为： $\theta=X^{\dagger}y$ ，其中 $X^{\dagger}=(X^{T}X)^{-1}X^{T}$ ，被成为伪逆矩阵。

---------------------------------------------------------------------------------------------------------------------------------------------------

最后从直觉的角度再来看一下 Normal Equation 和伪逆矩阵，方便记忆：

回顾我们的出发点 $X\theta = {y}$ ，如果 $X$ 可逆，两边同时乘以 $X^{-1}$ ，显然 $\theta = X^{-1}y$ 。

但在机器学习中，经常面对的是超定（ Overdetermined ）方程，方程数（数据点的数量，行，记录）大于未知数（即特征数，列，字段），非方阵， $X$ 不可逆。

$X^{T}X$ 是对称矩阵，也称 Gram 矩阵，它是 $n\times n$ 的方阵，大概率可逆，因此，我们很自然的希望在方程两边同时乘以 $X^{T}$ ，得到： $X^{T}X\theta=X^{T}y$ ，再两边同时乘以 $(X^{T}X)^{-1}$ 就能到 Normal Equation 。这个推导并不严谨， $X^{T}X$ 可能不可逆，但可作为快速记忆公式的方法。

4、Normal Equation 的向量投影解法与几何和直觉解释的更多相关文章

Linear regression with multiple variables(多特征的线型回归)算法实例_梯度下降解法(Gradient DesentMulti)以及正规方程解法(Normal Equation)
,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, ,, , ...
5种方法推导Normal Equation
引言: Normal Equation 是最基础的最小二乘方法.在Andrew Ng的课程中给出了矩阵推到形式,本文将重点提供几种推导方式以便于全方位帮助Machine Learning用户学习. N ...
coursera机器学习笔记-多元线性回归，normal equation
#对coursera上Andrew Ng老师开的机器学习课程的笔记和心得: #注:此笔记是我自己认为本节课里比较重要.难理解或容易忘记的内容并做了些补充,并非是课堂详细笔记和要点: #标记为<补 ...
Normal Equation
一.Normal Equation 我们知道梯度下降在求解最优参数$\theta$过程中需要合适的$\alpha$,并且需要进行多次迭代,那么有没有经过简单的数学计算就得到参数\(\theta ...
machine learning (7)---normal equation相对于gradient descent而言求解linear regression问题的另一种方式
Normal equation: 一种用来linear regression问题的求解Θ的方法,另一种可以是gradient descent 仅适用于linear regression问题的求解,对其 ...
Normal Equation Algorithm
和梯度下降法一样,Normal Equation(正规方程法)算法也是一种线性回归算法(Linear Regression Algorithm).与梯度下降法通过一步步计算来逐步靠近最佳θ值不同,No ...
normal equation（正规方程）
normal equation(正规方程) 正规方程是通过求解下面的方程来找出使得代价函数最小的参数的: \[ \frac{\partial}{\partial\theta_j}J\left(\the ...
（三）用Normal Equation拟合Liner Regression模型
继续考虑Liner Regression的问题,把它写成如下的矩阵形式,然后即可得到θ的Normal Equation. Normal Equation: θ=(XTX)-1XTy 当X可逆时,(XT ...
【转】Derivation of the Normal Equation for linear regression
I was going through the Coursera "Machine Learning" course, and in the section on multivar ...
机器学习入门：Linear Regression与Normal Equation -2017年8月23日22:11:50
本文会讲到: (1)另一种线性回归方法:Normal Equation: (2)Gradient Descent与Normal Equation的优缺点: 前面我们通过Gradient Desce ...

随机推荐

python自动发布
import os import paramiko baseconfig = { "ip": "121.4.38.187", "port": ...
IDEA 2022 开启热部署
POM.XML <dependency> <groupId>org.springframework.boot</groupId> <artifactId> ...
JAVA虚拟机25---编译器，解释器,JAVA中的即时编译
https://www.cnblogs.com/somefuture/p/14272221.html 1.简介编译器:是一种计算机程序,负责把一种编程语言编写的源码转换成另外一种计算机代码,后者往往 ...
有趣的python库-moviepy
moviepy-视频处理安装: pip install moviepy 基本使用: from moviepy.video.compositing.CompositeVideoClip import ...
CF1625D.Binary Spiders
$\text{Problem}$ 大概就是给出 $n$ 个数和 $m$,要从中选最多的数使得两两异或值大于等于 $m$ 输出方案 $\text{Solution}$ 一开始的想法很 ...
Spark系列 - (3) Spark SQL
3. Spark SQL 3.1 Hive.Shark和Sparksql Hive:Hadoop刚开始出来的时候,使用的是hadoop自带的分布式计算系统 MapReduce,但是MapReduce的 ...
grafana展示的CPU利用率与实际不符的问题探究
问题描述最近看了一个虚机的CPU使用情况,使用mpstat -P ALL命令查看系统的CPU情况(该系统只有一个CPU core),发现该CPU的%usr长期维持在70%左右,且%sys也长期维持在 ...
Cesium之基础控件
1. 引言 Cesium是一款三维地球和地图可视化开源JavaScript库,使用WebGL来进行硬件加速图形,使用时不需要任何插件支持,基于Apache2.0许可的开源程序,可以免费用于商业和非商业 ...
(七) Mysql 之 binlog redolog 二阶段提交
(一)背景知识: 1 binlog binlog 我们中文一般称作归档日志, 是 MySQL Server 层的日志,而不是存储引擎自带的日志,它记录了所有的 DDL 和 DML(不包含数据查询语句) ...
day12_内部类&API
1.参数传递 1.1 类名作为形参和返回值类名--方法形参方法的形参是类名,需要的是该类的对象:实际传递的是该对象的地址值类名--返回值方法的返回值是类名,返回的是该类的对象: ...

4、Normal Equation 的向量投影解法与几何和直觉解释

4、Normal Equation 的向量投影解法与几何和直觉解释的更多相关文章

随机推荐

热门专题