CS229 笔记02

公式推导

$ {\text {For simplicity, Let }} A, B, C \in {\Bbb {R}}^{n \times n}. $

$ {\bf {\text {Fact.1: }}} \text{If } a \in {\Bbb R}, {\rm tr}a=a $

$ {\bf {\text {Fact.2: }}} {\rm{tr}}A={\rm{tr}}A^{\rm T} $

\[
\begin{eqnarray*} {\rm {tr}}\,A&=&\sum_{i=1}^n{a_{ii}} \\[1em]
&=&{\rm {tr}}\,A^{\rm T}
\end{eqnarray*}
\]

$ {\bf {\text {Fact.3: }}} {\rm{tr}}AB={\rm{tr}}BA $

\[
\begin{eqnarray*}
{\rm tr}\,AB&=&\sum_{i=1}^n{[AB]_{ii}} \\[1em]
&=&\sum_{i=1}^n{\sum_{k=1}^{n}{a_{ik}\,b_{ki}}} \\[1em]
&=&\sum_{i=1}^n{\sum_{k=1}^{n}{b_{ki}\,a_{ik}}} \\[1em]
&=&\sum_{i=1}^n{\sum_{k=1}^{n}{b_{ik}\,a_{ki}}} \\[1em]
&=&\sum_{i=1}^n{[BA]_{ii}} \\[1em]
&=&{\rm tr}\,BA \\
\end{eqnarray*}
\]

$ {\bf {\text {Fact.4: }}} {\rm{tr}}ABC={\rm{tr}}CAB={\rm{tr}}BCA $

\[
\begin{eqnarray*}
{\rm tr}\,ABC&=&{\rm tr}\,(AB)C \\[1em]
&=&{\rm tr}\,C(AB) \tag{Fact.3} \\[1em]
&=&{\rm tr}\,A(BC) \\[1em]
&=&{\rm tr}\,(BC)A \tag{Fact.3} \\[1em]
\end{eqnarray*}
\]

$ {\bf {\text {Fact.5: }}} \nabla_A{{\rm {tr}} AB}=B^{\rm T}$

\[
\begin{eqnarray*}
{\rm {tr}\, AB}&=&\sum_{i=1}^n{[AB]_{ii}}=\sum_{i=1}^n{\sum_{k=1}^n{a_{ik}\,b_{ki}}} \\[1em]
\nabla_A\,{{\rm {tr}}\, AB}&=&\frac{\partial{{\rm {tr}}\,AB}}{\partial A} \\[1em]
&=&\begin{bmatrix}\frac{\partial\,{{\rm {tr}}\,AB}}{\partial a_{11}} & \frac{\partial\,{{\rm {tr}}\,AB}}{\partial a_{12}} & \cdots & \frac{\partial\,{{\rm {tr}}\,AB}}{\partial a_{1n}} \\[1em] \frac{\partial\,{{\rm {tr}}\,AB}}{\partial a_{21}} & \frac{\partial\,{{\rm {tr}}\,AB}}{\partial a_{22}} & \cdots & \frac{\partial\,{{\rm {tr}}\,AB}}{\partial a_{2n}} \\[1em] \vdots & \vdots & \ddots & \vdots \\[1em] \frac{\partial\,{{\rm {tr}}\,AB}}{\partial a_{n1}} & \frac{\partial\,{{\rm {tr}}\,AB}}{\partial a_{n2}} & \cdots & \frac{\partial\,{{\rm {tr}}\,AB}}{\partial a_{nn}}\end{bmatrix} \\[1em]
&=&\begin{bmatrix}\frac{\partial}{\partial a_{11}}{\sum_{i=1}^n{\sum_{k=1}^n{a_{ik}\,b_{ki}}}} & \frac{\partial}{\partial a_{12}}{\sum_{i=1}^n{\sum_{k=1}^n{a_{ik}\,b_{ki}}}} & \cdots & \frac{\partial}{\partial a_{1n}}{\sum_{i=1}^n{\sum_{k=1}^n{a_{ik}\,b_{ki}}}} \\[1em] \frac{\partial}{\partial a_{21}}{\sum_{i=1}^n{\sum_{k=1}^n{a_{ik}\,b_{ki}}}} & \frac{\partial}{\partial a_{22}}{\sum_{i=1}^n{\sum_{k=1}^n{a_{ik}\,b_{ki}}}} & \cdots & \frac{\partial}{\partial a_{2n}}{\sum_{i=1}^n{\sum_{k=1}^n{a_{ik}\,b_{ki}}}} \\[1em] \vdots & \vdots & \ddots & \vdots \\[1em] \frac{\partial}{\partial a_{n1}}{\sum_{i=1}^n{\sum_{k=1}^n{a_{ik}\,b_{ki}}}} & \frac{\partial}{\partial a_{n2}}{\sum_{i=1}^n{\sum_{k=1}^n{a_{ik}\,b_{ki}}}} & \cdots & \frac{\partial}{\partial a_{nn}}{\sum_{i=1}^n{\sum_{k=1}^n{a_{ik}\,b_{ki}}}}\end{bmatrix} \\[1em]
&=&\begin{bmatrix} b_{11} & b_{21} & \cdots & b_{n1} \\ b_{12} & b_{22} & \cdots & b_{n2} \\ \vdots & \vdots & \ddots & \vdots \\ b_{1n} & b_{2n} & \cdots & b_{nn} \end{bmatrix} \\[1em]
&=&B^{\rm T}
\end{eqnarray*}
\]

$ {\bf {\text {Fact.6: }}} \nabla_A{\rm {tr}}ABA^{\rm T}C=C^{\rm T}AB^{\rm T}+ CAB $

\[
\begin{eqnarray*}
[\nabla_A\,{\rm {tr}}\,ABA^{\rm T}C]_{ij}&=&\frac{\partial}{\partial a_{ij}}{{\rm {tr}}\,ABA^{\rm T}C} \\[1em]
&=&\frac{\partial}{\partial a_{ij}}{\sum_{pqrs}{a_{pq}\,b_{qr}\,a_{sr}\,c_{sp}}} \\[1em]
&=&\sum_{pqrs}{b_{qr}\,a_{sr}\,c_{sp}\,[I]_{pi}\,[I]_{qj}} + \sum_{pqrs}{a_{pq}\,b_{qr}\,c_{sp}\,[I]_{si}\,[I]_{rj}} \\[1em]
&=&\sum_{rs}{b_{jr}\,a_{sr}\,c_{si}} + \sum_{pq}{a_{pq}\,b_{qj}\,c_{ip}} \\[1em]
&=&\sum_{rs}{c_{si}\,a_{sr}\,b_{jr}} + \sum_{pq}{c_{ip}\,a_{pq}\,b_{qj}} \\[1em]
&=&\sum_{rs}{[C^{\rm T}]_{is}\,a_{sr}\,[B^{\rm T}]_{rj}} + \sum_{pq}{c_{ip}\,a_{pq}\,b_{qj}} \\[1em]
&=&[C^{\rm T}AB^{\rm T}]_{ij}+ [CAB]_{ij} \\
\end{eqnarray*} \\
\]

\[
\therefore\,\nabla_A\,{\rm {tr}}\,ABA^{\rm T}C=C^{\rm T}AB^{\rm T}+ CAB
\]

最小二乘法

假设有 \(m\) 个样本 $ x^{(1)},x^{(2)},\cdots,x^{(m)}, x^{(i)} \in {\Bbb R}^{n} $ ,目标集为 $ y^{(1)},y^{(2)},\cdots,y^{(m)}, y^{(i)} \in {\Bbb R} $ .

令:

\[
X=\begin{bmatrix}1 & (x^{(1)})^{{\rm T}} \\ 1 & (x^{(2)})^{{\rm T}} \\ \vdots & \vdots \\ 1 & (x^{(m)})^{{\rm T}} \end{bmatrix},Y=\begin{bmatrix}y^{(1)} \\ y^{(2)} \\ \vdots \\ y^{(m)} \end{bmatrix},\Theta=\begin{bmatrix}\theta_{0} \\ \theta_{1} \\ \vdots \\ \theta_{n+1}\end{bmatrix}
\]

\[
h(x^{(i)})=\theta_0 + \theta_1x^{(i)}_1 + \theta_2x^{(i)}_2 + \cdots + \theta_{n+1}x^{(i)}_{n+1}
\]

整理:

\[
\begin{eqnarray*}
X\Theta&=&h_\Theta(X) \tag{Eq.1}\\[1em]
J_\Theta(X, Y)&=&\frac{1}{2}\begin{Vmatrix}h_\Theta(X) - Y\end{Vmatrix}^2 \\[1em]
&=&\frac{1}{2}\begin{Vmatrix}X\Theta - Y\end{Vmatrix}^2 \\[1em]
&=&\frac{1}{2}(X\Theta - Y)^{\rm T}(X\Theta - Y) \\[1em]
&=&\frac{1}{2}(\Theta^{\rm T}X^{\rm T} - Y^{\rm T})(X\Theta - Y) \\[1em]
&=&\frac{1}{2}(\Theta^{\rm T}X^{\rm T}X\Theta - Y^{\rm T}X\Theta - \Theta^{\rm T}X^{\rm T}Y + Y^{\rm T}Y) \tag{Eq.2}\\[1em]
\nabla_\Theta{{\rm{tr}}(\Theta^{\rm T}X^{\rm T}X\Theta)}&=&\nabla_\Theta{{\rm{tr}}(\Theta\Theta^{\rm T}X^{\rm T}X)} \\[1em]
&=&\nabla_\Theta{{\rm{tr}}(\Theta I \Theta^{\rm T}X^{\rm T}X)} \\[1em]
&=&(X^{{\rm T}}X)^{{\rm T}}\Theta I^{{\rm T}} + (X^{{\rm T}}X)\Theta I \tag{Fact.6} \\[1em]
&=&2X^{{\rm T}}X\Theta \tag{Eq.3} \\[1em]
\nabla_\Theta{{\rm{tr}}(Y^{\rm T}X\Theta)}&=&\nabla_\Theta{{\rm{tr}}(\Theta Y^{\rm T}X)} \tag{Fact.4} \\[1em]
&=&(Y^{\rm T}X)^{{\rm T}} \tag{Fact.5} \\[1em]
&=&X^{\rm T}Y \tag{Eq.4} \\[1em]
\nabla_\Theta{{\rm{tr}}(\Theta^{\rm T}X^{\rm T}Y)}&=&\nabla_\Theta{{\rm{tr}}(\Theta^{\rm T}X^{\rm T}Y)^{{\rm T}}} \tag{Fact.2} \\[1em]
&=&\nabla_\Theta{{\rm{tr}}(Y^{\rm T}X\Theta)} \\[1em]
&=&X^{\rm T}Y \tag{Eq.5} \\[1em]
\end{eqnarray*}
\]

令 $ \nabla_{\Theta}{[J_\Theta(X, Y)]} = 0 $

\[
\begin{eqnarray*}
\nabla_{\Theta}{[J_\Theta(X, Y)]} &=& 0 \\[1em]
\nabla_{\Theta}{[\frac{1}{2}(\Theta^{\rm T}X^{\rm T}X\Theta - Y^{\rm T}X\Theta - \Theta^{\rm T}X^{\rm T}Y + Y^{\rm T}Y)]} &=& 0 \tag{Eq.2} \\[1em]
\nabla_{\Theta}{{\rm{tr}}[\frac{1}{2}(\Theta^{\rm T}X^{\rm T}X\Theta - Y^{\rm T}X\Theta - \Theta^{\rm T}X^{\rm T}Y + Y^{\rm T}Y)]} &=& 0 \tag{Fact.1}\\[1em]
\nabla_{\Theta}{\{\frac{1}{2}[{\rm{tr}}(\Theta^{\rm T}X^{\rm T}X\Theta) - {\rm{tr}}(Y^{\rm T}X\Theta) - {\rm{tr}}(\Theta^{\rm T}X^{\rm T}Y) + {\rm{tr}}(Y^{\rm T}Y)]\}} &=& 0 \\[1em]
\frac{1}{2}(2X^{{\rm T}}X\Theta - X^{\rm T}Y - X^{\rm T}Y) &=& 0 \tag{Eq.3.4.5} \\[1em]
X^{{\rm T}}X\Theta - X^{\rm T}Y &=& 0 \\[1em]
X^{{\rm T}}X\Theta &=& X^{\rm T}Y \\[1em]
\Theta &=& (X^{{\rm T}}X)^{-1}X^{\rm T}Y \\[1em]
\end{eqnarray*}
\]

从线性空间上面理解

\(X\) 可以看作是在 \({\Bbb R}^{m}\) 空间中的一个超平面(经过原点 \(O\) ), \(Y\) 是空间中的一个点,最小二乘法的可以看作是在平面 \(X\) 上面找一个点 \(\hat{Y}\) ,使得 \(\hat{Y}\) 与 \(Y\) 距离最小。

由几何关系可知,当 \(\overrightarrow{\hat{Y}Y}\) 与超平面垂直时,距离最短。

超平面为 \(X\) 的列空间,即 \(X^{{\rm T}}\) ,\(\overrightarrow{\hat{Y}Y}=X\Theta-Y\) 。

由 $X^{{\rm T}} \bot (X\Theta-Y) $ 得:\(X^{{\rm T}}(X\Theta-Y)={\bf 0}\) 。

解得:\(\Theta = (X^{{\rm T}}X)^{-1}X^{\rm T}Y\)

CS229 笔记02的更多相关文章

  1. 软件测试之loadrunner学习笔记-02集合点

    loadrunner学习笔记-02集合点 集合点函数可以帮助我们生成有效可控的并发操作.虽然在Controller中多用户负载的Vuser是一起开始运行脚本的,但是由于计算机的串行处理机制,脚本的运行 ...

  2. 《30天自制操作系统》笔记(02)——导入C语言

    <30天自制操作系统>笔记(02)——导入C语言 进度回顾 在上一篇,记录了计算机开机时加载IPL程序(initial program loader,一个nas汇编程序)的情况,包括IPL ...

  3. 《The Linux Command Line》 读书笔记02 关于命令的命令

    <The Linux Command Line> 读书笔记02 关于命令的命令 命令的四种类型 type type—Indicate how a command name is inter ...

  4. 强化学习读书笔记 - 02 - 多臂老O虎O机问题

    # 强化学习读书笔记 - 02 - 多臂老O虎O机问题 学习笔记: [Reinforcement Learning: An Introduction, Richard S. Sutton and An ...

  5. JS自学笔记02

    JS自学笔记02 1.复习 js是一门解释性语言,遇到一行代码就执行一行代码 2.查阅mdn web文档 3.提示用户输入并接收,相比之下,alert只有提示的作用: prompt(字符串) 接收: ...

  6. 机器学习实战(Machine Learning in Action)学习笔记————02.k-邻近算法(KNN)

    机器学习实战(Machine Learning in Action)学习笔记————02.k-邻近算法(KNN) 关键字:邻近算法(kNN: k Nearest Neighbors).python.源 ...

  7. CS229 笔记08

    CS229 笔记08 Kernel 回顾之前的优化问题 原始问题为: \[ \min_{w,b} \frac{1}{2}||w||^2\\[1.5em] {\text{s.t.}}y^{(i)}\le ...

  8. CS229 笔记07

    CS229 笔记07 Optimal Margin Classifier 回顾SVM \[ \begin{eqnarray*} h_{w,b}&=&g(w^{\rm T}x+b)\\[ ...

  9. CS229 笔记06

    CS229 笔记06 朴素贝叶斯 事件模型 事件模型与普通的朴素贝叶斯算法不同的是,在事件模型中,假设文本词典一共有 \(k\) 个词,训练集一共有 \(m\) 封邮件,第 \(i\) 封邮件的词的个 ...

随机推荐

  1. 20135202闫佳歆--week3 构造一个简单的Linux系统MenuOs--学习笔记

    此为个人学习笔记存档 week 3 构造一个简单的Linux系统MenuOs 复习: 计算机有三个法宝:存储程序计算机,函数调用堆栈,中断 操作系统有两把剑: 1.中断上下文的切换,保存现场和恢复现场 ...

  2. spring-boot随笔

    配置了spring-boot-starter-web的依赖后,会自动添加tomcat和spring mvc的依赖,那么spring boot 会对tomcat和spring mvc进行自动配置 < ...

  3. Beta阶段综合报告

    一. 敏捷冲刺每日报告 http://www.cnblogs.com/mia0502/p/7767628.html http://www.cnblogs.com/mia0502/p/7773872.h ...

  4. 『编程题全队』alpha阶段项目复审

    小组的名字和链接 优点 缺点,bug 报告 最终名次 Gakki赛高 (1)支持注册账号和账号管理(2) 支持自动登录,提供便捷性(3)题目不重复且题目答案准确(4)支持排行榜统计功能(5)自己设计算 ...

  5. 移动硬盘插到台式机,外接网卡无法连接wifi处理

    在网上买了一个希捷500G的移动硬盘,避免供电不足,硬盘需要插到台式机后面,高高兴兴的通过USB连接了,发现硬盘可以用,然后打算网上查询是否正品,发现不能连接网络了,我是台式机,用360wifi作为无 ...

  6. html5 & input & accept attribute

    html5 & input & accept attribute html input accept attribute https://www.w3schools.com/TAGS/ ...

  7. Django通用视图APIView和视图集ViewSet的介绍和使用(Django编程-1)

    1.APIView DRF框架的视图的基类是 APIView APIView的基本使用和View类似 Django默认的View请求对象是 HttpRequest,REST framework 的请求 ...

  8. AtCoder Grand Contest 030 自闭记

    A:阅读. #include<iostream> #include<cstdio> #include<cmath> #include<cstdlib> ...

  9. Gym 100463A Crossings (树状数组 逆序对)

    Crossings Time Limit: 20 Sec Memory Limit: 256 MB 题目连接 http://codeforces.com/gym/100463 Description ...

  10. CodeForces 获得数据

    针对程序的输出可以看见 CodeForces :当输入.输出超过一定字符,会隐藏内容 所以:分若干个程序进行输入数据的获取 1. ;i<=q;i++) { scanf("%ld%ld% ...