大白话5分钟带你走进人工智能-第四节最大似然推导mse损失函数（深度解析最小二乘来源）（2）

第四节最大似然推导mse损失函数（深度解析最小二乘来源）（2）

上一节我们说了极大似然的思想以及似然函数的意义，了解了要使模型最好的参数值就要使似然函数最大，同时损失函数（最小二乘）最小，留下了一个问题，就是这两个因素或者目的矛盾吗？今天我们就接着上面的问题继续解剖下去。

我们再来回顾下似然函数：

$\prod_{i=1}^{m}p(y^{(i)}|x^{(i)};\theta )=\frac{1}{\sqrt{2\pi }\sigma }exp(-\frac{(y^{(i)-}{\theta^{T}x^{(i)^{2}} })}{2\sigma ^{2}})$ 所谓似然函数就是一个大的乘项，它有多少项，取决于有多少个训练集的样本，因为它是判断训练集上发生的总概率最大的这么一个总似然函数。我们分析一下似然函数的取值由哪些因素确定？ $\pi$ 是常数， $\sigma$ 虽然是未知数，但是是个定值不能来回变，误差应该服从方差的高斯分布，不能来回变方差，唯一又能变又能影响最终结果的变量就是这一组 $w$ 也就是 $\theta$ 。那么我们的目标就是找到一个θ（一组w）使通过其计算出来似然函数结果最大，我们给似然函数起个名字叫 $L(\theta )$ ,为什么括号里是 $\theta$ ，因为 $L$ 的大小只看 $\theta$ 的脸色，其它值都是定值，改变不了最终结果，只有 $\theta$ 能改变结果，所以是关于 $\theta$ 的函数。由于似然函数内部带着exp函数，并且函数本身的形式是连乘，不太好求，所以我们在似然函数之前加了个log函数，因为log函数它是一个单调函数，而且是单调递增函数，不会影响函数的相对大小，并且 $log(a.b)=loga+logb$ ， $loga^{n}=nloga$ ，天生的良好属性。它能函数中的累乘变成累加，更方便求解。所以为了似然函数的更好求解，我们在 $L(\theta )$ 两边加上log函数，如下：

$l(\theta )=logL(\theta) =log\prod_{i=1}^{m}\frac{1}{\sqrt{2\pi }\sigma }exp(-\frac{(y^{(i)-}{\theta^{T}x^{(i)^{2}} })}{2\sigma ^{2}})$

$=\sum_{i=1}^{m}log\frac{1}{\sqrt{2\pi }\sigma }exp(-\frac{(y^{(i)-}{\theta^{T}x^{(i)^{2}} })}{2\sigma ^{2}}$

$=mlog\frac{1}{\sqrt{2\pi }\sigma }-\frac{1}{\sigma ^{2}}.\frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-\theta ^{T}x^{(i)})^{2}$

我们来解析上面的每一步的来源，第一步不用怎么说，就是加了一个log，需要注意的是没加log之前是大写的 $L(\theta )$ ，加完log之后就是小写的 $l(\theta )$ 。第一步到第二步实际上就是对于每一个样本之前的累乘，由于 $log(a.b)=loga+logb$ ，加完log之后，所有的累乘变成累加，然后又用 $\sum$ 表示出来。第二步到第三步，因为第二步中 $m$ 个 $log\frac{1}{\sqrt{2\pi }\sigma }exp(-\frac{(y^{(i)-}{\theta^{T}x^{(i)^{2}} })}{2\sigma ^{2}}$ 累加，每一个利用 $log(a.b)=loga+logb$ 属性表示成 $log\frac{1}{\sqrt{2\pi }\sigma }+logexp(-\frac{(y^{(i)-}{\theta^{T}x^{(i)^{2}} })}{2\sigma ^{2}}$ ,而 $log\frac{1}{\sqrt{2\pi }\sigma }$ 是常数，所以 $m$ 个累加就是 $mlog\frac{1}{\sqrt{2\pi }\sigma }$ ，而后半部分 $logexp(-\frac{(y^{(i)-}{\theta^{T}x^{(i)^{2}} })}{2\sigma ^{2}}$ 累加，因为 $loge=1$ ,log和e在一起可以互相消掉，所以 $logexp(-\frac{(y^{(i)-}{\theta^{T}x^{(i)^{2}} })}{2\sigma ^{2}})=-\frac{(y^{(i)-}{\theta^{T}x^{(i)^{2}} })}{2\sigma ^{2}}$ 因为每一项 $x^{i}$ 不一样，所以写成 $\frac{1}{\sigma ^{2}}.\frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-\theta ^{T}x^{(i)})^{2}$ ,同时后半部分结果又把负号也给提出来了，那么加起来结果就是我们的第三步 $mlog\frac{1}{\sqrt{2\pi }\sigma }-\frac{1}{\sigma ^{2}}.\frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-\theta ^{T}x^{(i)})^{2}$ 。给自己鼓个掌吧，这么难得公式都会了，而且跟着我一步步的给它解释出来，真是不容易。到此为止，我们就分析一下，能够使第三步即：

$mlog\frac{1}{\sqrt{2\pi }\sigma }-\frac{1}{\sigma ^{2}}.\frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-\theta ^{T}x^{(i)})^{2}$

最大的 $\theta$ 是谁呢？因为 $mlog\frac{1}{\sqrt{2\pi }\sigma }$ 是常数项，不去考虑它，它始终为正，所以有它没它都不会影响相对大小。那么也就是说只要 $-\frac{1}{\sigma ^{2}}.\frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-\theta ^{T}x^{(i)})^{2}$ 这一项越大，原始的 $L(\theta )$ 函数就越大。注意这前面带个负号，因为我们是看成两个整体相加，所以后半部分的那一项是带个负号的。那么把负号去掉了，或者说这一项 $\frac{1}{\sigma ^{2}}.\frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-\theta ^{T}x^{(i)})^{2}$ ，这一项越小，原始的 $L(\theta )$ 函数就越大。而 $\sigma$ 是常数，不影响大小，也就是说能够使 $\frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-\theta ^{T}x^{(i)})^{2}$ 最小的 $\theta$ 就是能够使 $L(\theta )$ 最大的 $\theta$ 。是不是已经很眼熟了？我们回顾下MSE（最小二乘）：

$J(\theta )=\frac{1}{2}\sum_{i=1}^{m}(h_{\theta}x^{i}-y^{i})^{2}$

发现一模一样，因为里面的 $(y^{(i)}-\theta ^{T}x^{(i)})^{2}$ 位置不会影响相对大小。所以MSE（最小二乘）怎么来的？为什么说MSE（最小二乘）越小 $\theta$ 就越好，取决于你背后估计了所有的误差，服从高斯分布，如果它不服从高斯分布，也就不能用mse来判断了。截止到目前，我们就发现了把它作为损失函数，真的是非常合理。实际上这就是它背后的理论依据。

我们总结下，我们说判别模型事先给定一个判别函数，对吧？它这个例子判别函数 $y=\theta ^{T}x$ 根据判别函数来合理的构造出一个损失函数来。这个损失函数往往都是通过MLE，也就是最大似然估计为理论基础建立出来的最合理的损失函数，而最大似然的理论源泉是误差服从均值为零的高斯分布，也即样本服从高斯分布，而后通过最大似然一步步推导得到最小二乘。，所以mse的损失函数的根本理论依据是什么？你就应该回答为假设方差服从均值为零的高斯分布。至于是不是所有的回归问题，都用MSE当损失函数，不一定。但是90%都是它。在一些特殊的场景里，你已知误差服从别的分布了，那就会建立出别的损失函数来。比如huber损失函数，有兴趣可以自己研究下。但绝大多数的场景都会使用MSE作为回归问题的损失函数。因为在你不知道任何情况的前提下，假设误差服从高斯分布是最常见且最合理的一种方式。自此，你从理论方面推导了最大似然和最小二乘的关系，也为最小二乘作为损失函数找到了数学的理论支撑。下一节中我们讲解怎么样求解最小二乘或者使其相对最小，从而找到我们相对合理的模型参数 $\theta$ 。

大白话5分钟带你走进人工智能-第四节最大似然推导mse损失函数（深度解析最小二乘来源）（2）的更多相关文章

大白话5分钟带你走进人工智能-第二十节逻辑回归和Softmax多分类问题(5)
大白话5分钟带你走进人工智能-第二十节逻辑回归和Softmax多分类问题(5) 上一节中,我们讲 ...
大白话5分钟带你走进人工智能-第32节集成学习之最通俗理解XGBoost原理和过程
目录 1.回顾: 1.1 有监督学习中的相关概念 1.2 回归树概念 1.3 树的优点 2.怎么训练模型: 2.1 案例引入 2.2 XGBoost目标函数求解 3.XGBoost中正则项的显式表达 ...
大白话5分钟带你走进人工智能-第31节集成学习之最通俗理解GBDT原理和过程
目录 1.前述 2.向量空间的梯度下降: 3.函数空间的梯度下降: 4.梯度下降的流程: 5.在向量空间的梯度下降和在函数空间的梯度下降有什么区别呢? 6.我们看下GBDT的流程图解: 7.我们看一个 ...
大白话5分钟带你走进人工智能-第36节神经网络之tensorflow的前世今生和DAG原理图解(4)
目录 1.Tensorflow框架简介 2.安装Tensorflow 3.核心概念 4.代码实例和详细解释 5.拓扑图之有向无环图DAG 6.其他深度学习框架详细描述 6.1 Caffe框架: 6.2 ...
大白话5分钟带你走进人工智能-第30节集成学习之Boosting方式和Adaboost
目录 1.前述: 2.Bosting方式介绍: 3.Adaboost例子: 4.adaboost整体流程: 5.待解决问题: 6.解决第一个问题:如何获得不同的g(x): 6.1 我们看下权重与函数的 ...
大白话5分钟带你走进人工智能-第35节神经网络之sklearn中的MLP实战(3)
本节的话我们开始讲解sklearn里面的实战: 先看下代码: from sklearn.neural_network import MLPClassifier X = [[0, 0], [1, 1]] ...
大白话5分钟带你走进人工智能-第二十九节集成学习之随机森林随机方式，out of bag data及代码(2)
大白话5分钟带你走进人工智能-第二十九节集成学习之随机森林随机方式 ,out of bag data及代码(2) 上一节中我们讲解了随机森林的基本概念,本节的话我们讲解随机森 ...
大白话5分钟带你走进人工智能-第三节最大似然推导mse损失函数（深度解析最小二乘来源）（1）
第三节最大似然推导mse损失函数(深度解析最小二乘来源) 在第二节中,我们介绍了高斯分布的 ...
大白话5分钟带你走进人工智能-第十四节过拟合解决手段L1和L2正则
第十四节过拟合解决手段L1和L2正则第十三节中, ...

随机推荐

ffmpeg 的 tbr tbc 和 tbn的意义
tbn = the time base in AVStream that has come from the container tbc = the time base in AVCodecConte ...
[转]FFMpeg框架代码阅读
简介 FFmpeg是一个集录制.转换.音/视频编码解码功能为一体的完整的开源解决方案. FFmpeg的开发是基于Linux操作系统,但是可以在大多数操作系统中编译和使用.FFmpeg支持MPEG.Di ...
CSS布局之--各种居中
居中是我们使用css来布局时常遇到的情况.使用css来进行居中时,有时一个属性就能搞定,有时则需要一定的技巧才能兼容到所有浏览器,本文就居中的一些常用方法做个简单的介绍. 注:本文所讲方法除了特别说明 ...
Microsoft C++ 异常: std::system_error std::thread
第一次使用std::thread,把之前项目里面的Windows的thread进行了替换,程序退出的然后发生了std::system_error. 经过调试,发现std::thread ,join了两 ...
Ng1从1.3开始的变更史
从今有个ng1 spa项目,项目可能会有ng1的版本升级问题,特简要摘录从1.3的主要版本变更,所以内容来自migration guide. 1.3的主要变更: 1.controller不能再以全局简 ...
jquery文本框内容实时监控
$("#A").bind("input propertychange", function () { $("#B").val($(this) ...
Coursera-AndrewNg(吴恩达)机器学习笔记——第一周
一.初识机器学习何为机器学习?A computer program is said to learn from experience E with respect to some task T an ...
常用的几个在线生成网址二维码的API接口
原创,转载请注明出处! 用接口的好处就是简单,方便,时时更新,二维码生成以后不用保存在本项目服务器上面,可以减少不必要的开支,无需下载安装什么软件,可简单方便地引用,这才是最便捷的免费网址二维码生成 ...
115个Java面试题和答案——终极列表（上）【转】
本文我们将要讨论Java面试中的各种不同类型的面试题,它们可以让雇主测试应聘者的Java和通用的面向对象编程的能力.下面的章节分为上下两篇,第一篇将要讨论面向对象编程和它的特点,关于Java和它的功能 ...
Android官方开发文档下载
Android官方开发文档 docs-24_r02.rar(链接:https://pan.baidu.com/s/12xC998JeUHj3ndfDXPM2ww 密码:bxyk) ADT下载.Andr ...

大白话5分钟带你走进人工智能-第四节最大似然推导mse损失函数（深度解析最小二乘来源）（2）

大白话5分钟带你走进人工智能-第四节最大似然推导mse损失函数（深度解析最小二乘来源）（2）的更多相关文章

随机推荐

热门专题