Linear Regression（线性回归）（三）—代价函数J(θ)选择的概率解释

（整理自AndrewNG的课件，转载请注明。整理者：华科小涛@http://www.cnblogs.com/hust-ghtao/）

在遇到线性回归问题时，我们总是令 $J(\theta ) = \frac{1}{2}{\sum\limits_{i = 1}^m {({h_\theta }\left( {{x^{\left( i \right)}}} \right) - {y^{\left( i \right)}})} ^2}$ 。可是我们为什么这样选择代价函数呢？我们提到过是为了使目标变量（指 $y$ ）的真实值和预测值的距离最小，想想也算合理。但是本篇博文将从概率的角度解释为什么这么选择代价函数，相信大家看完之后就会明白这个选择之后蕴含的更加深层次的原因。

首先，让我们假设：输入变量和目标变量满足等式 ${y^{\left( i \right)}} = {\theta ^T}{x^{\left( i \right)}} + {\varepsilon ^{\left( i \right)}}$ ，其中误差 ${\varepsilon ^{\left( i \right)}}$ 表示在建模过程中没有考虑到的，但是对预测结果有影响的因素或者是指随机的噪声。根据实际观测和中心极限定理知，这些因素都服从正态分布，进一步假设这些误差之间是独立同分布的,则它们的和也服从正态分布，且均值为0，方差为 ${\sigma ^2}$ 。上述结论可以写成：

$p\left( {{\varepsilon ^{\left( i \right)}}} \right) = \frac{1}{{\sqrt {2\pi } \sigma }}\exp \left( { - \frac{{{{\left( {{\varepsilon ^{\left( i \right)}}} \right)}^2}}}{{2{\sigma ^2}}}} \right)$ ，这表明

：

，其中符号 $p\left( {{y^{\left( i \right)}}|{x^{\left( i \right)}};\theta } \right)$ 表示以 $\theta$ 为参数，给定 ${x^{\left( i \right)}}$ 时 ${y^{\left( i \right)}}$ 的分布。如果给定 $X$ （设计矩阵，包括所有的 ${x^{\left( i \right)}}$ ）和 $\theta$ ，则目标变量的分布可以写成：

，对于给定的 $\theta$ ，我们可以将它看成关于的函数。从另一个角度，我们也可以把它看成是关于 $\theta$ 的函数，称为似然函数：

，由于已经假设 ${\varepsilon ^{\left( i \right)}}$ 之间独立同分布，这个公式可以写成：

，现在已经得出表示 ${y^{\left( i \right)}}$ 和 ${x^{\left( i \right)}}$ 之间关系的概率模型，现在回到最初的问题，如何学习参数 $\theta$ ？最大似然函数原理：我们应该选择使似然函数最大时对应的 $\theta$ 值，因为这么选择，训练集中的对应的样本发生的概率是最大的。就是说，事件发生了，我们就认为此事件发生的概率是最大的。

所以我们要求出使 $L\left( \theta \right)$ 取得最大值时的 $\theta$ ：为方便计算，一般对似然函数取对数：

，显然，使 $l\left( \theta \right)$ 最大化，等价于是 $\frac{1}{2}{\sum\limits_{i = 1}^m {\left( {{y^{\left( i \right)}} - {\theta ^T}{x^{\left( i \right)}}} \right)} ^2}$ 最小化，这不就是我们最初选择的代价函数么？任务完成。

总结一下：通过对数据作出合理的概率假设，得出最小二乘回归可以使得似然函数取得最大值的结论。另外，在前面的回归方法中，我们没有考虑到方差 ${\sigma ^2}$ 的影响，此文章证明 $\theta$ 的选择确实与 ${\sigma ^2}$ 无关。在没有提出概率解释之前，我们用距离的概念解释了选择代价函数为最小二乘的合理性，本文又通过概率进行了解释，两方面互相呼应，使理解更加深刻。一点点小体会：要多读书，只有博采众长，才可以相互印证。

Linear Regression（线性回归）（三）—代价函数J(θ)选择的概率解释的更多相关文章

Spark2 Linear Regression线性回归
回归正则化方法(Lasso,Ridge和ElasticNet)在高维和数据集变量之间多重共线性情况下运行良好. 数学上,ElasticNet被定义为L1和L2正则化项的凸组合: 通过适当设置α,Ela ...
Linear Regression(线性回归)（一）—LMS algorithm
(整理自AndrewNG的课件,转载请注明.整理者:华科小涛@http://www.cnblogs.com/hust-ghtao/) 1.问题的引出先从一个简单的例子说起吧,房地产公司有一些关于Po ...
Linear Regression 线性回归
Motivation 问题描述收集到某一地区的房子面积和房价的数据(x, y)42组,对于一套已知面积的房子预测其房价? 由房价数据可视化图可以看出,可以使用一条直线拟合房价.通过这种假设得 ...
Linear Regression(线性回归)（二）—正规方程（normal equations）
(整理自AndrewNG的课件,转载请注明.整理者:华科小涛@http://www.cnblogs.com/hust-ghtao/) 在上篇博客中,我们提出了线性回归的概念,给出了一种使代价函数最小的 ...
ML 线性回归Linear Regression
线性回归 Linear Regression MOOC机器学习课程学习笔记 1 单变量线性回归Linear Regression with One Variable 1.1 模型表达Model Rep ...
线性回归 Linear regression(3) 线性回归的概率解释
这篇博客从一种方式推导了Linear regression 线性回归的概率解释,内容来自Standford公开课machine learning中Andrew老师的讲解. 线性回归的概率解释在Lin ...
Machine Learning – 第2周（Linear Regression with Multiple Variables、Octave/Matlab Tutorial）
Machine Learning – Coursera Octave for Microsoft Windows GNU Octave官网 GNU Octave帮助文档 (有900页的pdf版本) O ...
Andrew Ng机器学习一： Linear Regression
一:单变量线性回归(Linear regression with one variable) 背景:在某城市开办饭馆,我们有这样的数据集ex1data1.txt,第一列代表某个城市的人口,第二列代表在 ...
Andrew Ng机器学习五：Regularized Linear Regression and Bias v.s. Variance
背景:实现一个线性回归模型,根据这个模型去预测一个水库的水位变化而流出的水量. 加载数据集ex5.data1后,数据集分为三部分: 1,训练集(training set)X与y: 2,交叉验证集(cr ...

随机推荐

机器学习笔记(一)- from Andrew Ng的教学视频
最近算是一段空闲期,不想荒废,记得之前有收藏一个机器学习的链接Andrew Ng的网易公开课,其中的overfiting部分做组会报告时涉及到了,这几天有时间决定把这部课程学完,好歹算是有个粗浅的认识 ...
[Swust OJ 247]--皇帝的新衣(组合数+Lucas定理)
题目链接:http://acm.swust.edu.cn/problem/0247/ Time limit(ms): 1000 Memory limit(kb): 65535 Descriptio ...
再见了acm
2013年11月17日长沙区域赛我的最后一场区域赛. 忙碌了三年的acm要停下脚步,一时还无法接受. 这样一个结果有点无奈. 感谢队友,三年三支队伍五个队友,感谢你们.(每当写到这里时就总有点小忍不住 ...
Miller_Rabin、 Pollard_rho Template
Multiply and pow Function: //计算 (a*b)%c. a,b都是ll的数,直接相乘可能溢出的 // a,b,c <2^63 ll mult_modq(ll a,ll ...
ASP.NET MVC 5 学习教程：添加验证
原文 ASP.NET MVC 5 学习教程:添加验证起飞网 ASP.NET MVC 5 学习教程目录: 添加控制器添加视图修改视图和布局页控制器传递数据给视图添加模型创建连接字符串通过控 ...
Nutch 是一个开源Java 实现的搜索引擎
Nutch 是一个开源Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具.包括全文搜索和Web爬虫. Nutch的创始人是Doug Cutting,他同时也是Lucene.Hado ...
python模块学习---HTMLParser(解析HTML文档元素)
HTMLParser是Python自带的模块,使用简单,能够很容易的实现HTML文件的分析. 本文主要简单讲一下HTMLParser的用法. 使用时需要定义一个从类HTMLParser继承的类,重定义 ...
objective-C 初识
objective-C objective-c 是c语言的改进版一.方法的定义: 格式: -/+(返回值类型)方法名:(参数类型) 参数名 [方法名] : (参数类型) 参数名......... 例 ...
二维码的妙用：通过Zxing实现wifi账号password分享功能
二维码是搭载信息的一种载体,通过二维码能够传递名片.网址.商品信息等,本文讲到二维码的第二种妙用:通过二维码实现wifi账号和password分享. 关于二维码的基础知识,请訪问:二维码的生成细节和原 ...
ADB logcat 过滤方法(抓取日志)
1. Log信息级别 Log.v- VERBOSE : 黑色 Log.d- DEBUG : 蓝色 Log.i- INFO : 绿色 Log.w- WARN : 橙色 Log.e- ERROR ...

Linear Regression（线性回归）（三）—代价函数J(θ)选择的概率解释

Linear Regression（线性回归）（三）—代价函数J(θ)选择的概率解释的更多相关文章

随机推荐

热门专题