(整理自AndrewNG的课件,转载请注明。整理者:华科小涛@http://www.cnblogs.com/hust-ghtao/

在遇到线性回归问题时,我们总是令。可是我们为什么这样选择代价函数呢?我们提到过是为了使目标变量(指)的真实值和预测值的距离最小,想想也算合理。但是本篇博文将从概率的角度解释为什么这么选择代价函数,相信大家看完之后就会明白这个选择之后蕴含的更加深层次的原因。

首先,让我们假设:输入变量和目标变量满足等式,其中误差表示在建模过程中没有考虑到的,但是对预测结果有影响的因素或者是指随机的噪声。根据实际观测和中心极限定理知,这些因素都服从正态分布,进一步假设这些误差之间是独立同分布的,则它们的和也服从正态分布,且均值为0,方差为。上述结论可以写成:

,这表明

,其中符号表示以为参数,给定的分布。如果给定(设计矩阵,包括所有的)和,则目标变量的分布可以写成:

,对于给定的,我们可以将它看成关于 的函数。从另一个角度,我们也可以把它看成是关于的函数,称为似然函数:

,由于已经假设之间独立同分布,这个公式可以写成:

,现在已经得出表示之间关系的概率模型,现在回到最初的问题,如何学习参数?最大似然函数原理:我们应该选择使似然函数最大时对应的值,因为这么选择,训练集中的对应的样本发生的概率是最大的。就是说,事件发生了,我们就认为此事件发生的概率是最大的。

所以我们要求出使取得最大值时的:为方便计算,一般对似然函数取对数:

,显然,使最大化,等价于是最小化,这不就是我们最初选择的代价函数么?任务完成。

总结一下:通过对数据作出合理的概率假设,得出最小二乘回归可以使得似然函数取得最大值的结论。另外,在前面的回归方法中,我们没有考虑到方差的影响,此文章证明的选择确实与无关。在没有提出概率解释之前,我们用距离的概念解释了选择代价函数为最小二乘的合理性,本文又通过概率进行了解释,两方面互相呼应,使理解更加深刻。一点点小体会:要多读书,只有博采众长,才可以相互印证。

Linear Regression(线性回归)(三)—代价函数J(θ)选择的概率解释的更多相关文章

  1. Spark2 Linear Regression线性回归

    回归正则化方法(Lasso,Ridge和ElasticNet)在高维和数据集变量之间多重共线性情况下运行良好. 数学上,ElasticNet被定义为L1和L2正则化项的凸组合: 通过适当设置α,Ela ...

  2. Linear Regression(线性回归)(一)—LMS algorithm

    (整理自AndrewNG的课件,转载请注明.整理者:华科小涛@http://www.cnblogs.com/hust-ghtao/) 1.问题的引出 先从一个简单的例子说起吧,房地产公司有一些关于Po ...

  3. Linear Regression 线性回归

    Motivation 问题描述 收集到某一地区的房子面积和房价的数据(x, y)42组,对于一套已知面积的房子预测其房价?   由房价数据可视化图可以看出,可以使用一条直线拟合房价.通过这种假设得 ...

  4. Linear Regression(线性回归)(二)—正规方程(normal equations)

    (整理自AndrewNG的课件,转载请注明.整理者:华科小涛@http://www.cnblogs.com/hust-ghtao/) 在上篇博客中,我们提出了线性回归的概念,给出了一种使代价函数最小的 ...

  5. ML 线性回归Linear Regression

    线性回归 Linear Regression MOOC机器学习课程学习笔记 1 单变量线性回归Linear Regression with One Variable 1.1 模型表达Model Rep ...

  6. 线性回归 Linear regression(3) 线性回归的概率解释

    这篇博客从一种方式推导了Linear regression 线性回归的概率解释,内容来自Standford公开课machine learning中Andrew老师的讲解. 线性回归的概率解释 在Lin ...

  7. Machine Learning – 第2周(Linear Regression with Multiple Variables、Octave/Matlab Tutorial)

    Machine Learning – Coursera Octave for Microsoft Windows GNU Octave官网 GNU Octave帮助文档 (有900页的pdf版本) O ...

  8. Andrew Ng机器学习 一: Linear Regression

    一:单变量线性回归(Linear regression with one variable) 背景:在某城市开办饭馆,我们有这样的数据集ex1data1.txt,第一列代表某个城市的人口,第二列代表在 ...

  9. Andrew Ng机器学习 五:Regularized Linear Regression and Bias v.s. Variance

    背景:实现一个线性回归模型,根据这个模型去预测一个水库的水位变化而流出的水量. 加载数据集ex5.data1后,数据集分为三部分: 1,训练集(training set)X与y: 2,交叉验证集(cr ...

随机推荐

  1. iframe框架子页面与父页面间的通信

    需要注意的问题:页面最好放在服务器上测试避免跨域问题. 具体参考:http://www.cnblogs.com/ljhero/archive/2011/07/09/2101540.html

  2. 区间重合判断(pojg校门外的树)

    pojg:http://poj.grids.cn/practice/2808 解法1:以空间换时间: #include<stdio.h> #include<string.h> ...

  3. hadoop安全模式

      hadoop安全模式在分布式文件系统启动的时候,开始的时候会有安全模式,当分布式文件系统处于安全模式的情况下,文件系统中的内容不允许修改也不允许删除,直到安全模式结束.安全模式主要是为了系统启动的 ...

  4. 进入MFC讲坛的前言(五)

    框窗.视图和文档及其关系 MFC架构的另外一个特色是它的框窗.视图和文档这个三位一体的结构,它是一个典型的MVC(Model.View and Controler)结构.严格的讲,框窗不属于MVC中的 ...

  5. QQ音乐产品经理黄楚雄:产品与用户的情感联系

    QQ 音乐产品经理关于产品的一些感悟. 2014 年是 QQ 音乐的第十个产品年度,这十年我们跟用户一起见证了整个互联网音乐的发展.2011 年的 3 月 QQ 音乐公布了第一个 iPhone 平台的 ...

  6. 【原创】Android 系统稳定性 - ANR(二)

    文章都为原创,转载请注明出处,未经允许而盗用者追究法律责任. 很久之前写的了,留着有点浪费,共享之.编写者:李文栋P.S. OpenOffice粘贴过来后格式有些混乱. 1.2 如何分析ANR问题 引 ...

  7. 将一个int转成二进制c

    /* 由于是2位 十进制整数,所以转化后可以存 一个int 型中: reverse函数 提供了这种转化 如果需要转化的数字比较大int存不下,则需要数组来存 */ #include<stdio. ...

  8. JSP动态网站环境搭建应用中的详细步骤(Tomcat和Apache/IIS的整合)

    链接地址:http://www.cnblogs.com/dartagnan/archive/2011/03/25/2003426.html JSP动态网站环境搭建应用中的详细步骤(Tomcat和Apa ...

  9. 分享非常有用的Java程序 (关键代码)(五)---把 Array 转换成 Map

    原文:分享非常有用的Java程序 (关键代码)(五)---把 Array 转换成 Map import java.util.Map; import org.apache.commons.lang.Ar ...

  10. Handler.removeMessages的作用,有时候为什么一定要先remove一下呢

    removeMessages会将handler对应message queue里的消息清空,如果带了int参数则是对应的消息清空.队列里面没有消息则handler会不工作,但不表示handler会停止. ...