Gradient Descent

理自Andrew Ng的machine learning课程。

梯度下降算法
梯度下降算法的直观展示
线性回归中的梯度下降

前提：

线性回归模型：$h(\theta_0,\theta_1)=\theta_0+\theta_1x$

损失函数：$J(\theta_0,\theta_1)=\frac{1}{2m} \sum_{i=1}^m (h_\theta(x^(i))-y^(i))^2$

1、梯度下降算法

目的：求解出模型的参数 / estimate the parameters in the hypothesis function

如下图所示，$\theta_0,\theta_1$代表模型的参数，$J(\theta_0,\theta_1)$代表模型的损失函数

目的：从某一点出发，走到最低点。

怎么走：沿着所在点处最陡的方向下降。某一点山坡最陡的方向就是这一点的切线方向，也就是这一点的导数。每一步走多大取决于学习率$\alpha$。

在图中，每一个十字星之间的距离取决与$\alpha$的大小。小的$\alpha$会使两点之间的距离比较小，大的$\alpha$会产生大的步距。每一步走的方向取决于所在点的偏导。不同的起始点会有不同的终点，如上图从A出发最终到达B，而从C出发最终到达D。

梯度下降算法如下：

$\theta_j:=\theta_j-\alpha\frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1)$ repeat util convergence

注意：$\theta_0,\theta_1$在每一步的迭代中都是同步更新的

2、梯度下降算法的直观展示

如下图：此图是一个损失函数的图像

当$\theta_1$在最小值点的右边时，图像的斜率（导数）是正的，学习率$\alpha$也是正的，根据梯度下降算法的公式，更新后的$\theta_1$是往左边方向走了，的确是朝着最小值点去了；

当$\theta_1$在最小值点的左边时，图像的斜率（导数）是负的，学习率$\alpha$是正的，根据梯度下降算法的公式，更新后的$\theta_1$是往右边方向走了，也是朝着最小值点去了；

另外，我们需要调整$\alpha$使的算法可以在一定的时间内收敛。收敛失败或者收敛的非常慢，都说明使用的步长$\alpha$是错误的。

如果使用固定的$\alpha$，算法会收敛吗？

梯度下降算法隐含的一个信息就是，当点越来越接近最小值点的时候，梯度也会越来越小，到达最小值点时，梯度为0；

所以即使不去调整$\alpha$，走的步长也是会越来越短的，算法最终也还是会收敛的，所以没必要每次都调整$\alpha$的大小。

3、线性回归中的梯度下降算法

当把梯度下降算法具体的运用到线性回归上去的时候，算法就可以在偏导部分写的更加具体了：

repear until convergence {

$\qquad \theta_0:=\theta_0-\alpha \frac {1}{m} \sum_{i=1}^m (h_\theta(x_i)-y_i)$

$\qquad \theta_1:=\theta_1-\alpha \frac {1}{m} \sum_{i=1}^m ((h_\theta(x_i)-y_i)x_i)$

}

batch gradient descent

以上：在每一步更新参数时，让所有的训练样本都参与更新的做法，称为batch gradient descent；

注意到：虽然梯度下降算法可能会陷入局部最优的情况，但是在线性回归中不存在这种问题，线性回归只有一个全局最优，没有局部最优，算法最终一定可以找到全局最优点（假设$\alpha$不是特别大）。

线性回归中，J是一个凸二次函数，这样的函数是碗状的（bowl-shaped），没有局部最优，只有一个全局最优。

Gradient Descent的更多相关文章

梯度下降（Gradient Descent）小结
在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法.这里就对梯度下降法做一个完整的总结. 1. 梯度在微 ...
机器学习基础——梯度下降法（Gradient Descent）
机器学习基础--梯度下降法(Gradient Descent) 看了coursea的机器学习课,知道了梯度下降法.一开始只是对其做了下简单的了解.随着内容的深入,发现梯度下降法在很多算法中都用的到,除 ...
线性回归、梯度下降（Linear Regression、Gradient Descent）
转载请注明出自BYRans博客:http://www.cnblogs.com/BYRans/ 实例首先举个例子,假设我们有一个二手房交易记录的数据集,已知房屋面积.卧室数量和房屋的交易价格,如下表: ...
Proximal Gradient Descent for L1 Regularization
[本文链接:http://www.cnblogs.com/breezedeus/p/3426757.html,转载请注明出处] 假设我们要求解以下的最小化问题: ...
FITTING A MODEL VIA CLOSED-FORM EQUATIONS VS. GRADIENT DESCENT VS STOCHASTIC GRADIENT DESCENT VS MINI-BATCH LEARNING. WHAT IS THE DIFFERENCE?
FITTING A MODEL VIA CLOSED-FORM EQUATIONS VS. GRADIENT DESCENT VS STOCHASTIC GRADIENT DESCENT VS MIN ...
Logistic Regression and Gradient Descent
Logistic Regression and Gradient Descent Logistic regression is an excellent tool to know for classi ...
机器学习笔记：Gradient Descent
机器学习笔记:Gradient Descent http://www.cnblogs.com/uchihaitachi/archive/2012/08/16/2642720.html
(转) An overview of gradient descent optimization algorithms
An overview of gradient descent optimization algorithms Table of contents: Gradient descent variants ...
（二）深入梯度下降(Gradient Descent)算法
一直以来都以为自己对一些算法已经理解了,直到最近才发现,梯度下降都理解的不好. 1 问题的引出对于上篇中讲到的线性回归,先化一个为一个特征θ1,θ0为偏置项,最后列出的误差函数如下图所示: 手动求解 ...
[Machine Learning] 梯度下降（BGD）、随机梯度下降（SGD）、Mini-batch Gradient Descent、带Mini-batch的SGD
一.回归函数及目标函数以均方误差作为目标函数(损失函数),目的是使其值最小化,用于优化上式. 二.优化方式(Gradient Descent) 1.最速梯度下降法也叫批量梯度下降法Batch Gr ...

随机推荐

java异常处理、多态
第一:GC是什么? 为什么要有GC? 第二:垃圾回收的优点和原理.并考虑2种回收机制. 第三:垃圾回收器的基本原理是什么?垃圾回收器可以马上回收内存吗?有什么办法主动通知虚拟机进行垃圾回收? 第 ...
dojo中的xhrPost请求（JSON）
dojo中的xhrPost请求 dojo.xhrPost({ url:"../area.action", content:{ areaCode:areaCode }, handle ...
Naive Bayes (NB Model) 初识
1,Bayes定理 P(A,B)=P(A|B)P(B); P(A,B)=P(B|A)P(A); P(A|B)=P(B|A)P(A)/P(B); 贝叶斯定理变形 2,概率图模型 2.1 定义概 ...
一种基于主板BIOS的身份认证方案及实现
．分析AwardBIOSDOS工具cbrom cbrom的功能就是在BIOS文件中添加.删除与提取模块,以便满足用户自己的需求,用法如下: cbromBIOS文件名/参数模块名|RELEASE|EXT ...
hi3531 SDK 编译 uboot, 修改PHY地址, 修改 uboot 参数 .
一,编译uboot SDK文档写得比较清楚了,写一下需要注意的地方吧. 1. 之前用SDK里和别人给的已经编译好的uboot,使用fastboot工具都刷不到板子上.最后自己用SDK里uboot源码编 ...
（三十二）虚拟机linux系统中安装firefox浏览器
这几天,第二轮项目迭代进入了尾声,同时也接到了上司领导交代下来的新任务,那就是要我们学习linux系统基础的知识,包括常用命令和web应用的部署问题,于是乎安装了虚拟机和linux操作系统. 我安装的 ...
VxWorks启动过程详解（上）
vxworks有三种映像: VxWorks Image的文件类型有三种 Loadable Images:由Boot-ROM引导通过网口或串口下载到RAM ROM-based Images(压缩/没有压 ...
Linux查看系统中的每个进程
Linux查看系统中的每个进程 youhaidong@youhaidong-ThinkPad-Edge-E545:~$ ps -A PID TTY TIME CMD 1 ? 00:00:01 init ...
HTML基础加强
1. 什么是浏览器:解释和执行HTML源码的工具. 2. 什么是静态页面,什么样的页面是动态页面? 静态页面:htm,html(直接读取) 动态网页:asp,aspx,jsp,php(里面有代码请求时 ...
易理解java代码8皇后问题
马上就要蓝桥杯比赛了,我这些算法还是不会,确实有点慌,今天一天早上睡到很晚不愿起床,然后才开始研究8皇后问题.这也是典型的回溯与递归问题.其实本质上和马踏棋盘问题非常类似,八皇后问题呢,就是要判断主对 ...

Gradient Descent

Gradient Descent的更多相关文章

随机推荐

热门专题