【笔记】机器学习 - 李宏毅 - 4

梯度下降 Gradient Descent
梯度下降是一种迭代法（与最小二乘法不同），目标是解决最优化问题：\({\theta}^* = arg min_{\theta} L({\theta})\)，其中\({\theta}\)是一个向量，梯度是偏微分。

为了让梯度下降达到更好的效果，有以下这些Tips：

1.调整学习率

梯度下降的过程，应当在刚开始的时候，应该步长大一些，以便更快迭代，当靠近目标时，步长调小一些。
虽然式子中的微分有这个效果，但同时改变一下学习率的值，可以很大程度加速这个过程。
比如说用 \(1/t\) 衰减：\({\eta}^t = {\eta}/\sqrt{(t + 1)}\)
另外，不同的参数应当给不同的学习率。

Adagrad方法
Adagrad是再除以一个参数之前所有微分的均方根。

消去\(\sqrt{(t + 1)}\)参数后得到：

分子分母的作用形成了反差，一个增加步长，一个减小步长。

对此的一种解释是，为了避免迭代突然加快，或者突然减慢。

另外一种解释是，以二次凸函数举例，最佳迭代步长直观看是与一次微分成正比的。
但如果考虑跨参数比较的话（不仅看\(x\)），又会发现这个结论不完善，其实它又与二次微分成反比，所以要综合考虑两者。
而二次微分比较难计算，需要更多的时间，所以一般就采用一次微分的均方根来模拟它了。

2.随机梯度下降

随机梯度下降和批量梯度下降不同的是，它不需要把所有训练数据都考虑进来再迭代，而是算出其中一个样本的梯度就迭代一次。
这种方法虽然很快，但数据的震荡也很明显。（小批量梯度下降mini-batch gradient descent是算出其中一部分样本的梯度，是一种折中方法）

3.特征缩放

两个参数的变化范围不同，则在考虑学习率的时候需要分别考虑，比较难处理，而右边的情形就比较容易更新参数，这就是进行特征缩放的原因。
最常见的做法就是直接将其正则化。

梯度下降的原理
为什么每次迭代时，损失函数一定会变小呢？不一定。

可以用泰勒公式可以做解释，一阶的形式非常类似，无论是微分还是偏微分。所以只有当步长较小时，才符合条件。

梯度下降的局限

梯度下降方法也有它自身的局限性，如下图所示：

【笔记】机器学习 - 李宏毅 - 4 - Gradient Descent的更多相关文章

深度学习课程笔记（四）Gradient Descent 梯度下降算法
深度学习课程笔记(四)Gradient Descent 梯度下降算法 2017.10.06 材料来自:http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS1 ...
李宏毅老师机器学习课程笔记_ML Lecture 3-1: Gradient Descent
引言: 这个系列的笔记是台大李宏毅老师机器学习的课程笔记视频链接(bilibili):李宏毅机器学习(2017) 另外已经有有心的同学做了速记并更新在github上:李宏毅机器学习笔记(LeeML- ...
吴恩达机器学习笔记 - cost function and gradient descent
一.简介 cost fuction是用来判断机器预算值和实际值得误差,一般来说训练机器学习的目的就是希望将这个cost function减到最小.本文会介绍如何找到这个最小值. 二.线性回归的cost ...
李宏毅机器学习笔记2：Gradient Descent(附带详细的原理推导过程）
李宏毅老师的机器学习课程和吴恩达老师的机器学习课程都是都是ML和DL非常好的入门资料,在YouTube.网易云课堂.B站都能观看到相应的课程视频,接下来这一系列的博客我都将记录老师上课的笔记以及自己对 ...
机器学习笔记：Gradient Descent
机器学习笔记:Gradient Descent http://www.cnblogs.com/uchihaitachi/archive/2012/08/16/2642720.html
斯坦福机器学习视频笔记 Week1 Linear Regression and Gradient Descent
最近开始学习Coursera上的斯坦福机器学习视频,我是刚刚接触机器学习,对此比较感兴趣:准备将我的学习笔记写下来, 作为我每天学习的签到吧,也希望和各位朋友交流学习. 这一系列的博客,我会不定期的更 ...
斯坦福机器学习视频笔记 Week1 线性回归和梯度下降 Linear Regression and Gradient Descent
最近开始学习Coursera上的斯坦福机器学习视频,我是刚刚接触机器学习,对此比较感兴趣:准备将我的学习笔记写下来, 作为我每天学习的签到吧,也希望和各位朋友交流学习. 这一系列的博客,我会不定期的更 ...
李宏毅机器学习课程---4、Gradient Descent （如何优化）
李宏毅机器学习课程---4.Gradient Descent (如何优化) 一.总结一句话总结: 调整learning rates:Tuning your learning rates 随机Grad ...
机器学习(1)之梯度下降(gradient descent)
机器学习(1)之梯度下降(gradient descent) 题记:最近零碎的时间都在学习Andrew Ng的machine learning,因此就有了这些笔记. 梯度下降是线性回归的一种(Line ...

随机推荐

FFMPEG学习----分离视音频里的PCM数据
/** * 参考于:http://blog.csdn.net/leixiaohua1020/article/details/46890259 */ #include <stdio.h> # ...
为了不复制粘贴，我被逼着学会了JAVA爬虫
整理了一些Java方面的架构.面试资料(微服务.集群.分布式.中间件等),有需要的小伙伴可以关注公众号[程序员内点事],无套路自行领取本文作者:程序员内点事更多精选技术部突然宣布:JAVA开发人 ...
Codeforces_839
A.每天更新判断. #include<bits/stdc++.h> using namespace std; ]; int main() { ios::sync_with_stdio(); ...
HDU_3038_并查集
http://acm.hdu.edu.cn/showproblem.php?pid=3038 并查集的应用,选择哪个点作为根结点都没关系,多了一个sum数组保存每个点到根节点的和,注意刚开始a减了1, ...
Go语言实现：【剑指offer】数组中重复的数字
该题目来源于牛客网<剑指offer>专题. 在一个长度为n的数组里的所有数字都在0到n-1的范围内.数组中某些数字是重复的,但不知道有几个数字是重复的.也不知道每个数字重复几次.请找出数组 ...
Qt使用双缓冲绘图时报错：pure virtual method called
这个问题折磨了我将近四个小时. 起始原因是想写一个双缓冲绘图的画板,大概看了一下网上的教程,理解双缓冲绘图的思想后,没有完全参照网上的步骤,想着用自己的思路实现一下.(其实和网上的教程也没有太大差别) ...
postman之上传文件
前言小伙伴们在日常工作中有没测试过上传文件的接口呢?那么怎么用postman测试上传文件的接口呢?下面我们一起来学习吧! 需求:(1)上传接口地址:http://localhost:8080/pin ...
iRedmail的php由5.4升级到5.6
安装ireadmail时,自带的php是5.4,打算升级到5.6. 升级前注意备份原来的/etc/php-fpm.d下的www.conf,文件内容如下: [inet] user = nginx gro ...
Spark RDD基本概念、宽窄依赖、转换行为操作
目录 RDD概述 RDD的内部代码案例小总结转换.行动算子宽.窄依赖 Reference 本文介绍一下rdd的基本属性概念.rdd的转换/行动操作.rdd的宽/窄依赖. RDD:Resilie ...
Qt 条件编译 arm windows linux 判断跨平台
如果代码里面有些判断需要不同的参数做判断: 办法:在pro文件里面做定义方法1:直接定义一个宏:用的时候可以直接判断,这样做不好的地方是编译前需要重新切换一下宏 1)定义宏 DEFINES += _ ...

【笔记】机器学习 - 李宏毅 - 4 - Gradient Descent

【笔记】机器学习 - 李宏毅 - 4 - Gradient Descent的更多相关文章

随机推荐

热门专题