为什么是梯度下降？SGD

在机器学习算法中，为了优化损失函数loss function ，我们往往采用梯度下降算法来进行优化。举个例子：

线性SVM的得分函数和损失函数分别为：

一般来说，我们是需要求损失函数的最小值，而损失函数是关于权值矩阵的函数。为了求解权值矩阵，我们一般采用数值求解的方法，但是为什么是梯度呢？

在CS231N课程中给出了解释，首先我们采用

策略1：随机搜寻(不太实用)，也就是在一个范围内，任意选择W的值带入到损失函数中，那个损失函数值最小就取谁，这个很不实用。

策略2：随机局部搜索，就是在W值的附近，指定一个小方向，沿着这个小方向改变W,将改变方向后的W带入损失函数进行判断。具体步骤是对于一个当前W，我们每次实验和添加δW′，然后看看损失函数是否比当前要低，如果是，就替换掉当前的W。这个方向不明确

策略3 顺着梯度下滑和策略2对比，实际上上述小方向指定了，也就是说δW′应该等于stepsize*|grad|

然而，为什么是梯度方向呢？上一张图解释：

C(θ)是损失函数，θ是权值，为了得到在那个θ下C(θ)最小。一般选取初始点θ0，然后依据上面的搜索策略对θ0进行变更，

但是到底是向前还是向后运动呢？当我们知道图像后，很明显是向前运动，才能使得损失函数变小，但是在我们不知道图像的时候，梯度/导数会告诉我们答案。根据上图可知，在θ0点处的导数，也就是斜率是负的，为了减小损失函数，一般是沿着斜率的负方向运动，也就是

θ1=θ0-ηdc(θ0)/d(θ)

相当于θ1比θ0向正方向运动，也就是向前运动，满足我们的判断。

到此，我们可以看出，梯度下降的方法的步骤就是选择权值一个初始点，然后对权值进行小范围的迭代更新，然而小范围更新的方向为损失函数

对权值选择点的导数负方向，这样就能保证损失函数逐渐取得最小值。

比较三种梯度下降法：批量梯度下降法（Batch Gradient Descent，简称BGD）、随机梯度下降法（Stochastic Gradient Descent，简称SGD）和

小批量梯度下降法（Mini-batch Gradient Descent，简称MBGD）

设特征有n+1维度，对应特征向量是X0-XN，系数向量是θ0-θN

每一个特征向量为x(i) ,一共有M个特征向量，或者说M个数据。

BGD:最原始的梯度下降，它的具体思路是在更新每一参数时都使用所有的样本来进行更新，其数学形式如下：

SGD：由于批量梯度下降法在更新每一个参数时，都需要所有的训练样本，所以训练过程会随着样本数量的加大而变得异常的缓慢。

实际上，这个只是把上面的1-M所有的数据求和去掉了，也就是来一个数据更新一次。

MBGD：是一个折中的方案，也就是说M太大了，1太小了，自己定义一个batch值来更新数据，每多少个batch值更新一下权值。

显而易见，只是把上面的M换成了10.

为什么是梯度下降？SGD的更多相关文章

优化-最小化损失函数的三种主要方法：梯度下降(BGD)、随机梯度下降(SGD)、mini-batch SGD
优化函数损失函数 BGD 我们平时说的梯度现将也叫做最速梯度下降,也叫做批量梯度下降(Batch Gradient Descent). 对目标(损失)函数求导沿导数相反方向移动参数在梯度下降中, ...
批量梯度下降(BGD)、随机梯度下降(SGD)以及小批量梯度下降(MBGD)的理解
梯度下降法作为机器学习中较常使用的优化算法,其有着三种不同的形式:批量梯度下降(Batch Gradient Descent).随机梯度下降(Stochastic Gradient Descent ...
[sklearn] 实现随即梯度下降(SGD)&分类器评价参数查看
直接贴代码吧: 1 # -*- coding:UTF-8 -*- 2 from sklearn import datasets 3 from sklearn.cross_validation impo ...
梯度下降GD，随机梯度下降SGD，小批量梯度下降MBGD
阅读过程中的其他解释: Batch和miniBatch:(广义)离线和在线的不同
Pytorch_第七篇_深度学习 (DeepLearning) 基础 [3]---梯度下降
深度学习 (DeepLearning) 基础 [3]---梯度下降法 Introduce 在上一篇"深度学习 (DeepLearning) 基础 [2]---神经网络常用的损失函数" ...
各种梯度下降 bgd sgd mbgd adam
转载 https://blog.csdn.net/itchosen/article/details/77200322 各种神经网络优化算法:从梯度下降到Adam方法在调整模型更新权重和偏差 ...
深度学习笔记之【随机梯度下降（SGD）】
随机梯度下降几乎所有的深度学习算法都用到了一个非常重要的算法:随机梯度下降(stochastic gradient descent,SGD) 随机梯度下降是梯度下降算法的一个扩展机器学习中一个反复 ...
深度学习必备：随机梯度下降（SGD）优化算法及可视化
补充在前:实际上在我使用LSTM为流量基线建模时候,发现有效的激活函数是elu.relu.linear.prelu.leaky_relu.softplus,对应的梯度算法是adam.mom.rmspr ...
梯度下降：SGD vs Momentum vs NAG vs Adagrad vs Adadelta vs RMSprop vs Adam
原文地址:https://www.jianshu.com/p/7a049ae73f56 梯度下降优化基本公式:\({\theta\leftarrow\theta-\eta\cdot\nabla_\th ...

随机推荐

TCP字节流和UDP数据报区别
两者的区别在于TCP接收的是一堆数据,而每次取多少由主机决定;而UDP发的是数据报,客户发送多少就接收多少. 拥有这些区别的原因是由于TCP和UDP的特性不同而决定的.TCP是面向连接的,也就是说,在 ...
认识SQLServer索引以及单列索引和多列索引的不同
一.索引的概念索引的用途:我们对数据查询及处理速度已成为衡量应用系统成败的标准,而采用索引来加快数据处理速度通常是最普遍采用的优化方法. 索引是什么:数据库中的索引类似于一本书的目录,在一本书中使 ...
[stm32] NRF24L01+USART搞定有线和无线通信
前言一般进行远程监控时,2.4G无线通信是充当远程数据传输的一种方法.这时就需要在现场部分具备无线数据发送装置,而在上位机部分由于一般只有串口,所以将采集到的数据送到电脑里又要在上位机端设计一个数据 ...
Direct2D教程（外篇）环境配置
2014年世界杯首场淘汰赛马上开始了,闲着没事,整理以前的博客草稿打发时间,意外的发现这篇文章,本来是打算加入到Direct2D那个系列的,不知道为什么把它给遗漏了.环境配置,对于熟手来说,不是什么重 ...
Node.js与Sails~项目结构与Mvc实现
回到目录 Sails是一个Node.js的中间件架构,帮助我们很方便的构建WEB应用程序,网址:http://www.sailsjs.org/,它主要是在Express框架的基础上发展起来的,扩展了新 ...
offsetTop,offsetHeight,clientHeight,scrollHeight,scrollTop区别
这些高度相信很多同学都搞不清楚吧.这里我通过本地测试,发现了区别. 以聊天窗口为例. 元素(class='content')高度444px,其中上下padding分别是10px,margin为0.距离 ...
Atitit 项目的主体设计与结构文档 v3
Atitit 项目的主体设计与结构文档 v3 1. 实现的目标2 1.1. cross device跨设备(pc 手机平板)作为规划2 1.2. 企业级Java体系与开发语言2 1.3. 高扩展性, ...
fildder 使用方法汇总
作为网络开发人员,怎能不使用一些抓包工具呢?fildder是个不错的选择. 不过,一般情况下,我们往往使用浏览器自带的控制台的[网络]选项就可以达到查看数据的通信情况了,当然,一些浏览器不容易捕捉的事 ...
SQL Server 2012 数据库笔记
慕课网首页实战路径猿问手记 Python 手记 \ SQL Server 2012 数据库笔记 SQL Server 2012 数据库笔记 2016-10-25 16:29:33 1 ...
Ionic 入门
什么是lonic 简单来说lonic就是一款HTML5移动端应用开发框架,通过配合AngularJS和Cordova/PhoneGap可以开发一款移动端app,值得注意的是它创建的app是混合移动应用 ...

为什么是梯度下降？SGD

为什么是梯度下降？SGD的更多相关文章

随机推荐

热门专题