为什么是梯度下降？SGD

在机器学习算法中，为了优化损失函数loss function ，我们往往采用梯度下降算法来进行优化。举个例子：

线性SVM的得分函数和损失函数分别为：

一般来说，我们是需要求损失函数的最小值，而损失函数是关于权值矩阵的函数。为了求解权值矩阵，我们一般采用数值求解的方法，但是为什么是梯度呢？

在CS231N课程中给出了解释，首先我们采用

策略1：随机搜寻(不太实用)，也就是在一个范围内，任意选择W的值带入到损失函数中，那个损失函数值最小就取谁，这个很不实用。

策略2：随机局部搜索，就是在W值的附近，指定一个小方向，沿着这个小方向改变W,将改变方向后的W带入损失函数进行判断。具体步骤是对于一个当前W，我们每次实验和添加δW′，然后看看损失函数是否比当前要低，如果是，就替换掉当前的W。这个方向不明确

策略3 顺着梯度下滑和策略2对比，实际上上述小方向指定了，也就是说δW′应该等于stepsize*|grad|

然而，为什么是梯度方向呢？上一张图解释：

C(θ)是损失函数，θ是权值，为了得到在那个θ下C(θ)最小。一般选取初始点θ0，然后依据上面的搜索策略对θ0进行变更，

但是到底是向前还是向后运动呢？当我们知道图像后，很明显是向前运动，才能使得损失函数变小，但是在我们不知道图像的时候，梯度/导数会告诉我们答案。根据上图可知，在θ0点处的导数，也就是斜率是负的，为了减小损失函数，一般是沿着斜率的负方向运动，也就是

θ1=θ0-ηdc(θ0)/d(θ)

相当于θ1比θ0向正方向运动，也就是向前运动，满足我们的判断。

到此，我们可以看出，梯度下降的方法的步骤就是选择权值一个初始点，然后对权值进行小范围的迭代更新，然而小范围更新的方向为损失函数

对权值选择点的导数负方向，这样就能保证损失函数逐渐取得最小值。

比较三种梯度下降法：批量梯度下降法（Batch Gradient Descent，简称BGD）、随机梯度下降法（Stochastic Gradient Descent，简称SGD）和

小批量梯度下降法（Mini-batch Gradient Descent，简称MBGD）

设特征有n+1维度，对应特征向量是X0-XN，系数向量是θ0-θN

每一个特征向量为x(i) ,一共有M个特征向量，或者说M个数据。

BGD:最原始的梯度下降，它的具体思路是在更新每一参数时都使用所有的样本来进行更新，其数学形式如下：

SGD：由于批量梯度下降法在更新每一个参数时，都需要所有的训练样本，所以训练过程会随着样本数量的加大而变得异常的缓慢。

实际上，这个只是把上面的1-M所有的数据求和去掉了，也就是来一个数据更新一次。

MBGD：是一个折中的方案，也就是说M太大了，1太小了，自己定义一个batch值来更新数据，每多少个batch值更新一下权值。

显而易见，只是把上面的M换成了10.

为什么是梯度下降？SGD的更多相关文章

优化-最小化损失函数的三种主要方法：梯度下降(BGD)、随机梯度下降(SGD)、mini-batch SGD
优化函数损失函数 BGD 我们平时说的梯度现将也叫做最速梯度下降,也叫做批量梯度下降(Batch Gradient Descent). 对目标(损失)函数求导沿导数相反方向移动参数在梯度下降中, ...
批量梯度下降(BGD)、随机梯度下降(SGD)以及小批量梯度下降(MBGD)的理解
梯度下降法作为机器学习中较常使用的优化算法,其有着三种不同的形式:批量梯度下降(Batch Gradient Descent).随机梯度下降(Stochastic Gradient Descent ...
[sklearn] 实现随即梯度下降(SGD)&分类器评价参数查看
直接贴代码吧: 1 # -*- coding:UTF-8 -*- 2 from sklearn import datasets 3 from sklearn.cross_validation impo ...
梯度下降GD，随机梯度下降SGD，小批量梯度下降MBGD
阅读过程中的其他解释: Batch和miniBatch:(广义)离线和在线的不同
Pytorch_第七篇_深度学习 (DeepLearning) 基础 [3]---梯度下降
深度学习 (DeepLearning) 基础 [3]---梯度下降法 Introduce 在上一篇"深度学习 (DeepLearning) 基础 [2]---神经网络常用的损失函数" ...
各种梯度下降 bgd sgd mbgd adam
转载 https://blog.csdn.net/itchosen/article/details/77200322 各种神经网络优化算法:从梯度下降到Adam方法在调整模型更新权重和偏差 ...
深度学习笔记之【随机梯度下降（SGD）】
随机梯度下降几乎所有的深度学习算法都用到了一个非常重要的算法:随机梯度下降(stochastic gradient descent,SGD) 随机梯度下降是梯度下降算法的一个扩展机器学习中一个反复 ...
深度学习必备：随机梯度下降（SGD）优化算法及可视化
补充在前:实际上在我使用LSTM为流量基线建模时候,发现有效的激活函数是elu.relu.linear.prelu.leaky_relu.softplus,对应的梯度算法是adam.mom.rmspr ...
梯度下降：SGD vs Momentum vs NAG vs Adagrad vs Adadelta vs RMSprop vs Adam
原文地址:https://www.jianshu.com/p/7a049ae73f56 梯度下降优化基本公式:\({\theta\leftarrow\theta-\eta\cdot\nabla_\th ...

随机推荐

【TypeScript】如何在TypeScript中使用async/await，让你的代码更像C#。
[TypeScript]如何在TypeScript中使用async/await,让你的代码更像C#. async/await 提到这个东西,大家应该都很熟悉.最出名的可能就是C#中的,但也有其它语言也 ...
人人都是 DBA（IX）服务器信息收集脚本汇编
什么?有个 SQL 执行了 8 秒! 哪里出了问题?臣妾不知道啊,得找 DBA 啊. DBA 人呢?离职了!!擦!!! 程序员在无处寻求帮助时,就得想办法自救,努力让自己变成 "伪 DBA& ...
Web 数据存储总结
随着Web应用程序的出现,也产生了对于能够在客户端上存储用户信息能力的要求.这个问题的第一个解决方案是以cookie形似出现的.网景公司在一份名为“Persistent Client State: H ...
[.net 面向对象编程基础] (23) 结束语
[.net 面向对象编程基础] (23) 结束语这个系列的文章终于写完了,用了半个多月的时间,没有令我的粉丝们失望.我的感觉就是一个字累,两个字好累,三个字非常累.小伙伴们看我每篇博客的时间就知道 ...
Unity 热更新实例一、C#Light 和UI系统使用实例
接下来我会运用热更新的机制,逐步制作一些例子来阐释脚本系统如何和Unity结合. 脚本不限于使用C#Lite,但是C#Lite会有一些便利之处,请往下看. 结合机制也不限于这一种,但是C#Lite的设 ...
[异常解决] vmware tools 虚拟机 --> 更新/导入wmwera tools菜单变灰，无法导入问题解决
在虚拟中的装Ubuntu只要下载一个Ubuntu镜像,按照新建的指示一步一步安装 ,但是安装好之后想从原来系统中复制点东西到虚拟机中的Ubuntu中却有点麻烦.幸好Vmware自带了一个VMware ...
【译】用jQuery 处理XML-- jQuery与XML
用jQuery 处理XML--写在前面的话用jQuery 处理XML-- DOM(文本对象模型)简介用jQuery 处理XML--浏览器中的XML与JavaScript 用jQuery 处理XML ...
[HIMCM暑期班]第1课:概述
作为这个系列的开始,我会把每一节课上过的内容,与同学们互动后发现他们的闪光点记录下来,以后其他要准备该比赛的人借鉴和参考. 第一节课是概述,主要讲什么是数学建模,还有建模可以帮助我们做什么.举了三个例 ...
display的理解
display可把框内显示的内容改变(自我理解) none 此元素不会被显示. block 此元素将显示为块级元素,此元素前后会带有换行符. inline 默认.此元素会被显示为内联元素,元素前后没有 ...
Atitit 桌面软件跨平台gui解决方案 javafx webview
Atitit 桌面软件跨平台gui解决方案 javafx webview 1.1. 双向js交互1 1.2. 新弹出窗口解决1 1.3. 3.文档对象入口dom解析1 1.4. 所以果断JavaFX, ...

为什么是梯度下降？SGD

为什么是梯度下降？SGD的更多相关文章

随机推荐

热门专题