梯度下降法（BGD & SGD & Mini-batch SGD）

梯度下降法（Gradient Descent）

优化思想：用当前位置的负梯度方向作为搜索方向，亦即为当前位置下降最快的方向，也称“最速下降法”。越接近目标值时，步长越小，下降越慢。

如下图所示，梯度下降不一定能找到全局最优解，可能寻找到的是局部最优解。（当损失函数是凸函数时，梯度下降得到的解一定是全局最优解，因为凸函数的极小值即为最小值）

梯度下降法

批量梯度下降法（Batch Gradient Descent，BGD）：在更新参数时，BGD根据batch中的所有样本对参数进行更新。

θ为参数，x为每个样本的n个特征值

为了简化表示，增加特征x_0=1

损失函数J，m为一个batch中的样本数

参数更新，α为步长

上式展开即为，其中α和1/m均为常数，可用一个常数表示

随机梯度下降法（Stochastic Gradient Descent，SGD）：和BGD的原理类似，区别在于每次随机选取一个样本j求梯度。

对于训练速度来说，SGD每次仅仅采用一个样本来迭代，训练速度很快，而BGD在样本量很大的时候，训练速度不能让人满意。

对于准确度来说，SGD仅仅用一个样本决定梯度方向，导致解很有可能不是最优。

对于收敛速度来说，由于SGD一次迭代一个样本，导致迭代方向变化很大，不能很快的收敛到局部最优解。

SGD

小批量梯度下降法（Mini-batch Gradient Desent，也称Mini-batch SGD）：BGD和SGD二者的折中法，对于m个样本，选取x个子样本进行迭代，且1<x<m。

（1）选择n个训练样本（n<m，m为总训练集样本数）（即batchsize = n，样本总数为m，随机的思想在于每个epoch之前，随机打乱样本顺序，顺序选取n个样本作为batch）

（2）在这n个样本中进行n次迭代，每次使用1个样本

（3）对n次迭代得出的n个gradient进行加权平均再并求和，作为这一次mini-batch下降梯度

（4）不断在训练集中重复以上步骤，直到收敛。

梯度下降法（BGD & SGD & Mini-batch SGD）的更多相关文章

1. 批量梯度下降法BGD 2. 随机梯度下降法SGD 3. 小批量梯度下降法MBGD
排版也是醉了见原文:http://www.cnblogs.com/maybe2030/p/5089753.html 在应用机器学习算法时,我们通常采用梯度下降法来对采用的算法进行训练.其实,常用的梯度 ...
梯度下降法(BGD、SGD)、牛顿法、拟牛顿法（DFP、BFGS）、共轭梯度法
一.梯度下降法梯度:如果函数是一维的变量,则梯度就是导数的方向: 如果是大于一维的,梯度就是在这个点的法向量,并指向数值更高的等值线,这就是为什么求最小值的时候要用负梯度梯度下降法(Gr ...
随机梯度下降法（Stochastic gradient descent, SGD）
BGD(Batch gradient descent)批量梯度下降法:每次迭代使用所有的样本(样本量小) Mold 一直在更新 SGD(Stochastic gradientdescent)随机 ...
[Machine Learning] 梯度下降法的三种形式BGD、SGD以及MBGD
在应用机器学习算法时,我们通常采用梯度下降法来对采用的算法进行训练.其实,常用的梯度下降法还具体包含有三种不同的形式,它们也各自有着不同的优缺点. 下面我们以线性回归算法来对三种梯度下降法进行比较. ...
梯度下降法的三种形式BGD、SGD以及MBGD
https://www.cnblogs.com/maybe2030/p/5089753.html 阅读目录 1. 批量梯度下降法BGD 2. 随机梯度下降法SGD 3. 小批量梯度下降法MBGD 4. ...
梯度下降法的三种形式-BGD、SGD、MBGD
在应用机器学习算法时,我们通常采用梯度下降法来对采用的算法进行训练.其实,常用的梯度下降法还具体包含有三种不同的形式,它们也各自有着不同的优缺点. 下面我们以线性回归算法来对三种梯度下降法进行比较. ...
线性回归（最小二乘法、批量梯度下降法、随机梯度下降法、局部加权线性回归） C++
We turn next to the task of finding a weight vector w which minimizes the chosen function E(w). Beca ...
机器学习中梯度下降法原理及用其解决线性回归问题的C语言实现
本文讲梯度下降(Gradient Descent)前先看看利用梯度下降法进行监督学习(例如分类.回归等)的一般步骤: 1, 定义损失函数(Loss Function) 2, 信息流forward pr ...
ubuntu之路——day8.1 深度学习优化算法之mini-batch梯度下降法
所谓Mini-batch梯度下降法就是划分训练集和测试集为等分的数个子集,比如原来有500W个样本,将其划分为5000个baby batch,每个子集中有1000个样本,然后每次对一个mini-bat ...

随机推荐

直接插入排序算法（java）
直接插入排序是将未排序的数据插入至已排好序序列的合适位置. 具体流程如下: 1.首先比较数组的前两个数据,并排序: 2.比较第三个元素与前两个排好序的数据,并将第三个元素放入适当的位置: 3.比较第四 ...
centos7创建共享文件夹
0.检查是否已经安装samba rpm -qi samba 1.未安装,安装samba, 如果已安装,请忽略: yum -y install samba samba-client 2.共享一个目录,使 ...
RestFramework之权限组件
一.权限组件的使用 1.首先需要导入包 from rest_framework.permissions import BasePermission 2.编写权限类 class VipPermissio ...
Scala 中 call by name & call by value 的区别
call by value:会先计算参数的值,然后再传递给被调用的函数 call by name:参数会到实际使用的时候才计算定义方法 def return1():Int = { println(& ...
two pointers 思想
针对有序的序列特性做出的优化思想
第八届蓝桥杯C/C++程序设计本科B组决赛 ——瓷砖样式(填空题)【DP？我的暴力排列搜索】
标题:磁砖样式小明家的一面装饰墙原来是 3*10 的小方格. 现在手头有一批刚好能盖住2个小方格的长方形瓷砖. 瓷砖只有两种颜色:黄色和橙色. 小明想知道,对于这么简陋的原料,可以贴出多少种不同的花 ...
在idea中如何将一个项目打成war包
s会用clean+package两个组合命令.来进行打包,我的war直接打在了target下面.然后,随时可以找到.war文件
1128 聚合查询 orm字段及属性
目录一聚合查询 1. 级联级联删除级联更新 2. 聚合函数使用 aggregate 使用场景 3. 分组查询语法使用 annotate 代码 4. F与Q查询 F查询 Q查询二 ORM ...
Gitlab，Mac下生成SSH Key
git是分布式的代码管理工具,远程的代码管理是基于ssh的,所以要使用远程的git则需要ssh的配置.简单的说,Git - 版本控制工具:Github是一个网站,提供给用户空间创建git仓储,保存 ...
Educational Codeforces Round 75 (Rated for Div. 2) B. Binary Palindromes
链接: https://codeforces.com/contest/1251/problem/B 题意: A palindrome is a string t which reads the sam ...

梯度下降法（BGD & SGD & Mini-batch SGD）

梯度下降法（BGD & SGD & Mini-batch SGD）的更多相关文章

随机推荐

热门专题