online learning，batch learning&批量梯度下降，随机梯度下降

以上几个概念之前没有完全弄清其含义及区别，容易混淆概念，在本文浅析一下：

一、online learning vs batch learning

online learning强调的是学习是实时的，流式的，每次训练不用使用全部样本，而是以之前训练好的模型为基础，每来一个样本就更新一次模型，这种方法叫做OGD（online gradient descent）。这样做的目的是快速地进行模型的更新，提升模型时效性。

online learning其实细分又可以分为batch模式和delta模式。batch模式的时效性比delta模式要低一些。分析一下batch模式，比如昨天及昨天的数据训练成了模型M，那么今天的每一条训练数据在训练过程中都会更新一次模型M，从而生成今天的模型M1。

而batch learning或者叫offline learning强调的是每次训练都需要使用全量的样本，因而可能会面临数据量过大的问题。后面要讨论的批量梯度下降法（BGD）和随机梯度下降法（SGD）都属于batch learning或者offline learning的范畴。

batch learning一般进行多轮迭代来向最优解靠近。online learning没有多轮的概念，如果数据量不够或训练数据不够充分，通过copy多份同样的训练数据来模拟batch learning的多轮训练也是有效的方法。

二、批量梯度下降（BGD）vs 随机梯度下降（SGD）

首先明确BGD和SGD都属于batch learing，都需要全量训练数据进行训练，需要遍历所有样本。

BGD在每次更新模型的时候，都要使用全量样本来计算更新的梯度值。如果有m个样本，迭代n轮，那么需要是m*n的计算复杂度。

SGD在每次更新模型的时候，只要当前遍历到的样本来计算更新的梯度值就行了。如果迭代n轮，则只需要n的计算复杂度，因为每轮只计算一个样本。

以上就是BGD和SGD的区别，容易看出，BGD的优势在于计算的是全局最优解，效果较SGD会好一些，劣势在于计算开销大；SGD则相反，优势在于计算开销减小很多，劣势在于计算的是局部最优解，可能最终达不到全局最优解。在数据量大的时候，SGD是较好的折衷选择。

online learning，batch learning&批量梯度下降，随机梯度下降的更多相关文章

梯度下降&随机梯度下降&批梯度下降
梯度下降法下面的h(x)是要拟合的函数,J(θ)损失函数,theta是参数,要迭代求解的值,theta求解出来了那最终要拟合的函数h(θ)就出来了.其中m是训练集的记录条数,j是参数的个数. 梯 ...
NN优化方法对照：梯度下降、随机梯度下降和批量梯度下降
1.前言这几种方法呢都是在求最优解中常常出现的方法,主要是应用迭代的思想来逼近.在梯度下降算法中.都是环绕下面这个式子展开: 当中在上面的式子中hθ(x)代表.输入为x的时候的其当时θ參数下的输出值 ...
L20 梯度下降、随机梯度下降和小批量梯度下降
airfoil4755 下载链接:https://pan.baidu.com/s/1YEtNjJ0_G9eeH6A6vHXhnA 提取码:dwjq 梯度下降 (Boyd & Vandenbe ...
批量梯度下降(BGD)、随机梯度下降(SGD)以及小批量梯度下降(MBGD)的理解
梯度下降法作为机器学习中较常使用的优化算法,其有着三种不同的形式:批量梯度下降(Batch Gradient Descent).随机梯度下降(Stochastic Gradient Descent ...
机器学习（ML）十五之梯度下降和随机梯度下降
梯度下降和随机梯度下降梯度下降在深度学习中很少被直接使用,但理解梯度的意义以及沿着梯度反方向更新自变量可能降低目标函数值的原因是学习后续优化算法的基础.随后,将引出随机梯度下降(stochastic ...
监督学习：随机梯度下降算法（sgd）和批梯度下降算法（bgd）
线性回归首先要明白什么是回归.回归的目的是通过几个已知数据来预测另一个数值型数据的目标值. 假设特征和结果满足线性关系,即满足一个计算公式h(x),这个公式的自变量就是已知的数据x,函数值h(x)就 ...
sklearn中实现随机梯度下降法（多元线性回归）
sklearn中实现随机梯度下降法随机梯度下降法是一种根据模拟退火的原理对损失函数进行最小化的一种计算方式,在sklearn中主要用于多元线性回归算法中,是一种比较高效的最优化方法,其中的梯度下降系 ...
[Machine Learning] 梯度下降（BGD）、随机梯度下降（SGD）、Mini-batch Gradient Descent、带Mini-batch的SGD
一.回归函数及目标函数以均方误差作为目标函数(损失函数),目的是使其值最小化,用于优化上式. 二.优化方式(Gradient Descent) 1.最速梯度下降法也叫批量梯度下降法Batch Gr ...
batch gradient descent（批量梯度下降）和 stochastic gradient descent（随机梯度下降）
批量梯度下降是一种对参数的update进行累积,然后批量更新的一种方式.用于在已知整个训练集时的一种训练方式,但对于大规模数据并不合适. 随机梯度下降是一种对参数随着样本训练,一个一个的及时updat ...

随机推荐

20145322第四周JAVA程序设计基础学习总结
20145322 <Java程序设计>第4周学习总结教材学习内容总结第六章一.继承共同行为何谓继承 1 多个类中存在相同属性和行为时,将这些内容抽取到单独一个类中,那么多个类无需再 ...
VS+Qt
1.安装vs 2.安装qt[带msvc编译器的] 3.安装addin插件 4.新建qt app项目 5.在qt options里添加qt版本路径添加到msvc那一层,如:E:\Qt5.9\5.9\m ...
浅析ProcessBuilder
概述 ProcessBuilder类是J2SE 1.5在java.lang中新添加的一个新类,此类用于创建操作系统进程,它提供一种启动和管理进程(也就是应用程序)的方法.在J2SE 1.5之前,都是由 ...
centos配置yum源为中国镜像源
有时候CentOS默认的yum源不一定是国内镜像,导致yum在线安装及更新速度不是很理想.这时候需要将yum源设置为国内镜像站点.国内主要开源的开源镜像站点应该是网易和阿里云了. 修改CentOS默认 ...
从0开始图论学习邻接表 STL vector
邻接表表示用vector实现 writer:pprp 代码如下: #include <bits/stdc++.h> using namespace std; const int maxn ...
LA 6893 The Big Painting（矩阵Hash）
https://vjudge.net/problem/UVALive-6893 题意: 给出一个小矩阵和大矩阵,在大矩阵中能找到相同的小矩阵. 思路: 矩阵Hash,先对小矩阵计算出它的Hash值,然 ...
UVa 10765 鸽子和炸弹（割点）
https://vjudge.net/problem/UVA-10765 题意: 给一个n个点的无向图,求每个点删去后形成的连通分量数. 思路: 判断割点,如果是割点的话,在dfs的时候计算出删去它后 ...
Python基础笔记系列十：模块
本系列教程供个人学习笔记使用,如果您要浏览可能需要其它编程语言基础(如C语言),why?因为我写得烂啊,只有我自己看得懂!! 模块 #1.类比于java中的jar包,模块能让你能够有逻辑地组织你的Py ...
通过spring整合activeMQ实现jms实例
写的很详细 http://blog.csdn.net/leonardo9029/article/details/43154385
mysql的基本的数据库的查询
学习一个数据库我们要学习哪些东西: sql数据库的话, curd. 对于查询,要注意表的关联的查询. 索引,触发器,对于控制连接量,脚本, 数据库的可视化工具,权限管理. http://www.360 ...

online learning，batch learning&批量梯度下降，随机梯度下降

online learning，batch learning&批量梯度下降，随机梯度下降的更多相关文章

随机推荐

热门专题