一、回归函数及目标函数

以均方误差作为目标函数（损失函数），目的是使其值最小化，用于优化上式。

二、优化方式（Gradient Descent）

1、最速梯度下降法

也叫批量梯度下降法Batch Gradient Descent，BSD

a、对目标函数求导

b、沿导数相反方向移动theta

原因：

（1）对于目标函数，theta的移动量应当如下，其中a为步长，p为方向向量。

（2）对J（theta）做一阶泰勒级数展开：

（3）上式中，ak是步长，为正数，可知要使得目标函数变小，则应当<0，并且其绝对值应当越大越好，这样下降的速度更快。在泰勒级数中，g代表J（theta
k）的梯度，所以为了使得为负并且绝对值最大，应当使theta的移动方向与梯度g相反。

2、随机梯度下降法（stochastic gradient descent，SGD）

SGD是最速梯度下降法的变种。

使用最速梯度下降法，将进行N次迭代，直到目标函数收敛，或者到达某个既定的收敛界限。每次迭代都将对m个样本进行计算，计算量大。

为了简便计算，SGD每次迭代仅对一个样本计算梯度，直到收敛。伪代码如下（以下仅为一个loop，实际上可以有多个这样的loop，直到收敛）：

（1）由于SGD每次迭代只使用一个训练样本，因此这种方法也可用作online learning。

（2）每次只使用一个样本迭代，若遇上噪声则容易陷入局部最优解。

3、Mini-batch Gradient Descent

（1）这是介于BSD和SGD之间的一种优化算法。每次选取一定量的训练样本进行迭代。

（2）从公式上似乎可以得出以下分析：速度比BSD快，比SGD慢；精度比BSD低，比SGD高。

4、带Mini-batch的SGD

（1）选择n个训练样本（n<m，m为总训练集样本数）

（2）在这n个样本中进行n次迭代，每次使用1个样本

（3）对n次迭代得出的n个gradient进行加权平均再并求和，作为这一次mini-batch下降梯度

（4）不断在训练集中重复以上步骤，直到收敛。

[Machine Learning] 梯度下降（BGD）、随机梯度下降（SGD）、Mini-batch Gradient Descent、带Mini-batch的SGD的更多相关文章

batch gradient descent（批量梯度下降）和 stochastic gradient descent（随机梯度下降）
批量梯度下降是一种对参数的update进行累积,然后批量更新的一种方式.用于在已知整个训练集时的一种训练方式,但对于大规模数据并不合适. 随机梯度下降是一种对参数随着样本训练,一个一个的及时updat ...
NN优化方法对照：梯度下降、随机梯度下降和批量梯度下降
1.前言这几种方法呢都是在求最优解中常常出现的方法,主要是应用迭代的思想来逼近.在梯度下降算法中.都是环绕下面这个式子展开: 当中在上面的式子中hθ(x)代表.输入为x的时候的其当时θ參数下的输出值 ...
梯度下降之随机梯度下降 -minibatch 与并行化方法
问题的引入: 考虑一个典型的有监督机器学习问题,给定m个训练样本S={x(i),y(i)},通过经验风险最小化来得到一组权值w,则现在对于整个训练集待优化目标函数为: 其中为单个训练样本(x(i),y ...
对数几率回归法（梯度下降法，随机梯度下降与牛顿法）与线性判别法(LDA)
本文主要使用了对数几率回归法与线性判别法(LDA)对数据集(西瓜3.0)进行分类.其中在对数几率回归法中,求解最优权重W时,分别使用梯度下降法,随机梯度下降与牛顿法. 代码如下: #!/usr/bin ...
机器学习算法（优化）之一：梯度下降算法、随机梯度下降（应用于线性回归、Logistic回归等等）
本文介绍了机器学习中基本的优化算法—梯度下降算法和随机梯度下降算法,以及实际应用到线性回归.Logistic回归.矩阵分解推荐算法等ML中. 梯度下降算法基本公式常见的符号说明和损失函数 X :所有 ...
机器学习（ML）十五之梯度下降和随机梯度下降
梯度下降和随机梯度下降梯度下降在深度学习中很少被直接使用,但理解梯度的意义以及沿着梯度反方向更新自变量可能降低目标函数值的原因是学习后续优化算法的基础.随后,将引出随机梯度下降(stochastic ...
几种梯度下降方法对比（Batch gradient descent、Mini-batch gradient descent 和 stochastic gradient descent）
https://blog.csdn.net/u012328159/article/details/80252012 我们在训练神经网络模型时,最常用的就是梯度下降,这篇博客主要介绍下几种梯度下降的变种 ...
flink 批量梯度下降算法线性回归参数求解（Linear Regression with BGD(batch gradient descent) ）
1.线性回归假设线性函数如下: 假设我们有10个样本x1,y1),(x2,y2).....(x10,y10),求解目标就是根据多个样本求解theta0和theta1的最优值. 什么样的θ最好的呢?最 ...
online learning，batch learning&批量梯度下降，随机梯度下降
以上几个概念之前没有完全弄清其含义及区别,容易混淆概念,在本文浅析一下: 一.online learning vs batch learning online learning强调的是学习是实时的,流 ...
随机梯度下降（Stochastic gradient descent）和批量梯度下降（Batch gradient descent ）的公式对比、实现对比[转]
梯度下降(GD)是最小化风险函数.损失函数的一种常用方法,随机梯度下降和批量梯度下降是两种迭代求解思路,下面从公式和实现的角度对两者进行分析,如有哪个方面写的不对,希望网友纠正. 下面的h(x)是要拟 ...

随机推荐

HW4.17
import java.util.Scanner; public class Solution { public static void main(String[] args) { Scanner i ...
多IDC数据分布--MySQL多机房部署 - 学习笔记 - 51CTO技术博客
多IDC数据分布--MySQL多机房部署 - 学习笔记 - 51CTO技术博客多IDC数据分布--MySQL多机房部署
【转】Flask安装
Flask 依赖两个外部库:Werkzeug 和 Jinja2 . Werkzeug 是一个 WSGI(在 Web 应用和多种服务器之间的标准 Python 接口) 工具集.Jinja2 负责渲染模板 ...
Uniform resource name
A uniform resource identifier (URI) is a uniform resource locator(定位器,探测器) (URL), uniform resour ...
JAVA 面向对象-2-继承(Inheritance)
i.继承(Inheritance) 1.继承的概念继承:在面向对象编程的过程中,通过扩展一个已有的类,并继承该类的属性和行为,来创建一个新的类. 继承是面向对象编程最重要的特征之一. 继承的优点:1 ...
phpstorm 解决svn 无法提交的问题
phpstorm 无法用svn 提交提示如下错误: 网上找的解决办法 : 由于安装的TortoiseSVN工具,本身是带有command-line功能的(没有安装)如图: 使用Intellij ID ...
一个免费的自动化跨平台测试JavaScript的工具——BrowserSwarm
BrowserSwarm是一个免费工具,能够自动化跨平台测试JavaScript.
oralce11 过程
PL/SQL 块的结构和实例 pl/sql(procedural language(过程化语言)/sql)是oracle在标准的sql语言上的扩展.pl/sql不仅允许嵌入sql语言,还可以定义变量和 ...
LabVIEW设计模式系列——功能全局变量
标准化:1.图标的标准化 2.模式的标准化Operation:Write & Read 3.xx为变量名称,w为write括号中为默认值,r为read ...
android自定义控件之模仿优酷菜单
去年的优酷HD版有过这样一种菜单,如下图: 应用打开之后,先是三个弧形的三级菜单,点击实体键menu之后,这三个菜单依次旋转退出,再点击实体键menu之后,一级菜单会旋转进入,点击一级菜单,二级菜单旋 ...

[Machine Learning] 梯度下降（BGD）、随机梯度下降（SGD）、Mini-batch Gradient Descent、带Mini-batch的SGD