临近梯度下降算法（Proximal Gradient Method）的推导以及优势

邻近梯度下降法

　　对于无约束凸优化问题，当目标函数可微时，可以采用梯度下降法求解；当目标函数不可微时，可以采用次梯度下降法求解；当目标函数中同时包含可微项与不可微项时，常采用邻近梯度下降法求解。上述三种梯度算法均属于离线批处理类型算法，在大规模的数据问题中，每次迭代都需要计算整个数据集梯度，因而需要较大的计算代价和存储空间。在线邻近梯度法（Online Proximal Gradient，OPG）是随即优化算法与临近梯度算法的结合，是一种典型的随机优化方法，以单个或小批量采样数据而实现数据实时处理。

　　考虑如下目标函数可分解为两部分的凸优化问题：

\begin{equation}\label{E1}
\min _{x} f(x)+g(x),
\end{equation}

其中$x$为优化变量，$f(x)$为光滑可微凸损失函数，$g(x)$是不可微的凸函数，一般为正则项。邻近梯度算法对其中的不可微项$g(x)$保持不变，可微项$f(x)$在$k$步迭代值$x_k$处做一阶Taylor展开，并加入二阶邻近项，对\eqref{E1}式的邻近梯度下降为：

\begin{aligned}
x_{k+1} &=\underset{u}{\arg \min } g(u)+f\left(x_{k}\right)+\nabla f\left(x_{k}\right)^{T}\left(u-x_{k}\right)+(1 / 2 \tau)\left\|u-x_{k}\right\|_{2}^{2} \\
&=\underset{u}{\operatorname{argmin}} g(u)+\frac{1}{2 \tau} \| u-\left.\left(x_{k}-t \nabla f\left(x_{k}\right)\right)\right|_{2} ^{2} \\
&=\operatorname{prox}_{\tau g}\left(x_{k}-\tau \nabla f\left(x_{k}\right)\right)
\end{aligned}

其中$\tau$为梯度步长，$\operatorname{prox}_{\tau g}(\cdot)$为邻近算子，根据$g(x)$形式有不同的定义，当$g(x)$为0时，邻近梯度算法退化为梯度下降算法；当$g(x)$为示性函数时，邻近算子为投影算符；当$g(x)$为$l_1$范数时，邻近算子为软阈值收缩算子。

在线邻近梯度下降法中，$f(x)$可以为不可微凸函数，将其利用次梯度线性化处理，同时也加入邻近项，可得：

\begin{equation}\label{E3}
x_{k+1}=\arg \min \left\{f_{k}^{T} x+g(x)+\left(1 / 2 \eta_{k}\right)\left\|x-x_{k}\right\|_{2}^{2}\right\}
\end{equation}

其中，次梯度$f_k$为$f(x)$的在$k$步迭代值$x_k$处近似，线性化处理目的是简化计算；$\left(1 / 2 \eta_{k}\right)\left\|x-x_{k}\right\|_{2}^{2}$为在$x_k$处的二次正则项，也称邻近项，目的是使得$x_{k+1}$和$x_{k}$相距较近，同时随着迭代收敛，$x_{k+1}$逐渐接近$x_{k}$，邻近项逐渐接近于0，所以可认为邻近项的目的是加快收敛，同时不会影响最终结果；$\eta_{k}>0$为邻近步长参数。

关于次梯度（Subgradient）

临近梯度下降算法（Proximal Gradient Method）的推导以及优势的更多相关文章

梯度下降算法（Gradient Descent)
近期在搞论文,须要用梯度下降算法求解,所以又一次整理分享在这里. 主要包含梯度介绍.公式求导.学习速率选择.代码实现. 梯度下降的性质: 1.求得的解和选取的初始点有关 2.能够保证找到局部最优解,由 ...
梯度下降算法（gradient descent）
简述梯度下降法又被称为最速下降法(Steepest descend method),其理论基础是梯度的概念.梯度与方向导数的关系为:梯度的方向与取得最大方向导数值的方向一致,而梯度的模就是函数在该点 ...
梯度下降算法的一点认识（Ng第一课）
昨天开始看Ng教授的机器学习课,发现果然是不错的课程,一口气看到第二课. 第一课没有什么新知识,就是机器学习的概况吧. 第二课出现了一些听不太懂的概念.其实这堂课主要就讲了一个算法,梯度下降算法. ...
Proximal Gradient Descent for L1 Regularization(近端梯度下降求解L1正则化问题)
假设我们要求解以下的最小化问题: $min_xf(x)$ 如果$f(x)$可导,那么一个简单的方法是使用Gradient Descent (GD)方法,也即使用以下的式子进行迭代求解: $x_{k+1 ...
梯度下降算法实现原理(Gradient Descent)
概述梯度下降法(Gradient Descent)是一个算法,但不是像多元线性回归那样是一个具体做回归任务的算法,而是一个非常通用的优化算法来帮助一些机器学习算法求解出最优解的,所谓的通用就是很 ...
Logistic回归Cost函数和J(θ)的推导（二）----梯度下降算法求解最小值
前言在上一篇随笔里,我们讲了Logistic回归cost函数的推导过程.接下来的算法求解使用如下的cost函数形式: 简单回顾一下几个变量的含义: 表1 cost函数解释 x(i) 每个样本数据点在 ...
深度学习课程笔记（四）Gradient Descent 梯度下降算法
深度学习课程笔记(四)Gradient Descent 梯度下降算法 2017.10.06 材料来自:http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS1 ...
flink 批量梯度下降算法线性回归参数求解（Linear Regression with BGD(batch gradient descent) ）
1.线性回归假设线性函数如下: 假设我们有10个样本x1,y1),(x2,y2).....(x10,y10),求解目标就是根据多个样本求解theta0和theta1的最优值. 什么样的θ最好的呢?最 ...
梯度下降算法(Gradient descent)GD
1.我们之前已经定义了代价函数J,可以将代价函数J最小化的方法,梯度下降是最常用的算法,它不仅仅用在线性回归上,还被应用在机器学习的众多领域中,在后续的课程中,我们将使用梯度下降算法最小化其他函数,而 ...

随机推荐

jmeter元件分析
jmeter元件分析一.脚本通用性 1.性能测试脚本改动一下,加入断言等元件,就可以作为接口测试脚本来使用 2.但是接口测试的脚本不可以作为性能测试脚本来使用 3.原因:因为性能测试考虑更多的性能, ...
聊聊Lock接口的lock()和lockInterruptible()有什么区别？
lock()和lockInterruptible()都表示获取锁,唯一区别是,当A线程调用lock()或lockInterruptible()方法获取锁没有成功而进入等待锁的状态时,若接着调用该A线程 ...
springboot整合freemark,thymeleaf
先在pom文件引入freemark,thymeleaf的依赖,thymeleaf的html文件放在Resource-templates-thymeleaf目录下,freekmarker的ftl文件放在 ...
vscode无法运行和调试使用了部分stl库的程序（无法定位程序输入点__gxx_personality_v0的一个解决方法）
一.起因 vscode 不能运行带有部分 stl 库的程序,编译不会报错,运行也不会报错但是也没有结果,调试的话会有下图中报错,如果没有string或者vector一切正常. 二.分析 cmd 中运 ...
JVM探究
1.JVM探究请你谈谈你对JVM的理解?java8虚拟机和之前的变化更新? 什么是OOM,什么是栈溢出StackOverFlowError?怎么分析? JVM的常用调优参数有哪些? 内存快照如何抓取 ...
干货 | Nginx负载均衡原理及配置实例
一个执着于技术的公众号 Nginx系列导读给小白的 Nginx 10分钟入门指南 Nginx编译安装及常用命令完全卸载nginx的详细步骤 Nginx 配置文件详解理解正向代理与反向代理的区别 ...
spring 拦截器流程 HandlerInterceptor AsyncHandlerInterceptor HandlerInterceptorAdapter
HandlerInterceptor源码 3种方法: preHandle:拦截于请求刚进入时,进行判断,需要boolean返回值,如果返回true将继续执行,如果返回false,将不进行执行.一般用于 ...
python牛顿法求一元多次函数极值
现在用牛顿法来实现一元函数求极值问题首先给出这样一个问题,如果有这么一个函数$f(x) = x^6+x$,那么如何求这个函数的极值点先在jupyter上简单画个图形 %matplotlib inl ...
操作系统实现-loader
博客网址:www.shicoder.top 微信:18223081347 欢迎加群聊天 :452380935 大家好呀,终于我们到了操作系统的loader部分了,loader也是操作系统中最重要的一个 ...
『忘了再学』Shell基础 — 16、位置参数变量
目录 1.位置参数变量$n 2.位置参数变量$*和$@ 3.位置参数变量$# 位置參数变量的作用主要用于脚本的传参. 位置參数变量的名称和作用都是确定不能改变的,但是该变量的内容是可以更改的,也就是变 ...

临近梯度下降算法（Proximal Gradient Method）的推导以及优势

临近梯度下降算法（Proximal Gradient Method）的推导以及优势的更多相关文章

随机推荐

热门专题