近端梯度算法（Proximal Gradient Descent）

L1正则化是一种常用的获取稀疏解的手段，同时L1范数也是L0范数的松弛范数。求解L1正则化问题最常用的手段就是通过加速近端梯度算法来实现的。

考虑一个这样的问题：

　　min_x f(x)+λg(x)

x∈Rⁿ，f(x)∈R，这里f(x)是一个二阶可微的凸函数，g(x)是一个凸函数（或许不可导），如上面L1的正则化||x||。

此时，只需要f(x)满足利普希茨（Lipschitz）连续条件，即对于定义域内所有向量x,y，存在常数M使得||f'(y)-f'(x)||<=M·||y-x||，那么这个模型就可以通过近端梯度算法来进行求解了。

ps：下面涉及很多数学知识，不想了解数学的朋友请跳到结论处，个人理解，所以也不能保证推理很严谨，如有问题，请一定帮忙我告诉我。

利普希茨连续条件的几何意义可以认为是函数在定义域内任何点的梯度都不超过M（梯度有上限），也就是说不会存在梯度为正负无穷大的情况。

因而，我们有下图所示的推算：

我们可以用f(y) = f(x)+f'(x)(y-x)+M/2*||y-x||²来近似的表示f(y)，也可以认为是高维下的泰勒分解，取到二次项。

我们换一种写法，f(x_k+1) = f(x_k)+f'(x_k)(x_k+1-x_k)+M/2*||x_k+1-x_k||²，也就是说可以直接迭代求min_x f(x)，就是牛顿法辣。

再换一种写法，f(x_k+1)=(M/2)(x_k+1-(x_k+(1/M)f'(x_k)))²+CONST，其中CONST是一个与x_k+1无关的常数，也就是说，此时我们可以直接写出这个条件下x_k+1的最优取值就是x_k+1=x_k+(1/M)f'(x_k)。令z=x_k+(1/M)f'(x_k)。

回到原问题，min_x f(x)+λg(x)，此时问题变为了求解min_x (M/2)||x-z||²+λg(x)。

实际上在求解这个问题的过程中，x的每一个维度上的值是互不影响的，可以看成n个独立的一维优化问题进行求解，最后组合成一个向量就行。

如果g(x)=||x||₁，就是L1正则化，那么最后的结论可以通过收缩算子来表示。

即x^k+1=shrink(z,λ/M)。具体来说，就是Z向量的每一个维度向原点方向移动λ/M的距离（收缩，很形象），对于x^k+1的第i个维度x_i=sgn(z_i)*max(|z_i|-λ/M,0)，其中sgn()为符号函数，正数为1，负数为-1。

一直迭代直到x^k收敛吧。

参考文献：

[1]Nesterov Y. Introductory lectures on convex optimization: A basic course[M]. Springer Science & Business Media, 2013.

[2]https://people.eecs.berkeley.edu/~elghaoui/Teaching/EE227A/lecture18.pdf

近端梯度算法（Proximal Gradient Descent）的更多相关文章

Proximal Gradient Descent for L1 Regularization(近端梯度下降求解L1正则化问题)
假设我们要求解以下的最小化问题: $min_xf(x)$ 如果$f(x)$可导,那么一个简单的方法是使用Gradient Descent (GD)方法,也即使用以下的式子进行迭代求解: $x_{k+1 ...
梯度下降（Gradient Descent）小结
在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法.这里就对梯度下降法做一个完整的总结. 1. 梯度在微 ...
Proximal Gradient Descent for L1 Regularization
[本文链接:http://www.cnblogs.com/breezedeus/p/3426757.html,转载请注明出处] 假设我们要求解以下的最小化问题: ...
梯度下降（Gradient Descent）
在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法.这里就对梯度下降法做一个完整的总结. 1. 梯度在微 ...
梯度下降（Gradient Descent）相关概念
梯度,直观理解: 梯度: 运算的对像是纯量,运算出来的结果会是向量在一个标量场中, 梯度的计算结果会是"在每个位置都算出一个向量,而这个向量的方向会是在任何一点上从其周围(极接近的周围,学过 ...
One-hot 编码/TF-IDF 值来提取特征,LAD/梯度下降法（Gradient Descent），Sigmoid
1. 多值无序类数据的特征提取: 多值无序类问题(One-hot 编码)把“耐克”编码为[0,1,0],其中“1”代表了“耐克”的中间位置,而且是唯一标识.同理我们可以把“中国”标识为[1,0],把 ...
[机器学习] ML重要概念：梯度（Gradient）与梯度下降法（Gradient Descent）
引言机器学习栏目记录我在学习Machine Learning过程的一些心得笔记,涵盖线性回归.逻辑回归.Softmax回归.神经网络和SVM等等,主要学习资料来自网上的免费课程和一些经典书籍,免费课 ...
ML:梯度下降（Gradient Descent）
现在我们有了假设函数和评价假设准确性的方法,现在我们需要确定假设函数中的参数了,这就是梯度下降(gradient descent)的用武之地. 梯度下降算法不断重复以下步骤,直到收敛(repeat ...
机器学习基础——梯度下降法（Gradient Descent）
机器学习基础--梯度下降法(Gradient Descent) 看了coursea的机器学习课,知道了梯度下降法.一开始只是对其做了下简单的了解.随着内容的深入,发现梯度下降法在很多算法中都用的到,除 ...

随机推荐

编写简单Linux内核模块
模块代码如下 //main.c #include <linux/kernel.h> #include <linux/module.h> #include <linux/i ...
statefulSet 原理理解
1. svc(vip) -- deployment 2.headless(none) -- ...
android客服端+eps8266+单片机+路由器之远程控制系统
用android客服端+eps8266+单片机+路由器做了一个远程控制的系统,因为自己是在实验室里,所以把实验室的门,灯做成了远程控制的. 控制距离有多远------只能说很远很远,只要你手机能上网的 ...
Image Restoration[Deep Image Prior]
0.背景这篇论文是2017年11月29号第一次提交到arxiv并紧接着30号就提交了V2版本的. 近些年DCNN模型在图像生成和修复上面表现很好,大部分人认为好的原因主要是由于网络基于大量的图片训练 ...
Luogu3199 HNOI2009 最小圈分数规划、SPFA
传送门可以发现它的式子是一个分数规划的式子,所以可以二分答案,将所有边权减掉当前二分值之后跑一边$SPFA$判断负环即可. 然而这道题把$BFS-SPFA$卡掉了却没卡$DFS-SPFA$ 出题人: ...
Vue-认识状态管理vuex
vuex是一个专门为vue.js设计的状态管理模式,并且也可以使用devtools进行调试,可以多个组件共享状态.简单来说,就是共享的状态用state来存放,用mutations来操作state,但是 ...
练习angularjs的ng-click的应用
angular的click事件ng-click. 实现一个小功能计数器,用户可以点击“+”或“-”铵钮,数值每随点击铵钮增长1或减1.使用ng-init设置初始值为0. <div ng-app= ...
SSO单点登录_理解
SSO核心意义就一句话:一处登录,处处登录:一处注销,处处注销.即:在多个应用系统中,用户只需要登录一次就可以访问所有相互信任的应用系统. 很多人容易把SSO与OAuth搞混.这里简单说明一下: OA ...
Vue Element Tabe Pager 分页方案
表格和分页分离的,但是使用中,却是结合在一起的. 分析有以下方式触发查询: mounted 加载数据. 查询按钮加载数据. pager 变化加载数据加载数据函数: loadData 问题 mou ...
VMware vSphere虚拟化-VMware ESXi 5.5组件安装过程记录
几种主要的虚拟化 ESXi是VMware公司研发的虚拟机服务器,ESXi已经实现了与Virtual Appliance Marketplace的直接整合,使用户能够即刻下载并运行虚拟设备.这为即插即 ...

近端梯度算法（Proximal Gradient Descent）

近端梯度算法（Proximal Gradient Descent）的更多相关文章

随机推荐

热门专题