近端梯度算法（Proximal Gradient Descent）

L1正则化是一种常用的获取稀疏解的手段，同时L1范数也是L0范数的松弛范数。求解L1正则化问题最常用的手段就是通过加速近端梯度算法来实现的。

考虑一个这样的问题：

　　min_x f(x)+λg(x)

x∈Rⁿ，f(x)∈R，这里f(x)是一个二阶可微的凸函数，g(x)是一个凸函数（或许不可导），如上面L1的正则化||x||。

此时，只需要f(x)满足利普希茨（Lipschitz）连续条件，即对于定义域内所有向量x,y，存在常数M使得||f'(y)-f'(x)||<=M·||y-x||，那么这个模型就可以通过近端梯度算法来进行求解了。

ps：下面涉及很多数学知识，不想了解数学的朋友请跳到结论处，个人理解，所以也不能保证推理很严谨，如有问题，请一定帮忙我告诉我。

利普希茨连续条件的几何意义可以认为是函数在定义域内任何点的梯度都不超过M（梯度有上限），也就是说不会存在梯度为正负无穷大的情况。

因而，我们有下图所示的推算：

我们可以用f(y) = f(x)+f'(x)(y-x)+M/2*||y-x||²来近似的表示f(y)，也可以认为是高维下的泰勒分解，取到二次项。

我们换一种写法，f(x_k+1) = f(x_k)+f'(x_k)(x_k+1-x_k)+M/2*||x_k+1-x_k||²，也就是说可以直接迭代求min_x f(x)，就是牛顿法辣。

再换一种写法，f(x_k+1)=(M/2)(x_k+1-(x_k+(1/M)f'(x_k)))²+CONST，其中CONST是一个与x_k+1无关的常数，也就是说，此时我们可以直接写出这个条件下x_k+1的最优取值就是x_k+1=x_k+(1/M)f'(x_k)。令z=x_k+(1/M)f'(x_k)。

回到原问题，min_x f(x)+λg(x)，此时问题变为了求解min_x (M/2)||x-z||²+λg(x)。

实际上在求解这个问题的过程中，x的每一个维度上的值是互不影响的，可以看成n个独立的一维优化问题进行求解，最后组合成一个向量就行。

如果g(x)=||x||₁，就是L1正则化，那么最后的结论可以通过收缩算子来表示。

即x^k+1=shrink(z,λ/M)。具体来说，就是Z向量的每一个维度向原点方向移动λ/M的距离（收缩，很形象），对于x^k+1的第i个维度x_i=sgn(z_i)*max(|z_i|-λ/M,0)，其中sgn()为符号函数，正数为1，负数为-1。

一直迭代直到x^k收敛吧。

参考文献：

[1]Nesterov Y. Introductory lectures on convex optimization: A basic course[M]. Springer Science & Business Media, 2013.

[2]https://people.eecs.berkeley.edu/~elghaoui/Teaching/EE227A/lecture18.pdf

近端梯度算法（Proximal Gradient Descent）的更多相关文章

Proximal Gradient Descent for L1 Regularization(近端梯度下降求解L1正则化问题)
假设我们要求解以下的最小化问题: $min_xf(x)$ 如果$f(x)$可导,那么一个简单的方法是使用Gradient Descent (GD)方法,也即使用以下的式子进行迭代求解: $x_{k+1 ...
梯度下降（Gradient Descent）小结
在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法.这里就对梯度下降法做一个完整的总结. 1. 梯度在微 ...
Proximal Gradient Descent for L1 Regularization
[本文链接:http://www.cnblogs.com/breezedeus/p/3426757.html,转载请注明出处] 假设我们要求解以下的最小化问题: ...
梯度下降（Gradient Descent）
在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法.这里就对梯度下降法做一个完整的总结. 1. 梯度在微 ...
梯度下降（Gradient Descent）相关概念
梯度,直观理解: 梯度: 运算的对像是纯量,运算出来的结果会是向量在一个标量场中, 梯度的计算结果会是"在每个位置都算出一个向量,而这个向量的方向会是在任何一点上从其周围(极接近的周围,学过 ...
One-hot 编码/TF-IDF 值来提取特征,LAD/梯度下降法（Gradient Descent），Sigmoid
1. 多值无序类数据的特征提取: 多值无序类问题(One-hot 编码)把“耐克”编码为[0,1,0],其中“1”代表了“耐克”的中间位置,而且是唯一标识.同理我们可以把“中国”标识为[1,0],把 ...
[机器学习] ML重要概念：梯度（Gradient）与梯度下降法（Gradient Descent）
引言机器学习栏目记录我在学习Machine Learning过程的一些心得笔记,涵盖线性回归.逻辑回归.Softmax回归.神经网络和SVM等等,主要学习资料来自网上的免费课程和一些经典书籍,免费课 ...
ML:梯度下降（Gradient Descent）
现在我们有了假设函数和评价假设准确性的方法,现在我们需要确定假设函数中的参数了,这就是梯度下降(gradient descent)的用武之地. 梯度下降算法不断重复以下步骤,直到收敛(repeat ...
机器学习基础——梯度下降法（Gradient Descent）
机器学习基础--梯度下降法(Gradient Descent) 看了coursea的机器学习课,知道了梯度下降法.一开始只是对其做了下简单的了解.随着内容的深入,发现梯度下降法在很多算法中都用的到,除 ...

随机推荐

Android逆向学习资料
Android逆向基础之Dalvik虚拟机: https://lyxw.github.io/archivers/Android%E9%80%86%E5%90%91%E5%9F%BA%E7%A1%80% ...
Java并发（三）线程池原理
Java中的线程池是运用场景最多的并发框架,几乎所有需要异步或并发执行任务的程序都可以使用线程池.在开发过程中,合理地使用线程池能够带来3个好处. 1. 降低资源消耗.通过重复利用已创建的线程降低线程 ...
IntelliJ IDEA 常用设置 (二)
一. 代码提示和补充功能有一个特性:区分大小写. 区分大小写的情况是这样的:比如我们在 Java 代码文件中输入 stringBuffer IntelliJ IDEA 是不会帮我们提示或是代码补充的, ...
keystone系列一：keystone基础
一什么是keystone keystone是OpenStack的身份服务,暂且可以理解为一个'与权限有关'的组件. 二为何要有keystone Keystone项目的主要目的是为访问opensta ...
FileShare枚举的使用(文件读写锁) - (转载)
开发过程中,我们往往需要大量与文件交互,但往往会出现很多令人措手不及的意外,所以对普通的C#文件操作做了一次总结,问题大部分如下: 写入一些内容到某个文件中,在另一个进程/线程/后续操作中要读取文件内 ...
如何从现有版本1.4.8升级到element UI2.0.11
现在的项目是定死的依赖以下几个核心组件的版本: vue 2.3.3 element-ui 1.4.8 vue-template-comiler 2.3.3 将以前定死的依赖修改为 vue ^2.3.3 ...
angularjs为ng-click事件传递参数
在angularjs开发中,我们需要为ng-click事件传递一个参数. 在js中,可以接到参数: 演示:
开启mac上印象笔记的代码块
Mac 印象笔记左上角菜单栏:偏好设置-->软件更新-->开启代码块 (Preferences -> Software Update -> Enable code block) ...
Nginx---应用场景小结
Nginx介绍 Nginx一是一款轻量级的.高性能的HTTP.反向代理服务器,具有很高的稳定性.支持热部署.模块扩展也非常容易.Nginx采取了分阶段资源分配技术,处理静态文件和无缓存的反向代理加 ...
JavaScript如何实现继承
// 原型方式的'继承' function Person(name) { //定义一个Person的构造函数 this.name = name; //添加属性 } Person.prototype.s ...

近端梯度算法（Proximal Gradient Descent）

近端梯度算法（Proximal Gradient Descent）的更多相关文章

随机推荐

热门专题