Proximal Gradient Descent for L1 Regularization

[本文链接：http://www.cnblogs.com/breezedeus/p/3426757.html，转载请注明出处]

假设我们要求解以下的最小化问题：
$ \min\limits_x f(x) $ 。
如果$ f(x) $可导，那么一个简单的方法是使用Gradient Descent (GD)方法，也即使用以下的式子进行迭代求解：
$ x_{k+1} := x_{k} - \alpha \nabla f(x_{k}) $ 。
对GD的一种解释是$ x_{k} $沿着当前目标函数的下降方向走一小段，只要步子足够小，总能保证得到 $ f(x_{k+1}) \leq f(x_{k}) $。

如果$ \nabla f(x) $满足L-Lipschitz，即：
$ ||\nabla f(x') - \nabla f(x)|| \leq L ||x’ - x|| $，
那么我们可以在点$ x_{k} $附近把$ f(x) $近似为：
$ \hat{f}(x, x_k) \doteq f(x_k) + \langle \nabla f(x_k), x - x_k \rangle + \frac{L}{2} ||x - x_k||^2 $。

把上面式子中各项重新排列下，可以得到：

显然$ \hat{f}(x, x_k) $的最小值在

$ x_{k+1} = x_k - \frac 1 L \nabla f(x_k) $

获得。所以，从这个角度上看的话，GD的每次迭代是在最小化原目标的一个二次近似函数。

在很多最小化问题中，我们往往会加入非光滑的惩罚项$ g(x) $，比如常见的L1惩罚：$ g(x) = ||x||_1 $。这个时候，GD就不好直接推广了。但上面的二次近似思想却可以推广到这种情况：

。

这就是所谓的proximal gradient descent(PGD)算法。只要给定$ g(x) $时下面的最小化问题能容易地求解，PGD就能高效地使用：

。

比如$ g(x) = ||x||_1 $时， $\text{prox}_{\mu g} (z)$能够通过所谓的soft thresholding获得：

$ \text{prox}_{\mu g} (z) = \text{sign}(z) \max\{|z| - \mu, \ 0\} $。

[References]

[1] John Wright. Lecture III: Algorithms, 2013.

Proximal Gradient Descent for L1 Regularization的更多相关文章

Proximal Gradient Descent for L1 Regularization(近端梯度下降求解L1正则化问题)
假设我们要求解以下的最小化问题: $min_xf(x)$ 如果$f(x)$可导,那么一个简单的方法是使用Gradient Descent (GD)方法,也即使用以下的式子进行迭代求解: $x_{k+1 ...
关于subGradent descent和Proximal gradient descent的迭代速度
clc;clear; D=1000;N=10000;thre=10e-8;zeroRatio=0.6; X = randn(N,D); r=rand(1,D); r=sign(1-2*r).*(2+2 ...
近端梯度算法（Proximal Gradient Descent）
L1正则化是一种常用的获取稀疏解的手段,同时L1范数也是L0范数的松弛范数.求解L1正则化问题最常用的手段就是通过加速近端梯度算法来实现的. 考虑一个这样的问题: minx f(x)+λg(x) x ...
Stochastic Gradient Descent
一.从Multinomial Logistic模型说起 1.Multinomial Logistic 令为维输入向量; 为输出label;(一共k类); 为模型参数向量: Multinomial Lo ...
Logistic Regression and Gradient Descent
Logistic Regression and Gradient Descent Logistic regression is an excellent tool to know for classi ...
机器学习-随机梯度下降（Stochastic gradient descent）
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...
[Converge] Gradient Descent - Several solvers
solver : {‘newton-cg’, ‘lbfgs’, ‘liblinear’, ‘sag’}, default: ‘liblinear’ Algorithm to use in the op ...
梯度下降（Gradient Descent）小结
在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法.这里就对梯度下降法做一个完整的总结. 1. 梯度在微 ...
机器学习基础——梯度下降法（Gradient Descent）
机器学习基础--梯度下降法(Gradient Descent) 看了coursea的机器学习课,知道了梯度下降法.一开始只是对其做了下简单的了解.随着内容的深入,发现梯度下降法在很多算法中都用的到,除 ...

随机推荐

C# delegate
1. delegate example1 class Program { public delegate int MyDelegate(int i); int MyFunc(int i) { retu ...
PHP入门篇
一.PHP-什么是变量变量是用于存储值的,我们命令服务器去干活的时候,往往需要产生一些数据,需要临时性存放起来,方便取用.我们也可以理解为,变量就像一个购物袋,我们可以用来装苹果.榴莲(当然也可以 ...
modelsim仿真vivado自动化脚本
quit -sim set PATH1 C:/modeltech64_10.2c/xilinx144_lib set PATH2 C:/xilinx1/Vivado/2014.4/data/veril ...
C代码编译成可执行程序的过程
C代码通过编译器编译成可执行代码,经历了四个阶段,依次为:预处理.编译.汇编.链接. 接下来详细讲解各个阶段一.预处理 1.任务:进行宏定义展开.头文件展开.条件编译,不检查语法. 2.命令:gcc ...
deep learning on object detection
回归工作一周,忙的头晕,看了两三篇文章,主要在写各种文档和走各种办事流程了-- 这次来写写object detection最近看的三篇文章吧.都不是最近的文章,但是是今年的文章,我也想借此让自己赶快熟 ...
AndroidSQLite多出一个(db.journal文件原因)
今天在Android开发中中将sqlite的数据库创建之后,发现生成的.db文件的旁边生成了一个大小为0的与数据库文件同名的.db-journal文件,不明白此文件的用途,于是 google了sql ...
php版本引起的const问题
刚刚遇到一个问题,类中定义了一个常量: const USER = ['aa', 'bb', 'cc']; 在类中的静态函数中调用以上常量不会出错.网站中所有的网页均能正常打开. 而当push到线上后, ...
关于PHP学习的各种网站
http://www.shouce.ren/ 各种开发手册 http://yii2.techbrood.com/guide-upgrade-from-v1.html yii2.0和之前版本的区别htt ...
第三次作业——《K米评测》
第三次作业--<K米评测> 一.调研.评测上手体验 APP的图标做的不错,一眼就知道和KTV唱歌相关的点进去就是连接包箱的界面和直播界面,把软件最重要的两个功能展示出来了,一目了然热 ...
RHEL7学习之crontab无法执行ntpdate
1,"/etc/crontab"文件 [root@localhost ~]# more /etc/crontab SHELL=/bin/bash PATH=/sbin:/bin:/ ...

Proximal Gradient Descent for L1 Regularization

[本文链接：http://www.cnblogs.com/breezedeus/p/3426757.html，转载请注明出处]

Proximal Gradient Descent for L1 Regularization的更多相关文章

随机推荐

热门专题