Proximal Gradient Descent for L1 Regularization(近端梯度下降求解L1正则化问题)

假设我们要求解以下的最小化问题： $min_xf(x)$

如果$f(x)$可导，那么一个简单的方法是使用Gradient Descent (GD)方法，也即使用以下的式子进行迭代求解：

$x_{k+1} = x_k - a\Delta f(x_k)$

如果$\Delta f(x)$满足L-Lipschitz，即：

那么我们可以在点$x_k$附近把$f(x)$近似为：

把上面式子中各项重新排列下，可以得到：

这里$\varphi (x_k)$不依赖于x，因此可以忽略。

显然，$\hat f(x, x_k)$的最小值在

获得。所以，从这个角度看的话，GD的每次迭代是在最小化原目标函数的一个二次近似函数.（梯度下降的由来的推导,这里说的不好，参考这里： http://www.cnblogs.com/ljygoodgoodstudydaydayup/p/7274943.html）

在很多最小化问题中，我们往往会加入非光滑的惩罚项$g(x)$, 比如常见的L1惩罚: $g(x) = ||x||_1$ .这个时候，GD就不好直接推广了。但上面的二次近似思想却可以推广到这种情况：

这就是所谓的Proximal Gradient Descent （PGD）算法,即目标函数由损失项和正则项组成。对于上式，可先计算$z = x_k - \frac{1}{L}\Delta f(x_k)$, 然后求解

软阈值(SoftThresholding)可以求解如下优化问题：

其中：

根据范数的定义，可以将上面优化问题的目标函数拆开：

也就是说，我们可以通过求解N个独立的形如函数

的优化问题，来求解这个问题。由中学时代学过的求极值方法知道，可以求函数f(x)导数：

令函数f(x)导数等于0，得：

这个结果等号两端都有变量x，需要再化简一下。下面分三种情况讨论：

(1)当b>λ/2时

假设x<0，则sgn(x)=-1，所以x=b+λ/2>0，与假设x<0矛盾；（λ > 0）

假设x>0，则sgn(x)=1，所以x=b-λ/2>0，成立；

所以此时在x=b-λ/2>0处取得极小值：

即此时极小值小于f(0)，而当x<0时

即当x<0时函数f(x)为单调降函数（对任意△x<0，f(0)<f(△x)）。因此，函数在x=b-λ/2>0处取得最小值。

(2)当b<-λ/2时

假设x<0，则sgn(x)=-1，所以x=b+λ/2<0，成立；

假设x>0，则sgn(x)=1，所以x=b-λ/2<0，与假设x>0矛盾；

所以此时在x=b+λ/2<0处取得极小值：

即此时极小值小于f(0)，而当x>0时

即当x>0时函数f(x)为单调升函数（对任意△x>0，f(△x)>f(0)）。因此，函数在x=b+λ/2<0处取得最小值。

(3)当-λ/2<b<λ/2时(即|b|<λ/2时)

假设x<0，则sgn(x)=-1，所以x=b+λ/2>0，与假设x<0矛盾；

假设x>0，则sgn(x)=1，所以x=b-λ/2<0，与假设x<0矛盾；

即无论x为大于0还是小于0均没有极值点，那么x=0是否为函数f(x)的极值点呢？

对于△x≠0，

当△x >0时，利用条件b<λ/2可得

当△x <0时，利用条件b<λ/2可得(注：此时|△x |=-△x)

因此，函数在x=0处取得极小值，也是最小值。

综合以上三种情况，f(x)的最小值在以下位置取得：

至此，我们可以得到优化问题

的解为

http://blog.csdn.net/bingecuilab/article/details/50628634

http://blog.csdn.net/jbb0523/article/details/52103257

Proximal Gradient Descent for L1 Regularization(近端梯度下降求解L1正则化问题)的更多相关文章

机器学习算法整理（二）梯度下降求解逻辑回归 python实现
逻辑回归(Logistic regression) 以下均为自己看视频做的笔记,自用,侵删! 还参考了:http://www.ai-start.com/ml2014/ 用梯度下降求解逻辑回归 Logi ...
Proximal Gradient Descent for L1 Regularization
[本文链接:http://www.cnblogs.com/breezedeus/p/3426757.html,转载请注明出处] 假设我们要求解以下的最小化问题: ...
近端梯度算法（Proximal Gradient Descent）
L1正则化是一种常用的获取稀疏解的手段,同时L1范数也是L0范数的松弛范数.求解L1正则化问题最常用的手段就是通过加速近端梯度算法来实现的. 考虑一个这样的问题: minx f(x)+λg(x) x ...
采用梯度下降优化器(Gradient Descent optimizer)结合禁忌搜索(Tabu Search)求解矩阵的全部特征值和特征向量
[前言] 对于矩阵(Matrix)的特征值(Eigens)求解,采用数值分析(Number Analysis)的方法有一些,我熟知的是针对实对称矩阵(Real Symmetric Matrix)的特征 ...
[Python]数据挖掘（1）、梯度下降求解逻辑回归——考核成绩分类
ps:本博客内容根据唐宇迪的的机器学习经典算法学习视频复制总结而来 http://www.abcplus.com.cn/course/83/tasks 逻辑回归问题描述:我们将建立一个逻辑回归模 ...
关于subGradent descent和Proximal gradient descent的迭代速度
clc;clear; D=1000;N=10000;thre=10e-8;zeroRatio=0.6; X = randn(N,D); r=rand(1,D); r=sign(1-2*r).*(2+2 ...
线性回归、梯度下降（Linear Regression、Gradient Descent）
转载请注明出自BYRans博客:http://www.cnblogs.com/BYRans/ 实例首先举个例子,假设我们有一个二手房交易记录的数据集,已知房屋面积.卧室数量和房屋的交易价格,如下表: ...
机器学习_线性回归和逻辑回归_案例实战：Python实现逻辑回归与梯度下降策略_项目实战：使用逻辑回归判断信用卡欺诈检测
线性回归: 注:为偏置项,这一项的x的值假设为[1,1,1,1,1....] 注:为使似然函数越大,则需要最小二乘法函数越小越好线性回归中为什么选用平方和作为误差函数?假设模型结果与测量值误差满足 ...
批量梯度下降(BGD)、随机梯度下降(SGD)以及小批量梯度下降(MBGD)的理解
梯度下降法作为机器学习中较常使用的优化算法,其有着三种不同的形式:批量梯度下降(Batch Gradient Descent).随机梯度下降(Stochastic Gradient Descent ...

随机推荐

（41）zabbix监控api接口性能及可用性天气预报api为例
现在各种应用都走api,例如淘宝,天气预报等手机.pad客户端都是走api的,那么平时也得对这些api做监控了.怎么做呢?zabbix的web监控是不二选择了.今天就以天气预报api作为一个例子. 天 ...
NFS网络共享服务挂载参数及优化内核优化建议
配置NFS服务端 nfs01上安装软件 [root@nfs01 ~]# yum install nfs-utils rpcbind -y nfs-utils:NFS服务的主程序,包括rpc.nfsd. ...
nginx + 一个端口部署多个单页应用（history模式）
目前web开发使用一般前后端分离技术,并且前端负责路由.为了美观,会采用前端会采用h5 history 模式的路由.但刷新页面时,前端真的会按照假路由去后端寻找文件.此时,后端必须返回index(i ...
Python解释器镜像源修改
目录 Windows Mac 这篇文章将解除你使用python的pip install xxx受到的网速限制,如果只是下载较小的第三方库,可以尝试pip --default-timeout=100 i ...
PAT Basic 1051
1051 复数乘法复数可以写成 (A+Bi) 的常规形式,其中 A 是实部,B 是虚部,i 是虚数单位,满足 i2=−1:也可以写成极坐标下的指数形式 (R×e(Pi)),其中 R 是复 ...
PAT Basic 1031
1031 查验身份证(15)(15 分) 一个合法的身份证号码由17位地区.日期编号和顺序编号加1位校验码组成.校验码的计算规则如下: 首先对前17位数字加权求和,权重分配为:{7,9,10,5,8, ...
Web自动化Selenium2环境配置中Selenium IDE的安装
下载的firefox32.0的版本,但是在附件组件中只有selenuim IDE button,本以为这个就是selenium IDE插件,自以为是的后果就是把自己坑了.并且像一些selenium I ...
nginx报错 too many open files in system
系统进不去了,用ssh连接服务器也非常慢,负载均衡显示后端连接异常,重启mysql数据库,发现经常重启,或者直接关机,访问页面也访问不到. http://www.51testing.com/html/ ...
【Luogu】P2324骑士精神（IDA*）
题目链接当guess>limit-deep的时候return就好了. guess是估价函数,值为不在自己地盘上的骑士个数.limit是本次迭代阈值.deep是已经走了多少步. 这个优化是显然的 ...
jenkins使用流程
jenkins使用流程看下面那个连接的吧. http://www.cnblogs.com/zz0412/p/jenkins02.html 1.设置git库 2.点击add添加github用户名.密码 ...

Proximal Gradient Descent for L1 Regularization(近端梯度下降求解L1正则化问题)

Proximal Gradient Descent for L1 Regularization(近端梯度下降求解L1正则化问题)的更多相关文章

随机推荐

热门专题