关于subGradent descent和Proximal gradient descent的迭代速度

clc;clear;

D=1000;N=10000;thre=10e-8;zeroRatio=0.6;

X = randn(N,D);

r=rand(1,D);

r=sign(1-2*r).*(2+2*r);

perm=randperm(D);r(perm(1:floor(D*zeroRatio)))=0;

Y = X*r' + randn(N,1)*.1; % small added noise

lamda=1;stepsize=10e-5;

%%% y=x*beta'

%%% Loss=0.5*(y-x*beta')_2++lamda|beta|

%%%% GD

%%% al_y/al_beta=sigma(x_i*(x_i*beta'-y_i)+fabs(lamda))

beta=zeros(size(r));

pre_error=inf;new_error=0;

count=1;tic;

while abs(pre_error-new_error)>thre

    pre_error=new_error;

    tmp=0;

    for j=1:length(Y)

        tmp=tmp+X(j,:)*(X(j,:)*beta'-Y(j,:));

    end

    beta=beta-stepsize*(tmp+lamda);

    new_error=lamda*norm(beta,1);

    for j=1:length(Y)

        new_error=new_error+(Y(j,:)-X(j,:)*beta')*(Y(j,:)-X(j,:)*beta');

    end

    fprintf('%d..%f\n',count,new_error);

    count=count+1;

end

toc;

% %%%% Proximal GD

% Loss=0.5*(y-x*beta')_2++lamda|beta|=g(x)+h(x)

% 左边可导 x_{t+1}=x_{t}-stepsize*sigma(x_i*(x_i*beta'-y_i)

% X_{t+1}=prox_{l1-norm ball}(x_{t+1})=

disp('pgd')

beta_pgd=zeros(size(r));

pre_error=inf;new_error=0;count=1;tic;

while abs(pre_error-new_error)>thre

    pre_error=new_error;

    tmp=0;

    for j=1:length(Y)

        tmp=tmp+X(j,:)*(X(j,:)*beta_pgd'-Y(j,:));

    end

    newbeta=beta_pgd-stepsize*(tmp+lamda); add=stepsize*lamda;

    pidx=newbeta>add;beta_pgd(pidx)=newbeta(pidx)-add;

    zeroidx=newbeta<abs(add);beta_pgd(zeroidx)=0;

    nidx=newbeta+add<0;beta_pgd(nidx)=newbeta(nidx)+add;

    new_error=lamda*norm(beta_pgd,1);

    for j=1:length(Y)

        new_error=new_error+(Y(j,:)-X(j,:)*beta_pgd')*(Y(j,:)-X(j,:)*beta_pgd');

    end

     fprintf('%d..%f\n',count,new_error);

     count=count+1;

end

toc;

PGD的代码说明见下图

PGD主要是projection那一步有解析解，速度快

subGradent收敛速度O(1/sqrt(T))

速度提升不明显可能是因为步长的原因。。。

关于subGradent descent和Proximal gradient descent的迭代速度的更多相关文章

Proximal Gradient Descent for L1 Regularization
[本文链接:http://www.cnblogs.com/breezedeus/p/3426757.html,转载请注明出处] 假设我们要求解以下的最小化问题: ...
Proximal Gradient Descent for L1 Regularization(近端梯度下降求解L1正则化问题)
假设我们要求解以下的最小化问题: $min_xf(x)$ 如果$f(x)$可导,那么一个简单的方法是使用Gradient Descent (GD)方法,也即使用以下的式子进行迭代求解: $x_{k+1 ...
FITTING A MODEL VIA CLOSED-FORM EQUATIONS VS. GRADIENT DESCENT VS STOCHASTIC GRADIENT DESCENT VS MINI-BATCH LEARNING. WHAT IS THE DIFFERENCE?
FITTING A MODEL VIA CLOSED-FORM EQUATIONS VS. GRADIENT DESCENT VS STOCHASTIC GRADIENT DESCENT VS MIN ...
几种梯度下降方法对比（Batch gradient descent、Mini-batch gradient descent 和 stochastic gradient descent）
https://blog.csdn.net/u012328159/article/details/80252012 我们在训练神经网络模型时,最常用的就是梯度下降,这篇博客主要介绍下几种梯度下降的变种 ...
Gradient Descent 和 Stochastic Gradient Descent（随机梯度下降法）
Gradient Descent(Batch Gradient)也就是梯度下降法是一种常用的的寻找局域最小值的方法.其主要思想就是计算当前位置的梯度,取梯度反方向并结合合适步长使其向最小值移动.通过柯 ...
Batch Gradient Descent vs. Stochastic Gradient Descent
梯度下降法(Gradient Descent)是用于最小化代价函数的方法. When $a \ne 0$, there are two solutions to \(ax^2 + bx + c = 0 ...
近端梯度算法（Proximal Gradient Descent）
L1正则化是一种常用的获取稀疏解的手段,同时L1范数也是L0范数的松弛范数.求解L1正则化问题最常用的手段就是通过加速近端梯度算法来实现的. 考虑一个这样的问题: minx f(x)+λg(x) x ...
(转) An overview of gradient descent optimization algorithms
An overview of gradient descent optimization algorithms Table of contents: Gradient descent variants ...
An overview of gradient descent optimization algorithms
原文地址:An overview of gradient descent optimization algorithms An overview of gradient descent optimiz ...

随机推荐

改进：js修改iOS微信浏览器的title
问题简介前端入门没多久,可能连入门也不算,最近网上流行各自书籍改名,什么<前端开发,从入门到放弃>,<Android开发,从入门到改行>之类的,程序员真是个爱自嘲的群体,但我 ...
php统计网站访问次数的一个简单方法
这里主要用到了session保存当前访问者,并将访问次数写入本地文件. <? @session_start(); $counter = intval(file_get_contents(&quo ...
C++ 数字转字符串
#include <sstream> string num2str( int i) { stringstream ss; ss<<i; return ss.strs(); }
oracle如何写包
一:如何使用FOR循环二:如何使用拼接语句 EXECUTE IMMEDIATE v_sql INTO v_WORK_ORDERID;三:如何定义记录类型做为变量,用于存储及查询 CREATE OR R ...
（转）ViewPager，ScrollView 嵌套ViewPager滑动冲突解决
ViewPager,ScrollView 嵌套ViewPager滑动冲突解决本篇主要讲解一下几个问题粗略地介绍一下View的事件分发机制解决事件滑动冲突的思路及方法 ScrollView 里面嵌 ...
mybatis实战教程(mybatis in action)之七：实现mybatis分页
上一篇文章里已经讲到了mybatis与spring MVC的集成,并且做了一个列表展示,显示出所有article 列表,但没有用到分页,在实际的项目中,分页是肯定需要的.而且是物理分页,不是内存分页. ...
洛谷 P3366 【模板】最小生成树 prim算法思路我自己的实现
网上有很多prim算法用邻接矩阵加什么lowcost数组我觉得不靠谱毕竟邻接矩阵本身就不是存图的好方法所以自己写了一个邻接表(边信息表)版本的注意我还是用了优先队列每次新加入一个点 ...
sklearn学习笔记2
Text classifcation with Naïve Bayes In this section we will try to classify newsgroup messages using ...
表在用时建索引要加ONLINE
因为: 源地址:https://zhidao.baidu.com/question/585392982737434725.html 一般建立索引会引起锁表,不允许进行数据更新等DML操作: 如果建立索 ...
浏览器缓存相关的Http头介绍:Expires,Cache-Control,Last-Modified,ETag
转自:http://www.path8.net/tn/archives/2745 缓存对于web开发有重要作用,尤其是大负荷web系统开发中. 缓存分很多种:服务器缓存,第三方缓存,浏览器缓存等.其中 ...

关于subGradent descent和Proximal gradient descent的迭代速度

关于subGradent descent和Proximal gradient descent的迭代速度的更多相关文章

随机推荐

热门专题