matlab实现梯度下降法(Gradient Descent)的一个例子

　　在此记录使用matlab作梯度下降法(GD)求函数极值的一个例子：

　　问题设定：

　　1. 我们有一个$n$个数据点，每个数据点是一个$d$维的向量，向量组成一个data矩阵$\mathbf{X}\in \mathbb{R}^{n\times d}$，这是我们的输入特征矩阵。

　　2. 我们有一个响应的响应向量$\mathbf{y}\in \mathbb{R}^n$。

　　3. 我们将使用线性模型来fit上述数据。因此我们将优化问题形式化成如下形式：$$\arg\min_{\mathbf{w}}f(\mathbf{w})=\frac{1}{n}\|\mathbf{y}-\mathbf{\overline{X}}\mathbf{w}\|_2^2$$

　　其中$\mathbf{\overline{X}}=(\mathbf{1,X})\in \mathbb{R}^{n\times (d+1)}$ and $\mathbf{w}=(w_0,w_1,...,w_d)^\top\in \mathbb{R}^{d+1}$

　　显然这是一个回归问题，我们的目标从通俗意义上讲就是寻找合适的权重向量$\mathbf{w}$，使得线性模型能够拟合的更好。

　　预处理：

　　1. 按列对数据矩阵进行最大最小归一化，该操作能够加快梯度下降的速度，同时保证了输入的数值都在0和1之间。$\mathbf{x}_i$为$\mathbf{X}$的第i列。 $$z_{ij}\leftarrow \frac{x_{ij}-\min(\mathbf{x}_i)}{\max(\mathbf{x}_i)-\min(\mathbf{x}_i)}$$

　　这样我们的优化问题得到了转化:$$\arg\min_{\mathbf{u}}g(\mathbf{w})=\frac{1}{n}\|\mathbf{y}-\mathbf{\overline{Z}}\mathbf{u}\|_2^2$$

　　2. 考虑对目标函数的Lipschitz constants进行估计。因为我们使用线性回归模型，Lipschitz constants可以方便求得，这样便于我们在梯度下降法是选择合适的步长。假如非线性模型，可能要用其他方法进行估计（可选）。

　　问题解决：

　　使用梯度下降法进行问题解决，算法如下：

　　我们可以看到，这里涉及到求目标函数$f$对$\mathbf{x}_k$的梯度。显然在这里，因为是线性模型，梯度的求解十分的简单：$$\nabla f(\mathbf{x}_k)=-\frac{2}{n}\mathbf{\overline{X}}^\top(\mathbf{y}-\mathbf{\overline{X}}\mathbf{u}_k)$$

　　进行思考，还有没有其他办法可以把这个梯度给弄出来？假如使用Tensorflow，Pytorch这样可以自动保存计算图的东东，那么梯度是可以由机器自动求出来的。当然在这里我是用matlab实现，暂时没有发现这样的利器，所以我认为假如在这里想求出梯度，那么我们必须要把梯度的闭式解搞出来，不然没法继续进行。

　　下面是一段matlab的代码：　　

function [g_result,u_result] = GD(N_Z,y,alpha,u0)

%GD 梯度下降法

%   Detailed explanation goes here

[n,~] = size(N_Z);

u = u0;

k = 0;

t = y-N_Z*u;

disp("g(u):");

while(合理的终止条件)

    k = k + 1;

    u = u - alpha * (-2/n)*N_Z'*t;

    t = y-N_Z*u;

    if(mod(k,10)==0)

        disp(t'*t/n);

    end

end

g_result = (y-N_Z * u)' * (y-N_Z * u)/n;

u_result = u;

end

　　当然假如初始化的时候$u_0$选择不当，而且因为没有正则项，以上的算法将会有很大的问题：梯度消失，导致优化到最后的时候非常慢。我花了好多个小时才将loss讲到0.19左右，而闭式解法能够使得loss为0.06几，运行时间也不会难以忍受。

　　问题推广：

　　在这里，我们的问题是线性模型，回归问题。能否有更广的应用？思考后认为，只要需要优化的目标是标量，且该目标函数对输入向量的梯度容易求得即可。只是因为该算法简单朴素，可能在实际应用的时候会碰见恼人的梯度消失问题。

matlab实现梯度下降法(Gradient Descent)的一个例子的更多相关文章

（3）梯度下降法Gradient Descent
梯度下降法不是一个机器学习算法是一种基于搜索的最优化方法作用:最小化一个损失函数梯度上升法:最大化一个效用函数举个栗子直线方程:导数代表斜率曲线方程:导数代表切线斜率导数可以代表方向, ...
<反向传播(backprop)>梯度下降法gradient descent的发展历史与各版本
梯度下降法作为一种反向传播算法最早在上世纪由geoffrey hinton等人提出并被广泛接受.最早GD由很多研究团队各自发表,可他们大多无人问津,而hinton做的研究完整表述了GD方法,同时hin ...
梯度下降法Gradient descent（最速下降法Steepest Descent）
最陡下降法(steepest descent method)又称梯度下降法(英语:Gradient descent)是一个一阶最优化算法. 函数值下降最快的方向是什么?沿负梯度方向 d=−gk
梯度下降(gradient descent)算法简介
梯度下降法是一个最优化算法,通常也称为最速下降法.最速下降法是求解无约束优化问题最简单和最古老的方法之一,虽然现在已经不具有实用性,但是许多有效算法都是以它为基础进行改进和修正而得到的.最速下降法是用 ...
机器学习(1)之梯度下降(gradient descent)
机器学习(1)之梯度下降(gradient descent) 题记:最近零碎的时间都在学习Andrew Ng的machine learning,因此就有了这些笔记. 梯度下降是线性回归的一种(Line ...
梯度下降(Gradient Descent)小结 -2017.7.20
在求解算法的模型函数时,常用到梯度下降(Gradient Descent)和最小二乘法,下面讨论梯度下降的线性模型(linear model). 1.问题引入给定一组训练集合(training se ...
理解梯度下降法(Gradient Decent)
1. 什么是梯度下降法? 梯度下降法(Gradient Decent)是一种常用的最优化方法,是求解无约束问题最古老也是最常用的方法之一.也被称之为最速下降法.梯度下降法在机器学习中十分常见,多用 ...
（二）深入梯度下降(Gradient Descent)算法
一直以来都以为自己对一些算法已经理解了,直到最近才发现,梯度下降都理解的不好. 1 问题的引出对于上篇中讲到的线性回归,先化一个为一个特征θ1,θ0为偏置项,最后列出的误差函数如下图所示: 手动求解 ...
CS229 2.深入梯度下降(Gradient Descent)算法
1 问题的引出对于上篇中讲到的线性回归,先化一个为一个特征θ1,θ0为偏置项,最后列出的误差函数如下图所示: 手动求解目标是优化J(θ1),得到其最小化,下图中的×为y(i),下面给出TrainS ...

随机推荐

WordPress批量更换域名
UPDATE wp_options SET option_value = replace( option_value, 'http://www.old.com', 'http://www.new.co ...
粒子群优化算法对BP神经网络优化 Matlab实现
1.粒子群优化算法粒子群算法(particle swarm optimization,PSO)由Kennedy和Eberhart在1995年提出,该算法模拟鸟集群飞行觅食的行为,鸟之间通过集体的协作 ...
Rocket - diplomacy - NodeImp
https://mp.weixin.qq.com/s/HgUpTCh0D94Uymj5qQk-ag 介绍NodeImp相关基础类的实现. 1. 类图节点实现(NodeImp ...
js基本语法和数据类型
三种引入方式: 使用JavaScript:前缀构建执行JavaScript代码使用<script></script>标签来包含JavaScript代码 <body> ...
Java实现 LeetCode 810 黑板异或游戏（分析）
810. 黑板异或游戏一个黑板上写着一个非负整数数组 nums[i] .小红和小明轮流从黑板上擦掉一个数字,小红先手.如果擦除一个数字后,剩余的所有数字按位异或运算得出的结果等于 0 的话,当前玩家 ...
Java实现 LeetCode 795 区间子数组个数（暴力分析）
795. 区间子数组个数给定一个元素都是正整数的数组A ,正整数 L 以及 R (L <= R). 求连续.非空且其中最大元素满足大于等于L 小于等于R的子数组个数. 例如 : 输入: A = ...
（Java实现）洛谷 P1028 数的计算
题目描述我们要求找出具有下列性质数的个数(包含输入的自然数nn): 先输入一个自然数n(n≤1000),然后对此自然数按照如下方法进行处理: 不作任何处理; 在它的左边加上一个自然数,但该自然数不能 ...
Java实现 LeetCode 718 最长重复子数组（动态规划）
718. 最长重复子数组给两个整数数组 A 和 B ,返回两个数组中公共的.长度最长的子数组的长度. 示例 1: 输入: A: [1,2,3,2,1] B: [3,2,1,4,7] 输出: 3 解释 ...
Java实现 LeetCode 130 被围绕的区域
130. 被围绕的区域给定一个二维的矩阵,包含 'X' 和 'O'(字母 O). 找到所有被 'X' 围绕的区域,并将这些区域里所有的 'O' 用 'X' 填充. 示例: X X X X X O O ...
SQL server怎么查找某个时间段（多个时间段）的第一个值或最后一个值（这里举例查找每小时的第一个值）（Convert详细方法）
我们就举例查找每小时第一次测量的PM2.5的值吧如下图,我们可以看出,时间非常乱,毫无规律 select min(时间) from a2 group by CONVERT(nvarchar(13), ...

matlab实现梯度下降法(Gradient Descent)的一个例子

matlab实现梯度下降法(Gradient Descent)的一个例子的更多相关文章

随机推荐

热门专题