在线最优化求解(Online Optimization)之四：RDA

不论怎样，简单截断、TG、FOBOS都还是建立在SGD的基础之上的，属于梯度下降类型的方法，这类型方法的优点就是精度比较高，并且TG、FOBOS也都能在稀疏性上得到提升。但是有些其它类型的算法，例如RDA从另一个方面来求解Online Optimization并且更有效地提升了特征权重的稀疏性。RDA（Regularized Dual Averaging）是微软十年的研究成果。RDA是Simple Dual Averaging Scheme一个扩展，由Lin Xiao发表于2010年[1]。

1. 算法原理

在RDA中，特征权重的更新策略为：

$W^{(t+1)}=arg\min_{W}\left \{ \frac{1}{2}\sum_{r=1}^{t}\left \langle G^{(t)},W \right \rangle +\Psi (W)+\frac{\beta ^{(t)}}{t}h(W)\right \}$ 公式(1)

其中 $\left \langle G^{(t)},W \right \rangle$ 表示梯度 $G^{(t)}$ 对 $W$ 的积分平均值（积分中值）； $\Psi (W)$ 为正则项； $h(W)$ 为一个辅助的严格凸函数； $\left \{ \beta ^{(t)}|t\geq 1 \right \}$ 是一个非负且非自减序列。

本质上，公式(1)中包含了3个部分：(1) 线性函数 $\frac{1}{t}\sum_{r=1}^{t}\left \langle G^{(r)},W \right \rangle$ ，包含了之前所有梯度（或次梯度）的平均值（dual average）；(2) 正则项 $\Psi (W)$ ；(3) 额外正则项 $\frac{\beta ^{(t)}}{t}h(W)$ ，它是一个严格凸函数。

2. L1-RDA

我们下面来看看在L1正则化下，RDA中的特征权重更新具有什么样的形式以及如何产生稀疏性。

令 $\Psi(W)=\lambda \left \| W \right \|_1$ ，由于 $h(W)$ 是一个关于 $W$ 的严格凸函数，不妨令 $h(W)=\frac{1}{2}\left \| W \right \|_2^2$ ，此外将非负非自减序列 $\left \{ \beta ^{(t)} |t\geq 1\right \}$ 定义为 $\beta ^{(t)}=\gamma \sqrt{t}$ ，将L1正则化代入公式(1)有：

$W^{(t+1)}=arg\min_{W}\left \{ \frac{1}{t}\sum_{r=1}^{t}\left \langle G^{(r)},W \right \rangle+\lambda \left \| W \right \|_1+\frac{\gamma }{2\sqrt{t}}\left \| W \right \|_2^2 \right \}$ 公式(2)

直接求解上式看上去非常困难，但是我们可以仿照上一篇FOBOS中采用的方法，针对特征权重的各个维度将其拆解成N个独立的标量最小化问题：

$\min_{w_i\in \mathbb{R}}\left \{ \bar{g}_i^{(t)}+\lambda \left | w_i \right |+\frac{\gamma }{2\sqrt{t}}w_i^2 \right \}$ 公式(3)

这里 $\lambda\geq 0$ ， $\frac{\gamma }{\sqrt{t}}> 0$ ； $\bar{g}_i^{(t)}=\frac{1}{2}\sum_{r=1}^{t}g_i^{(r)}$ ；公式(3)就是一个无约束的非平滑最优化问题。其中第2项 $\lambda \left | w_i \right |$ 在 $w_i=0$ 处不可导。假设 $w^*$ 是其最优解，并且定义 $\xi \in \partial \left | w_i^* \right |$ 为 $\left | w_i \right |$ 在 $w^*$ 的次导数，那么有：

$\partial \left | w_i^* \right |=\left\{\begin{matrix} \left \{ -1< \xi <1 \right \} & if\ w_i^*=0\\ \left \{ 1 \right \} & if\ w_i^*>0\\ \left \{ -1 \right \} & if\ w_i^*<0 \end{matrix}\right.$ 公式(4)

如果对公式(3)求导（求次导数）并等于0，则有：

$\bar{g}_i^{(t)}+\lambda \xi + \frac{\gamma }{\sqrt{t}}w_i=0$ 公式(5)

由于 $\lambda > 0$ ，我们针对公式(5)分三种情况进行讨论：

-------------------------------------

(1) 当 $\left | \bar{g}_i^{(t)} \right |< \lambda$ 时：

还可以分为三种情况：

(a) 如果 $w_i^*=0$ ，由公式(5)可得 $\xi=\frac{-\bar{g}_i^{(t)}}{\lambda}\in \partial \left | 0 \right |$ ，满足公式(4)

(b) 如果 $w_i^*>0$ ，由公式(4)可得 $\xi=1$ ，那么有 $\bar{g}_i^{(t)}+\lambda+\frac{\gamma }{\sqrt{t}}w_i>\bar{g}_i^{(t)}+\lambda\geq 0$ ，不满足公式(5)

(c) 如果 $w_i^*<0$ ，由公式(4)可得 $\xi =-1$ ，那么有 $\bar{g}_i^{(t)}-\lambda+\frac{\gamma }{\sqrt{t}}w_i<\bar{g}_i^{(t)}-\lambda \leq 0$ ，不满足公式(5)

所以，当 $\left | \bar{g}_i^{(t)} \right |< \lambda$ 时， $w_i^*=0$

(2) 当 $\bar{g}_i^{(t)}> \lambda$ 时：

采用相同的分析方法可以得到 $w_i^*<0$ ，此时 $\xi=-1$ ，即： $w_i^*=-\frac{\sqrt{t}}{\gamma }(\bar{g}_i^{(t)}-\lambda)$

(3) 当 $\bar{g}_i^{(t)}< -\lambda$ 时：

采用相同的分析方法可以得到 $w_i^*>0$ ，此时 $\xi=1$ ，即： $w_i^*=-\frac{\sqrt{t}}{\gamma }(\bar{g}_i^{(t)}+\lambda)$

--------------------------------------

综合上面的分析，可以得到L1-RDA特征权重的各个维度更新的方式为：

$w_i^{(t+1)}=\left\{\begin{matrix} 0 & if\ \left | \bar{g}_i^{(t)} \right |<\lambda\\ -\frac{\sqrt{\lambda}}{\gamma }\left ( \bar{g}_i^{(t)}-\lambda sgn(\bar{g}_i^{(t)}) \right ) & otherwise \end{matrix}\right.$ 公式(6)

这里我们发现，当某个维度上累积梯度平均值的绝对值 $\left | \bar{g}_i^{(t)} \right |$ 小于阈值 $\lambda$ 的时候，该维度权重将被置 $0$ ，特征权重的稀疏性由此产生。

根据公式(6)，可以设计出L1-RDA的算法逻辑为：

3. L1-RDA与FOBOS的比较

在上一篇博文中中我们看到了L1-FOBOS实际上是TG的一种特殊形式，在L1-FOBOS中，进行“截断”的判定条件是 $\left | w_i^{(t)} - \eta ^{(t)}g_i^{(t)} \right |\leq \lambda_{TG}^{(t)}=\eta ^{(t+\frac{1}{2})}\lambda$ 。通常会定义 $\eta$ 为 $\frac{1}{\sqrt{t}}$ 的正相关函数（ $\eta = \Theta (\frac{1}{\sqrt{t}})$ ），因此L1-FOBOS的“截断阈值”为 $\Theta (\frac{1}{\sqrt{t}}) \lambda$ ，随着 $t$ 的增加，这个阈值会逐渐降低。

相比较而言，从公式(6)可以看出，L1-RDA的“截断阈值”为 $\lambda$ ，是一个常数，并不随着 $t$ 而变化，因此可以认为L1-RDA比L1-FOBOS在截断判定上更加aggressive，这种性质使得L1-RDA更容易产生稀疏性；此外，RDA中判定对象是梯度的累加平均值 $\bar{g}_i^{(t)}$ ，不同于TG或L1-FOBOS中针对单次梯度计算的结果进行判定，避免了由于某些维度由于训练不足导致截断的问题。并且通过调节 $\lambda$ 一个参数，很容易在精度和稀疏性上进行权衡。

参考文献

[1] Lin Xiao. Dual Averaging Methods for Regularized Stochastic Learning and Online Optimization. Journal of Machine Learning Research, 2010