3月份以来的科研基本围绕推导代理损失函数的一致界展开,证明现已基本完工(关于代理损失函数的一致界的介绍可参见之前的博客《学习理论:预测器-拒绝器多分类弃权学习》)。导师建议我可以的话把泛化界也一起证了╰( ̄▽ ̄)╭。由于认识有搞过泛化的朋友,许多东西尽管没有亲自上手做但早已“耳濡目染”了,比如集中不等式这些。这篇博客旨在就代理损失函数的泛化界证明流程进行初步的介绍,并穿插介绍一些学习理论、高维概率中常用的概念。

1 导引

首先,回顾一下多分类弃权学习的基本设置。假设带标签样本集\(S=((x_1, y_1), \cdots, (x_m, y_m))\)中的每个样本\((x_i, y_i)\)都独立同分布地采自\(\mathcal{D}\),记\(S\sim \mathcal{D}^m\),且有\((x_i, y_i)\in \mathcal{X}\times \mathcal{Y}\)(标签\(\mathcal{Y} = \{1, \cdots, n\}\)(\(n\geqslant 2\)))。

针对多分类问题的预测器-拒绝器弃权损失[1]\(L_{\text{abst}}\)定义如下(这里默认采用单阶段的训练设置):

\[L_{\text{abst}}(h, r, x, y) = \underbrace{\mathbb{I}_{\text{h}(x) \neq y}\mathbb{I}_{r(x) > 0}}_{\text{不弃权}} + \underbrace{c \mathbb{I}_{r(x)\leqslant 0}}_{\text{弃权}}
\]

,\((h, r)\in \mathcal{H}\times\mathcal{R}\)为预测器-拒绝器对(\(\mathcal{H}\)和\(\mathcal{R}\)为两个从\(\mathcal{X}\)到\(\mathbb{R}\)的函数构成的函数族),\(\text{h}(x) = \underset{y\in \mathcal{Y}}{\text{arg max}}\space {h(x)}_y\)直接输出实例\(x\)的预测标签。假设\(c\in (0, 1)\)为一个常数。

在之前的博客中我们提到过,设\(\mathcal{l}\)为在标签\(\mathcal{Y}\)上定义的0-1多分类损失的代理损失,则我们可以在此基础上进一步定义弃权代理损失\(L\):

\[L(h, r, x, y) = \mathcal{l}(h, x, y)\phi(-\alpha r(x)) + c \phi(\beta r(x))
\]

不过这里为了进一步简化分析,我们规定这里的拒绝器\(r\)不再是学出来的,而是直接根据下列公式计算而得[2]

\[r(x) = \max_{y\in \mathcal{Y}} \left[\Psi^{-1}(h(x))\right]_y - (1 - c)
\]

这里\(\Psi: [0, 1]^n\rightarrow \mathbb{R^n}\)定义为将数据的条件概率分布向量\(\left(\begin{matrix}
p(Y=1\mid x)\\
\vdots\\
p(Y=n\mid x)
\end{matrix}\right)\in [0, 1]^n\)映射到最优预测器输出向量\(\left(\begin{matrix}
h(x)_1\\
\vdots\\
h(x)_n
\end{matrix}\right)\in \mathbb{R}^n\)的函数。那么\(\Psi^{-1}\)就反之,根据最优预测器输出向量给出数据条件概率分布向量的预测值。将\(r(x)\)与贝叶斯最优拒绝器\(r^*(x) = \max_{y\in \mathcal{Y}}p(y\mid x) - (1 - c)\)的公式进行对比可以更好地对其进行理解)。

于是,弃权代理损失函数可以直接等价于在标签\(\mathcal{Y}\)上定义的0-1多分类损失的代理损失\(\mathcal{l}\),下面我们以一对多(one-versus-all, OVA) 损失为例进行分析

\[L(h, x, y) = \mathcal{l}(h, x, y) = \phi(h(x)_y) + \sum_{y^{\prime}\neq y}\phi(-h(x)_{y^{\prime}})
\]

其中\(\phi(\cdot)\)为间隔损失(margin loss)(做为\(z \mapsto \mathbb{I}_{z \leqslant 0}\)的上界),可以设置为\(\phi(z) = \exp(-z)\)、\(\phi(z) = \log(1 + \exp(-z))\)等等。对于一对多损失而言,\(\Psi^{-1}\)的计算公式为\(\left[\Psi^{-1}(h(x))\right]_y = \frac{\phi^{\prime}(-h(x))_y}{\phi^{\prime}(-h(x))_y + \phi^{\prime}(h(x))_y}\)。

对于目标损失\(L_{\text{abst}}\)和代理损失\(L\)而言,可分别定义\(L_{\text{abst}}\)-期望弃权损失\(R_{L_{\text{abst}}}(h, r)\)(也即目标损失函数的泛化误差)和\(L\)-期望弃权代理损失\(R_{L}(h, r)\)(也即代理损失函数的泛化误差)如下:

\[R_{L_{\text{abst}}}(h, r) = \mathbb{E}_{(x, y)\sim \mathcal{D}}\left[L_{\text{abst}}(h, r, x, y)\right], \quad R_{L}(h) = \mathbb{E}_{(x, y)\sim \mathcal{D}}\left[L(h, x, y)\right]
\]

\(R_{L_{\text{abst}}}(h, r)\)和\(R_{L}(h, r)\)在所有可测函数构成的集合上取得的下确界分别记为:

\[R^*_{L_\text{abst}} = \inf_{h, r}R_{L_{\text{abst}}}(h, r), \quad R_{L}^* = \inf_{h}R_{L}(h)
\]

这被称为贝叶斯最优误差(Bayes-optimal error),此时对应的分类器记为\(h^*, r^*\)。

贝叶斯一致性(Bayes-consistency) [3][4]定义这样一种损失函数,这种损失函数能够确保风险最小化的预测器能够成为贝叶斯最优分类器。进一步地,代理损失函数的贝叶斯一致性是指随着训练数据规模\(m\rightarrow \infty\),基于训练样本学到的一系列输出函数\(\hat{h}_1, \hat{h}_2, \cdots, \hat{h}_m\)满足下列关系:

\[R_L(\hat{h}_m) \xrightarrow{m\rightarrow \infty} R_L^{*} \quad \Longrightarrow \quad R_{L_{\text{abst}}}(\hat{h}, r) \xrightarrow{m\rightarrow \infty} R_{L_{\text{abst}}}^{*}
\]

从上式中可以看到,想要刻画代理损失函数的贝叶斯一致性,就需要界定\(R_L(\hat{h}) - R_L^{*}\),而这项差距可以进一步做如下分解[5]

\[R_L(\hat{h}) - R_L^{*} = \underbrace{\left(R_L(\hat{h}) - R_L^*(\mathcal{H})\right)}_{\text{excess error}\geqslant 0} + \underbrace{\left(R_L^*(\mathcal{H}) - R_L^{*}\right)}_{\text{approximation error}\geqslant 0}
\]

其中\(R_L^*(\mathcal{H}) = \inf_{\mathcal{h\in H}}R_L(h)\)为假设类最优(best-in-class)误差,对应的假设类最优假设记为\(h^{\circ}\),假设类最优误差也可以记为\(R_L(h^{\circ})\)

  • 第一项差值被称为超额误差(excess error),它衡量了一个模型和假设类最优的模型之间的差距。

  • 第二项差值是逼近误差(approximation error),代表了假设类\(\mathcal{H}\)在多大程度上涵盖了贝叶斯最优分类器\(h^*\),刻画了模型的表达能力。

当定义超额误差时,往往需要定义是超过什么的误差。这里默认超额误差以假设类的最优误差为基准,即\(R_L(\hat{h}) - \inf_{\mathcal{h\in H}}R_L(h)\);也有论文定义的超额误差以贝叶斯最优误差为基准,即\(R_L(\hat{h}) - R_L^*\),然后将我们上面所定义的超额误差称为估计误差(estimation error) [2][6]

若假设假设类和拒绝函数类为所有可测函数构成的集合,即\(\mathcal{H} = \mathcal{H}_{\text{all}}, \mathcal{R} = \mathcal{R}_{\text{all}}\),则上式中第二项逼近误差等于0,于是若证明以下代理损失函数的超额误差界(excess error bound) 成立,则可以直接通过取极限操作得到贝叶斯一致性:

\[\underbrace{R_{L_{\text{abst}}}(h, r) - R_{L_{\text{abst}}}^*(\mathcal{H}_{\text{all}}, \mathcal{R}_{\text{all}})}_{\text{target excess error}} \leqslant \Gamma \underbrace{\left(R_L(h) - R_L^*(\mathcal{H}_{\text{all}})\right)}_{\text{surrogate excess error}}
\]

其中\(R_L^*(\mathcal{H}_{\text{all}}) = \inf_{\mathcal{h}}R_L(h) = R_L^{*}\)。\(\Gamma: \mathbb{R}_{+}\rightarrow \mathbb{R}_{+}\)为满足属性\(\lim_{t\rightarrow 0^{+}}\Gamma (t) = 0\)的非递减函数。这也是我们在博客《学习理论:预测器-拒绝器多分类弃权学习》)中提到过的内容。在这篇博客中,让我们把注意力转移一个新的方向——代理损失函数的泛化误差界(generalization error gap)

2 泛化误差界

机器学习理论的一大目标就是最小化超额误差\(R_L(\hat{h}) - R_L^{*}(\mathcal{H})\),然而\(\hat{h}\)做为\(h^*\)的估计值,是最小化如下所示的经验误差(泛化误差的近似)[7]来获得的:

\[\widehat{R}_L(h) = \mathbb{E}_{(x, y)\sim S}\left[L(h, x, y)\right] = \frac{1}{m}\sum_{i=1}^m L(h, x_i, y_i)
\]

其中\((x, y)\sim S\)表示\((x, y)\)采自样本集\(S\)定义的经验分布。这也就是说\(\hat{h} = \inf_{h\in \mathcal{H}}\hat{R}_{L}(h)\)。这也就意味着\(\hat{h}\)并不能保证最小化泛化误差\(R_L(\hat{h})\),自然也就无法保证最小化超额误差了。

于是,考虑对超额误差进行进一步的分解[5]

\[\begin{aligned}
& R_L(\hat{h}) - R_L^{*}(\mathcal{H}) \\
&= R_L(\hat{h}) - R_L(h^{\circ}) \quad (h^{\circ} = \text{arg min}_{\mathcal{h\in H}}R_L(h))\\
&= \underbrace{\left(R_L(\hat{h}) - \widehat{R}_L(\hat{h})\right)}_{\text{generalization gap}\geqslant 0} + \underbrace{\left(\widehat{R}_L(\hat{h}) - \widehat{R}_L(h^{\circ})\right)}_{\text{training error} \leqslant 0 \text{ or } \geqslant 0} + \underbrace{\left(\widehat{R}_L(h^{\circ}) - R_L(h^{\circ})\right)}_{\text{small term} \geqslant 0}
\end{aligned}
\]
  • 第一项差值\(R_L(\hat{h}) - \widehat{R}_L(\hat{h})\)被称为泛化差距(generalization gap),刻画了学习算法输出假设的泛化能力。证明学习算法的泛化界(generalization bound) 即为证明其泛化差距被某个大致形如\(\epsilon = \mathcal{O}(\frac{\mathcal{C}(\mathcal{H})}{m})\)的项给界定,其中\(\mathcal{C}(\mathcal{H})\)为假设空间\(\mathcal{H}\)的模型复杂度,\(m\)为样本个数。按照经典统计学习理论,一般假设空间\(\mathcal{H}\)的模型复杂度越低,样本个数\(m\)越多,学习算法的泛化性能越好。

    上述理论在深度学习中不一定适用。在深度学习理论中会出现所谓的双下降(double descent),过参数化模型的泛化性能也可能很好,感兴趣的同学可以查看B站南大大佬的视频JOJO想:深度学习中的泛化理论 (9)良性过拟合[8]

  • 第二项差值\(\underbrace{\widehat{R}_L(\hat{h}) - \widehat{R}_L(h^{\circ})}_{\leqslant 0} \leqslant \underbrace{\widehat{R}_L(\hat{h}) - \inf_{h}\widehat{R}_L(h)}_{\geqslant 0}\)和模型的训练误差有关,刻画了训练算法的优化能力。当\(\hat{h}\)能够最小化训练误差,也即\(\widehat{R}_L(\hat{h}) = \inf_{h}\widehat{R}_L(h)\)时,这一项一定\(\leqslant 0\)。

  • 第三项差值\(\widehat{R}(h^{\circ}) - R(h^{\circ})\)一般是一个很小的项,我们称之为“小项”,也可以被界定。

观察上述分解,可以发现泛化差距\(R_L(\hat{h}) - \widehat{R}_L(\hat{h})\)和“小项”\(\widehat{R}(h^{\circ}) - R(h^{\circ})\)具有相似的形式,都可以写成\(R_L(\cdot)\)和\(\widehat{R}(\cdot)\)之间关于某个假设\(h\)的差值。而这个差值可以被界定如下(以泛化差距为例,“小项”同理):

\[\begin{aligned}
R_L(\hat{h}) - \widehat{R}_L(\hat{h}) \leqslant \sup_{h\in \mathcal{H}}\lvert \widehat{R}_L(h) - R_L(h)\lvert
\end{aligned}
\]

若能证明当\(n\rightarrow \infty\)时,\(\sup_{h\in \mathcal{H}}\lvert \widehat{R}(h) - R_L(h)\rvert\rightarrow 0\)(比如该上确界被某个大致形如\(\epsilon = \mathcal{O}(\frac{\mathcal{C}(\mathcal{H})}{\sqrt{m}})\)或\(\mathcal{O}(\frac{\mathcal{C}(\mathcal{H})}{m})\)的项给控制),则我们称假设类\(\mathcal{H}\)是一致收敛(uniform convergence)[9][10]

注意这里一致收敛的“一致”对应的英文是“uniform”,而我们之前提到过的损失函数一致性的“一致性”对应的英文是“consistency”。

\(\sup_{h\in \mathcal{H}}\lvert \widehat{R}_L(h) - R_L(h)\lvert\)可以视为假设\(h\in \mathcal{H}\)做为下标索引的随机过程的量纲(magnitude),这种随机过程称为经验过程[11]

定义 1 (经验过程)假设类\(\mathcal{H}\)上的经验过程(empirical process)\(\{X_h\}_{h\in \mathcal{H}}\)定义为:

\[X_{h} := \widehat{R}_L(\hat{h}) - R_L(\hat{h})
\]

于是,证明泛化界的问题便转化为了证明经验过程有界(比如\(\sup_{h\in \mathcal{H}}\lvert \widehat{R}_L(h) - R_L(h)\lvert < \epsilon = \mathcal{O}(\frac{\mathcal{C}(\mathcal{H})}{\sqrt{m}})\))的问题。

3 经验过程的Rademacher复杂度上界

对于一对多代理损失\(L(h, x, y) = \phi\left(h(x)_y\right) + \sum_{y^{\prime}\neq y}\phi\left(-h(x)_{y^{\prime}}\right)\),以及定义在其上的经验过程\(X_{h} := \widehat{R}_L(\hat{h}) - R_L(\hat{h}), h\in \mathcal{H}\),我们有下列定理[2]成立:

定理 1 对任意\(\delta > 0\),至少以\(1 - \delta\)的概率有

\[\sup_{h\in \mathcal{H}}\lvert \widehat{R}_L(h) - R_L(h)\lvert \leqslant 4 n C_{\phi} \mathfrak{R}_S(\mathcal{H}) + M_{\phi} \sqrt{\frac{8\log \frac{2}{\delta}}{m}}
\]

其中\(n\)为标签类别数,\(C_{\phi}\)为函数\(\phi(\cdot)\)的Lipschitz常数(假设\(\phi(\cdot)\)满足Lipschitz连续),\(\mathfrak{R}(\mathcal{H}\circ \mathcal{S})\)为定义在样本集\(S\)上的假设类\(\mathcal{H}\)的Rademacher复杂度,\(M_{\phi} = \sup_{x\in \mathcal{X}, h\in \mathcal{H}}\phi(h(x))\)。下面先介绍Rademacher复杂度的定义。

定义 2 (Rademacher复杂度) 设样本集\(S = (z_1, z_2, \cdots, z_m)\)中的每个样本都独立同分布地采自分布\(\mathcal{D}\),\(\mathcal{F}=\{f: \mathcal{Z}\rightarrow \mathbb{R}\}\)为可测函数类。则\(\mathcal{F}\)关于样本集\(S\)的Rademacher复杂度[3]定义为

\[\mathfrak{R}_S(\mathcal{H}) = \mathbb{E}_{S}\mathbb{E}_{\sigma\sim \{\pm 1\}^m}\left[\sup_{f\in \mathcal{F}}\frac{1}{m}\sum_{i=1}^m \sigma_i f(z_i)\right]
\]

其中\(\sigma = (\sigma_1, \cdots, \sigma_m)\in \{\pm 1\}^m\)为随机向量,其中每个元素都独立同分布地采自\(\{-1, +1\}\)。

为了证明定理 1,我们会先展示一个引理,该引理关联了假设类\(\mathcal{H}\)和代理损失函数类\(\mathcal{L}\)的Rademacher复杂度。现定义代理损失函数类\(\mathcal{L}\)为

\[\mathcal{L} = \left\{(x, y)\rightarrow L(h, x, y)\mid h\in \mathcal{H}\right\}
\]

其中\(L\in \mathcal{L}\)是间隔损失\(\phi(\cdot)\)和假设\(h(\cdot)\)的复合,记\(\mathcal{L} = \mathcal{\phi}\circ \mathcal{H}\)。

则有下列引理[2]成立:

引理 1 设\(\mathfrak{R}_S(\mathcal{L})\)为\(\mathcal{L}\)关于样本集\(S\)的Rademacher复杂度,\(\mathfrak{R}_S(\mathcal{H})\)为\(\mathcal{H}\)关于样本集\(S\)的Rademacher复杂度,则我们有\(\mathfrak{R}_S(\mathcal{L})\leqslant 2 n C_{\phi} \mathfrak{R}_S(\mathcal{H})\)。

引理 1的证明 按照定义,可以将\(\mathfrak{R}_S(\mathcal{L})\)界定如下:

\[\begin{aligned}
\mathfrak{R}_S(\mathcal{L}) &= \mathbb{E}_S\mathbb{E}_{\sigma}\left[\sup_{L\in \mathcal{L}}\frac{1}{m}\sum_{i=1}^m \sigma_i L(x, y, h)\right] \\
&= \mathbb{E}_S\mathbb{E}_{\sigma}\left[\sup_{h\in \mathcal{H}}\frac{1}{m}\sum_{i=1}^m \sigma_i \left(\phi\left(h(x_i)_{y_i}\right) + \sum_{y^{\prime}\neq y_i}\phi\left(-h(x_i)_{y^{\prime}}\right)\right)\right]\\
&= \mathbb{E}_S\mathbb{E}_{\sigma}\left[\sup_{h\in \mathcal{H}}\left(\frac{1}{m}\sum_{i=1}^m \sigma_i \phi\left(h(x_i)_{y_i}\right) + \frac{1}{m}\sum_{i=1}^m \sigma_i \sum_{y^{\prime}\neq y_i}\phi\left(-h(x_i)_{y^{\prime}}\right)\right)\right]\\
&\leqslant \underbrace{\mathbb{E}_S\mathbb{E}_{\sigma}\left[\sup_{h\in \mathcal{H}}\frac{1}{m}\sum_{i=1}^m \sigma_i \phi\left(h(x_i)_{y_i}\right)\right]}_{(A)} + \underbrace{\mathbb{E}_S\mathbb{E}_{\sigma} \left[\sup_{h\in \mathcal{H}}\frac{1}{m}\sum_{i=1}^m \sigma_i \sum_{y^{\prime}\neq y_i}\phi\left(-h(x_i)_{y^{\prime}}\right)\right]}_{(B)}
\end{aligned}
\]

其中最后一行不等式我们使用了\(\sup(\cdot)\)函数的次可加性(sub-additivity):\(\sup(x + y)\leqslant \sup(x) + \sup(y)\)。接下来我们尝试界定上述两项。设\(\alpha_i = 2\mathbb{I}_{y\neq y_i} - 1\),可以将第一项\((A)\)界定如下:

\[\begin{aligned}
(A) &= \mathbb{E}_S\mathbb{E}_{\sigma}\left[\sup_{h\in \mathcal{H}}\frac{1}{m}\sum_{i=1}^m \sigma_i \phi\left(h(x_i)_{y_i}\right)\right]\\
&= \mathbb{E}_S\mathbb{E}_{\sigma}\left[\sup_{h\in \mathcal{H}}\frac{1}{2m}\sum_{i=1}^m \sigma_i \sum_y \phi\left(h(x_i)_{y}\right) (\alpha_i + 1)\right] \\
&\leqslant \mathbb{E}_S\mathbb{E}_{\sigma}\left[\sup_{h\in \mathcal{H}}\frac{1}{2m}\sum_{i=1}^m \sigma_i \sum_y \phi\left(h(x_i)_{y}\right)\alpha_i \right] + \mathbb{E}_S\mathbb{E}_{\sigma}\left[\sup_{h\in \mathcal{H}}\frac{1}{2m}\sum_{i=1}^m \sigma_i \sum_y \phi\left(h(x_i)_{y}\right) \right] \\
&\quad (\text{sub-additivity of} \sup(\cdot))\\
&= \mathbb{E}_S\mathbb{E}_{\sigma}\left[\sup_{h\in \mathcal{H}}\frac{1}{2m}\sum_{i=1}^m \alpha_i\sigma_i \sum_y \phi\left(h(x_i)_{y}\right) \right] + \mathbb{E}_S\mathbb{E}_{\sigma}\left[\sup_{h\in \mathcal{H}}\frac{1}{2m}\sum_{i=1}^m \sigma_i \sum_y \phi\left(h(x_i)_{y}\right) \right] \\
&= \mathbb{E}_S\mathbb{E}_{\sigma}\left[\sup_{h\in \mathcal{H}}\frac{1}{m}\sum_{i=1}^m \sigma_i \sum_y \phi\left(h(x_i)_{y}\right) \right] (\alpha_i\sigma_i \text{ has the same distribution as } \sigma_i)\\
&\leqslant \sum_y \mathbb{E}_S\mathbb{E}_{\sigma}\left[\sup_{h\in \mathcal{H}}\frac{1}{m}\sum_{i=1}^m \sigma_i \phi\left(h(x_i)_{y}\right) \right] (\text{sub-additivity of} \sup(\cdot))\\
&= n \mathfrak{R}_S(\phi\circ \mathcal{H})
\end{aligned}
\]

其中\(n\)是类别个数。与\((A)\)项类似,\((B)\)项也可以被$ \mathfrak{R}_S(\phi\circ \mathcal{H})$界定。

于是,我们可以将\(\mathcal{L}\)关于样本集\(S\)的Rademacher复杂度界定如下:

\[\mathfrak{R}_S(\mathcal{L}) \leqslant \underbrace{2 n \mathfrak{R}_S(\phi \circ \mathcal{H}) \leqslant 2 n C_{\phi} \mathfrak{R}_S(\mathcal{H})}_{\text{Talagrand contraction principle}}
\]

最后一个不等式根据如下的Talagrand压缩原理[12]得到:

引理 2 (Talagrand压缩原理) 设\(\phi: \mathbb{R}\rightarrow \mathbb{R}\)为\(C_{\phi}\)-Lipschitz函数,则

\[ \mathfrak{R}_S(\phi\circ\mathcal{H}) \leqslant C_{\phi}\mathfrak{R}_S(\mathcal{H})
\]

其中\(\phi\circ \mathcal{H} = \{z\mapsto \phi(h(z)): h\in \mathcal{H}\}\)。

其次,我们介绍一个经验过程的单侧上界关于训练样本\(S\)的期望的重要结论[9],该结论将经验过程的单侧上界与Rademacher复杂度联系了起来。

引理 3

\[\mathbb{E}_{S}\left[\sup_{h\in \mathcal{H}} \left(\widehat{R}_L(h) - R_L(h)\right)\right] \leqslant 2\mathfrak{R}_S(\mathcal{L})
\]

这个引理的证明会用到一种称之为对称化(symmetrization) 的技术,大致为引入辅助样本集\(S^{\prime}\)并以此将泛化误差\(R_L(h)\)限制到\(S^{\prime}\)上(类似测试集),并利用\(S\)和\(S^{\prime}\)样本集的对称性来在保持期望不变的前提下完成\(\sigma(\cdot)\)函数的引入(这也是为何不等式左边有个期望\(\mathbb{E}_S[\cdot]\)),详细证明可参阅《Understanding machine learning: From theory to algorithms》Ch.26 [9]

有了这些引理,我们可以接下来可以开始正式证明定理 1了。

下面再将定理 1再贴一遍:对任意\(\delta > 0\),至少以\(1 - \delta\)的概率有

\[\sup_{h\in \mathcal{H}}\lvert \widehat{R}_L(h) - R_L(h)\lvert \leqslant 4 n C_{\phi} \mathfrak{R}_S(\mathcal{H}) + M_{\phi} \sqrt{\frac{8\log \frac{2}{\delta}}{m}}
\]

定理 1的证明 上述不等式是经验过程的双侧界,只需讨论与\(\sup_{h\in \mathcal{H}}\left(\widehat{R}_L(h) - R_L(h)\right)\)相关的单侧界至少以概率\(1 - \frac{\delta}{2}\)成立即可。

记\(A(z_1, \cdots, z_m) = \sup_{h\in \mathcal{H}}\left(\widehat{R}_L(h) - R_L(h)\right)\),通过引理 3,我们已经知道\(
\mathbb{E}_{S}\left[A(z_1, \cdots, z_m)\right] \leqslant 2\mathfrak{R}_S(\mathcal{L})
\)成立。现在我们需要考虑\(A(z_1, \cdots, z_m)\)的界,那么如果我们可以证明有界变差条件[6][7]\(\left|A(z_1, \cdots, z_m) - A(z_1, \cdots, z_i^{'}, \cdots, z_m)\right|\leqslant c\)(也即将参数中的任意一项\(z_i = (x_i, y_i)\)被与训练集独立同分布的\(z_i^{\prime} = (x^{\prime}_i, y_i^{\prime})\)替换后,函数值的变化量被常数\(c\)界定),那么就可以考虑应用McDiarmid不等式得到

\[ A(z_1, \cdots, z_m) \leqslant \mathbb{E}_{S}\left[A(z_1, \cdots, z_m)\right] + c\sqrt{\frac{m}{2}\log (\frac{1}{\delta}))}
\]

以\(1 - \delta\)概率成立。

那么我们先尝试界定变差:

\[\begin{aligned}
&A(z_1, \cdots, z_m) - A(z_1, \cdots, z_i^{'}, \cdots, z_m)\\
&= \sup_{h\in \mathcal{H}}\left[\frac{1}{m}\sum_{j=1}^mL(h, x_j, y_j) - \mathbb{E}_{\mathcal{D}}\left[L(h, x, y)\right]\right]\\
&\quad \space - \sup_{h\in \mathcal{H}}\left[\frac{1}{m}L(h^{\prime}, x_i^{\prime}, y_i^{\prime}) + \frac{1}{m}\sum_{j\in [m]\backslash\{i\}}L(h^{\prime}, x_j, y_j)\\
- \mathbb{E}_{\mathcal{D}}\left[L(h^{\prime}, x, y)\right]\right]\\
&= \sup_{h\in \mathcal{H}}\inf_{h^{\prime}\in \mathcal{H}}\left[\frac{1}{m}\sum_{j=1}^mL(h, x_j, y_j) - \mathbb{E}_{\mathcal{D}}\left[L(h, x, y)\right]\right.\\
&\quad \space \left.- \frac{1}{m}L(h^{\prime}, x_i^{\prime}, y_i^{\prime}) - \frac{1}{m}\sum_{j\in [m]\backslash\{i\}}L(h^{\prime}, x_j, y_j)
+ \mathbb{E}_{\mathcal{D}}\left[L(h^{\prime}, x, y)\right]\right]\\
&\leqslant \sup_{h\in \mathcal{H}}\left[\frac{1}{m}\sum_{j=1}^mL(h, x_j, y_j) - \mathbb{E}_{\mathcal{D}}\left[L(h, x, y)\right]\right.\\
&\quad \space \left.- \frac{1}{m}L(h, x_i^{\prime}, y_i^{\prime}) - \frac{1}{m}\sum_{j\in [m]\backslash\{i\}}L(h, x_j, y_j)
+ \mathbb{E}_{\mathcal{D}}\left[L(h, x, y)\right]\right]\\
&= \sup_{h\in \mathcal{H}}\left[\frac{1}{m}L(h, x_i, y_i) - \frac{1}{m}L(h, x^{\prime}_i, y^{\prime}_i)\right]\\
&= \frac{1}{m}\sup_{h\in \mathcal{H}}\left[\phi\left(h(x_i)_{y_i}\right) + \sum_{y^{\prime}\neq y_i}\phi\left(-h(x_i)_{y^{\prime}}\right) - \phi\left(h(x_i^{\prime})_{y^{\prime}}\right) - \sum_{y^{\prime\prime}\neq y_i^{\prime}}\phi\left(-h(x_i^{\prime})_{y^{\prime\prime}}\right)\right]\\
&= \frac{1}{m}\sup_{h\in \mathcal{H}}\left[\phi\left(h(x_i)_{y_i}\right) + \phi\left(-h(x_i)_{y_i^{\prime}}\right) - \phi\left(h(x_i^{\prime})_{y_i^{\prime}}\right) - \phi\left(-h(x_i^{\prime})_{y_i}\right)\right]\\
&\leqslant \frac{4M_{\phi}}{n}
\end{aligned}
\]

于是\(c = \frac{4M_{\phi}}{n}\)。接着,应用McDiarmid不等式并结合引理 3、引理 1可知

\[\begin{aligned}
\sup_{h\in \mathcal{H}}\left(\widehat{R}_L(h) - R_L(h)\right) &\leqslant \mathbb{E}_{S}\left[\sup_{h\in \mathcal{H}}\left(\widehat{R}_L(h) - R_L(h)\right)\right] + c\sqrt{\frac{m}{2}\log (\frac{1}{\delta}))}\\
&\leqslant 2\mathfrak{R}_S(\mathcal{L}) + M_{\phi}\sqrt{\frac{8\log (\frac{1}{\delta})}{m}} \quad (\text{Lemma } 3)\\
&\leqslant 4 n C_{\phi} \mathfrak{R}_S(\mathcal{H})+ M_{\phi}\sqrt{\frac{8\log (\frac{1}{\delta})}{m}} \quad (\text{Lemma } 1)
\end{aligned}
\]

对任意\(\delta > 0\),至少以\(1 - \delta\)的概率成立。用\(\frac{\delta}{2}\)直接变量替换掉\(\delta\)有:\(\sup_{h\in \mathcal{H}}\left(\widehat{R}_L(h) - R_L(h)\right)\leqslant 4 n C_{\phi} \mathfrak{R}_S(\mathcal{H})+ M_{\phi}\sqrt{\frac{8\log (\frac{2}{\delta})}{m}}\)至少以\(1 - \frac{\delta}{2}\)的概率成立。于是对于双侧界,我们有:

\[\sup_{h\in \mathcal{H}}\lvert \widehat{R}_L(h) - R_L(h)\lvert \leqslant 4 n C_{\phi} \mathfrak{R}_S(\mathcal{H}) + M_{\phi} \sqrt{\frac{8\log \frac{2}{\delta}}{m}}
\]

对任意\(\delta > 0\),至少以\(1 - \delta\)的概率成立。定理得证。

于是,我们在第2部分提到的泛化差距\(R_L(\hat{h}) - \widehat{R}_L(\hat{h})\)和“小项”\(\widehat{R}(h^{\circ}) - R(h^{\circ})\)都可以被界定了。例如,泛化差距可以被界定如下:

\[R_L(\hat{h}) - \widehat{R}_L(\hat{h})\leqslant \sup_{h\in \mathcal{H}}\lvert \widehat{R}_L(h) - R_L(h)\lvert \leqslant 8 n C_{\phi} \mathfrak{R}_S(\mathcal{H}) + 4 M_{\phi} \sqrt{\frac{2\log \frac{2}{\delta}}{m}}
\]

至此,代理损失函数的泛化界得证。

参考

学习理论:代理损失函数的泛化界与Rademacher复杂度的更多相关文章

  1. 代理损失函数(surrogate loss function)

    Surrogate loss function,中文可以译为代理损失函数.当原本的loss function不便计算的时候,我们就会考虑使用surrogate loss function. 在二元分类 ...

  2. 机器学习中模型泛化能力和过拟合现象(overfitting)的矛盾、以及其主要缓解方法正则化技术原理初探

    1. 偏差与方差 - 机器学习算法泛化性能分析 在一个项目中,我们通过设计和训练得到了一个model,该model的泛化可能很好,也可能不尽如人意,其背后的决定因素是什么呢?或者说我们可以从哪些方面去 ...

  3. Foundations of Machine Learning: Rademacher complexity and VC-Dimension(2)

    Foundations of Machine Learning: Rademacher complexity and VC-Dimension(2) (一) 增长函数(Growth function) ...

  4. Visual Studio Code 代理设置

    Visual Studio Code (简称 VS Code)是由微软研发的一款免费.开源的跨平台文本(代码)编辑器,在十多年的编程经历中,我使用过非常多的的代码编辑器(包括 IDE),例如 Fron ...

  5. ProxyHandler处理器__代理设置__自定义opener

    ProxyHandler处理器(代理设置) 使用代理IP,这是爬虫/反爬虫的第二大招,通常也是最好用的. 很多网站会检测某一段时间某个IP的访问次数(通过流量统计,系统日志等),如果访问次数多的不像正 ...

  6. 最优化方法:范数和规则化regularization

    http://blog.csdn.net/pipisorry/article/details/52108040 范数规则化 机器学习中出现的非常频繁的问题有:过拟合与规则化.先简单的来理解下常用的L0 ...

  7. NLP十大里程碑

    NLP十大里程碑 2.1 里程碑一:1985复杂特征集 复杂特征集(complex feature set)又叫做多重属性(multiple features)描写.语言学里,这种描写方法最早出现在语 ...

  8. 【转载】VC维的来龙去脉

    本文转载自 火光摇曳 原文链接:VC维的来龙去脉 目录: 说说历史 Hoeffding不等式 Connection to Learning 学习可行的两个核心条件 Effective Number o ...

  9. 24分钟让AI跑起飞车类游戏

    本文由云+社区发表 作者:WeTest小编 WeTest 导读 本文主要介绍如何让AI在24分钟内学会玩飞车类游戏.我们使用Distributed PPO训练AI,在短时间内可以取得不错的训练效果. ...

  10. VC维的来龙去脉——转载

    VC维的来龙去脉——转载自“火光摇曳” 在研究VC维的过程中,发现一篇写的很不错的VC维的来龙去脉的文章,以此转载进行学习. 原文链接,有兴趣的可以参考原文进行研究学习 目录: 说说历史 Hoeffd ...

随机推荐

  1. VMware Workstation 部署企业级 AD 域、DNS、DHCP 系统操作指南

    一.主机环境规划 1. 虚拟机配置表 主机角色 操作系统 IP 地址 子网掩码 DNS 内存 硬盘 网络模式 域控制器 (DC) Windows Server 2022 192.168.1.10 25 ...

  2. SQL语句中exists和in有何区别

       在SQL性能优化的时候,经常遇到是使用exists还是in提高效率的问题,这里结合之前写的两篇博客<MYSQL中in的用法>和<MYSQL中EXISTS的用法>,总结一下 ...

  3. RL之深夜有感

    世界似乎就是一个巨大的强化学习环境(Env),身处其中的每个人就是里面的智能体,有的为生计四处奔波:有的要探寻精神上的欢娱:有的似乎想跳出Env,不想再继续下去了:可以说每个人的target都不尽相同 ...

  4. 万字长文彻底剖析Python正则表达式

    正则表达式在各种语言中都是一个复杂的主题,在Python中,正则表达式设计的尤其复杂以适应不同场景下的脚本. python官方文档提供了正则表达式使用中的各种细节: <正则表达式指南> & ...

  5. hot100之堆

    虽然更多用的是桶 数组中的第k个最大元素(215) 桶排序 class Solution { public int findKthLargest(int[] nums, int k) { int[] ...

  6. MyBatis时区问题

    (事不过三!!!!第二次犯时区的错误了) 关于根据MyBatis官方文档 配置全局xml文件时遇到的问题: org.apache.ibatis.exceptions.PersistenceExcept ...

  7. C# 保留字符串中的中文

    /// <summary> /// 保留中文字符串 /// </summary> /// <returns></returns> public stat ...

  8. JS ES6数组中删除指定元素

    https://www.cnblogs.com/linsx/p/8331623.html arr.splice(arr.findIndex(item => item.id === data.id ...

  9. 富文本里解析vue、react组件

    react 封装的渲染富文本的组件: RenderRtf.tsx import { useState, useEffect, useRef } from "react"; impo ...

  10. pat乙级题目1087

    题目 1087 有多少不同的值 (20 分) 当自然数 n 依次取 1.2.3.--.N 时,算式 ⌊n/2⌋+⌊n/3⌋+⌊n/5⌋ 有多少个不同的值?(注:⌊x⌋ 为取整函数,表示不超过 x 的最 ...