3月份以来的科研基本围绕推导代理损失函数的一致界展开,证明现已基本完工(关于代理损失函数的一致界的介绍可参见之前的博客《学习理论:预测器-拒绝器多分类弃权学习》)。导师建议我可以的话把泛化界也一起证了╰( ̄▽ ̄)╭。由于认识有搞过泛化的朋友,许多东西尽管没有亲自上手做但早已“耳濡目染”了,比如集中不等式这些。这篇博客旨在就代理损失函数的泛化界证明流程进行初步的介绍,并穿插介绍一些学习理论、高维概率中常用的概念。

1 导引

首先,回顾一下多分类弃权学习的基本设置。假设带标签样本集\(S=((x_1, y_1), \cdots, (x_m, y_m))\)中的每个样本\((x_i, y_i)\)都独立同分布地采自\(\mathcal{D}\),记\(S\sim \mathcal{D}^m\),且有\((x_i, y_i)\in \mathcal{X}\times \mathcal{Y}\)(标签\(\mathcal{Y} = \{1, \cdots, n\}\)(\(n\geqslant 2\)))。

针对多分类问题的预测器-拒绝器弃权损失[1]\(L_{\text{abst}}\)定义如下(这里默认采用单阶段的训练设置):

\[L_{\text{abst}}(h, r, x, y) = \underbrace{\mathbb{I}_{\text{h}(x) \neq y}\mathbb{I}_{r(x) > 0}}_{\text{不弃权}} + \underbrace{c \mathbb{I}_{r(x)\leqslant 0}}_{\text{弃权}}
\]

,\((h, r)\in \mathcal{H}\times\mathcal{R}\)为预测器-拒绝器对(\(\mathcal{H}\)和\(\mathcal{R}\)为两个从\(\mathcal{X}\)到\(\mathbb{R}\)的函数构成的函数族),\(\text{h}(x) = \underset{y\in \mathcal{Y}}{\text{arg max}}\space {h(x)}_y\)直接输出实例\(x\)的预测标签。假设\(c\in (0, 1)\)为一个常数。

在之前的博客中我们提到过,设\(\mathcal{l}\)为在标签\(\mathcal{Y}\)上定义的0-1多分类损失的代理损失,则我们可以在此基础上进一步定义弃权代理损失\(L\):

\[L(h, r, x, y) = \mathcal{l}(h, x, y)\phi(-\alpha r(x)) + c \phi(\beta r(x))
\]

不过这里为了进一步简化分析,我们规定这里的拒绝器\(r\)不再是学出来的,而是直接根据下列公式计算而得[2]

\[r(x) = \max_{y\in \mathcal{Y}} \left[\Psi^{-1}(h(x))\right]_y - (1 - c)
\]

这里\(\Psi: [0, 1]^n\rightarrow \mathbb{R^n}\)定义为将数据的条件概率分布向量\(\left(\begin{matrix}
p(Y=1\mid x)\\
\vdots\\
p(Y=n\mid x)
\end{matrix}\right)\in [0, 1]^n\)映射到最优预测器输出向量\(\left(\begin{matrix}
h(x)_1\\
\vdots\\
h(x)_n
\end{matrix}\right)\in \mathbb{R}^n\)的函数。那么\(\Psi^{-1}\)就反之,根据最优预测器输出向量给出数据条件概率分布向量的预测值。将\(r(x)\)与贝叶斯最优拒绝器\(r^*(x) = \max_{y\in \mathcal{Y}}p(y\mid x) - (1 - c)\)的公式进行对比可以更好地对其进行理解)。

于是,弃权代理损失函数可以直接等价于在标签\(\mathcal{Y}\)上定义的0-1多分类损失的代理损失\(\mathcal{l}\),下面我们以一对多(one-versus-all, OVA) 损失为例进行分析

\[L(h, x, y) = \mathcal{l}(h, x, y) = \phi(h(x)_y) + \sum_{y^{\prime}\neq y}\phi(-h(x)_{y^{\prime}})
\]

其中\(\phi(\cdot)\)为间隔损失(margin loss)(做为\(z \mapsto \mathbb{I}_{z \leqslant 0}\)的上界),可以设置为\(\phi(z) = \exp(-z)\)、\(\phi(z) = \log(1 + \exp(-z))\)等等。对于一对多损失而言,\(\Psi^{-1}\)的计算公式为\(\left[\Psi^{-1}(h(x))\right]_y = \frac{\phi^{\prime}(-h(x))_y}{\phi^{\prime}(-h(x))_y + \phi^{\prime}(h(x))_y}\)。

对于目标损失\(L_{\text{abst}}\)和代理损失\(L\)而言,可分别定义\(L_{\text{abst}}\)-期望弃权损失\(R_{L_{\text{abst}}}(h, r)\)(也即目标损失函数的泛化误差)和\(L\)-期望弃权代理损失\(R_{L}(h, r)\)(也即代理损失函数的泛化误差)如下:

\[R_{L_{\text{abst}}}(h, r) = \mathbb{E}_{(x, y)\sim \mathcal{D}}\left[L_{\text{abst}}(h, r, x, y)\right], \quad R_{L}(h) = \mathbb{E}_{(x, y)\sim \mathcal{D}}\left[L(h, x, y)\right]
\]

\(R_{L_{\text{abst}}}(h, r)\)和\(R_{L}(h, r)\)在所有可测函数构成的集合上取得的下确界分别记为:

\[R^*_{L_\text{abst}} = \inf_{h, r}R_{L_{\text{abst}}}(h, r), \quad R_{L}^* = \inf_{h}R_{L}(h)
\]

这被称为贝叶斯最优误差(Bayes-optimal error),此时对应的分类器记为\(h^*, r^*\)。

贝叶斯一致性(Bayes-consistency) [3][4]定义这样一种损失函数,这种损失函数能够确保风险最小化的预测器能够成为贝叶斯最优分类器。进一步地,代理损失函数的贝叶斯一致性是指随着训练数据规模\(m\rightarrow \infty\),基于训练样本学到的一系列输出函数\(\hat{h}_1, \hat{h}_2, \cdots, \hat{h}_m\)满足下列关系:

\[R_L(\hat{h}_m) \xrightarrow{m\rightarrow \infty} R_L^{*} \quad \Longrightarrow \quad R_{L_{\text{abst}}}(\hat{h}, r) \xrightarrow{m\rightarrow \infty} R_{L_{\text{abst}}}^{*}
\]

从上式中可以看到,想要刻画代理损失函数的贝叶斯一致性,就需要界定\(R_L(\hat{h}) - R_L^{*}\),而这项差距可以进一步做如下分解[5]

\[R_L(\hat{h}) - R_L^{*} = \underbrace{\left(R_L(\hat{h}) - R_L^*(\mathcal{H})\right)}_{\text{excess error}\geqslant 0} + \underbrace{\left(R_L^*(\mathcal{H}) - R_L^{*}\right)}_{\text{approximation error}\geqslant 0}
\]

其中\(R_L^*(\mathcal{H}) = \inf_{\mathcal{h\in H}}R_L(h)\)为假设类最优(best-in-class)误差,对应的假设类最优假设记为\(h^{\circ}\),假设类最优误差也可以记为\(R_L(h^{\circ})\)

  • 第一项差值被称为超额误差(excess error),它衡量了一个模型和假设类最优的模型之间的差距。

  • 第二项差值是逼近误差(approximation error),代表了假设类\(\mathcal{H}\)在多大程度上涵盖了贝叶斯最优分类器\(h^*\),刻画了模型的表达能力。

当定义超额误差时,往往需要定义是超过什么的误差。这里默认超额误差以假设类的最优误差为基准,即\(R_L(\hat{h}) - \inf_{\mathcal{h\in H}}R_L(h)\);也有论文定义的超额误差以贝叶斯最优误差为基准,即\(R_L(\hat{h}) - R_L^*\),然后将我们上面所定义的超额误差称为估计误差(estimation error) [2][6]

若假设假设类和拒绝函数类为所有可测函数构成的集合,即\(\mathcal{H} = \mathcal{H}_{\text{all}}, \mathcal{R} = \mathcal{R}_{\text{all}}\),则上式中第二项逼近误差等于0,于是若证明以下代理损失函数的超额误差界(excess error bound) 成立,则可以直接通过取极限操作得到贝叶斯一致性:

\[\underbrace{R_{L_{\text{abst}}}(h, r) - R_{L_{\text{abst}}}^*(\mathcal{H}_{\text{all}}, \mathcal{R}_{\text{all}})}_{\text{target excess error}} \leqslant \Gamma \underbrace{\left(R_L(h) - R_L^*(\mathcal{H}_{\text{all}})\right)}_{\text{surrogate excess error}}
\]

其中\(R_L^*(\mathcal{H}_{\text{all}}) = \inf_{\mathcal{h}}R_L(h) = R_L^{*}\)。\(\Gamma: \mathbb{R}_{+}\rightarrow \mathbb{R}_{+}\)为满足属性\(\lim_{t\rightarrow 0^{+}}\Gamma (t) = 0\)的非递减函数。这也是我们在博客《学习理论:预测器-拒绝器多分类弃权学习》)中提到过的内容。在这篇博客中,让我们把注意力转移一个新的方向——代理损失函数的泛化误差界(generalization error gap)

2 泛化误差界

机器学习理论的一大目标就是最小化超额误差\(R_L(\hat{h}) - R_L^{*}(\mathcal{H})\),然而\(\hat{h}\)做为\(h^*\)的估计值,是最小化如下所示的经验误差(泛化误差的近似)[7]来获得的:

\[\widehat{R}_L(h) = \mathbb{E}_{(x, y)\sim S}\left[L(h, x, y)\right] = \frac{1}{m}\sum_{i=1}^m L(h, x_i, y_i)
\]

其中\((x, y)\sim S\)表示\((x, y)\)采自样本集\(S\)定义的经验分布。这也就是说\(\hat{h} = \inf_{h\in \mathcal{H}}\hat{R}_{L}(h)\)。这也就意味着\(\hat{h}\)并不能保证最小化泛化误差\(R_L(\hat{h})\),自然也就无法保证最小化超额误差了。

于是,考虑对超额误差进行进一步的分解[5]

\[\begin{aligned}
& R_L(\hat{h}) - R_L^{*}(\mathcal{H}) \\
&= R_L(\hat{h}) - R_L(h^{\circ}) \quad (h^{\circ} = \text{arg min}_{\mathcal{h\in H}}R_L(h))\\
&= \underbrace{\left(R_L(\hat{h}) - \widehat{R}_L(\hat{h})\right)}_{\text{generalization gap}\geqslant 0} + \underbrace{\left(\widehat{R}_L(\hat{h}) - \widehat{R}_L(h^{\circ})\right)}_{\text{training error} \leqslant 0 \text{ or } \geqslant 0} + \underbrace{\left(\widehat{R}_L(h^{\circ}) - R_L(h^{\circ})\right)}_{\text{small term} \geqslant 0}
\end{aligned}
\]
  • 第一项差值\(R_L(\hat{h}) - \widehat{R}_L(\hat{h})\)被称为泛化差距(generalization gap),刻画了学习算法输出假设的泛化能力。证明学习算法的泛化界(generalization bound) 即为证明其泛化差距被某个大致形如\(\epsilon = \mathcal{O}(\frac{\mathcal{C}(\mathcal{H})}{m})\)的项给界定,其中\(\mathcal{C}(\mathcal{H})\)为假设空间\(\mathcal{H}\)的模型复杂度,\(m\)为样本个数。按照经典统计学习理论,一般假设空间\(\mathcal{H}\)的模型复杂度越低,样本个数\(m\)越多,学习算法的泛化性能越好。

    上述理论在深度学习中不一定适用。在深度学习理论中会出现所谓的双下降(double descent),过参数化模型的泛化性能也可能很好,感兴趣的同学可以查看B站南大大佬的视频JOJO想:深度学习中的泛化理论 (9)良性过拟合[8]

  • 第二项差值\(\underbrace{\widehat{R}_L(\hat{h}) - \widehat{R}_L(h^{\circ})}_{\leqslant 0} \leqslant \underbrace{\widehat{R}_L(\hat{h}) - \inf_{h}\widehat{R}_L(h)}_{\geqslant 0}\)和模型的训练误差有关,刻画了训练算法的优化能力。当\(\hat{h}\)能够最小化训练误差,也即\(\widehat{R}_L(\hat{h}) = \inf_{h}\widehat{R}_L(h)\)时,这一项一定\(\leqslant 0\)。

  • 第三项差值\(\widehat{R}(h^{\circ}) - R(h^{\circ})\)一般是一个很小的项,我们称之为“小项”,也可以被界定。

观察上述分解,可以发现泛化差距\(R_L(\hat{h}) - \widehat{R}_L(\hat{h})\)和“小项”\(\widehat{R}(h^{\circ}) - R(h^{\circ})\)具有相似的形式,都可以写成\(R_L(\cdot)\)和\(\widehat{R}(\cdot)\)之间关于某个假设\(h\)的差值。而这个差值可以被界定如下(以泛化差距为例,“小项”同理):

\[\begin{aligned}
R_L(\hat{h}) - \widehat{R}_L(\hat{h}) \leqslant \sup_{h\in \mathcal{H}}\lvert \widehat{R}_L(h) - R_L(h)\lvert
\end{aligned}
\]

若能证明当\(n\rightarrow \infty\)时,\(\sup_{h\in \mathcal{H}}\lvert \widehat{R}(h) - R_L(h)\rvert\rightarrow 0\)(比如该上确界被某个大致形如\(\epsilon = \mathcal{O}(\frac{\mathcal{C}(\mathcal{H})}{\sqrt{m}})\)或\(\mathcal{O}(\frac{\mathcal{C}(\mathcal{H})}{m})\)的项给控制),则我们称假设类\(\mathcal{H}\)是一致收敛(uniform convergence)[9][10]

注意这里一致收敛的“一致”对应的英文是“uniform”,而我们之前提到过的损失函数一致性的“一致性”对应的英文是“consistency”。

\(\sup_{h\in \mathcal{H}}\lvert \widehat{R}_L(h) - R_L(h)\lvert\)可以视为假设\(h\in \mathcal{H}\)做为下标索引的随机过程的量纲(magnitude),这种随机过程称为经验过程[11]

定义 1 (经验过程)假设类\(\mathcal{H}\)上的经验过程(empirical process)\(\{X_h\}_{h\in \mathcal{H}}\)定义为:

\[X_{h} := \widehat{R}_L(\hat{h}) - R_L(\hat{h})
\]

于是,证明泛化界的问题便转化为了证明经验过程有界(比如\(\sup_{h\in \mathcal{H}}\lvert \widehat{R}_L(h) - R_L(h)\lvert < \epsilon = \mathcal{O}(\frac{\mathcal{C}(\mathcal{H})}{\sqrt{m}})\))的问题。

3 经验过程的Rademacher复杂度上界

对于一对多代理损失\(L(h, x, y) = \phi\left(h(x)_y\right) + \sum_{y^{\prime}\neq y}\phi\left(-h(x)_{y^{\prime}}\right)\),以及定义在其上的经验过程\(X_{h} := \widehat{R}_L(\hat{h}) - R_L(\hat{h}), h\in \mathcal{H}\),我们有下列定理[2]成立:

定理 1 对任意\(\delta > 0\),至少以\(1 - \delta\)的概率有

\[\sup_{h\in \mathcal{H}}\lvert \widehat{R}_L(h) - R_L(h)\lvert \leqslant 4 n C_{\phi} \mathfrak{R}_S(\mathcal{H}) + M_{\phi} \sqrt{\frac{8\log \frac{2}{\delta}}{m}}
\]

其中\(n\)为标签类别数,\(C_{\phi}\)为函数\(\phi(\cdot)\)的Lipschitz常数(假设\(\phi(\cdot)\)满足Lipschitz连续),\(\mathfrak{R}(\mathcal{H}\circ \mathcal{S})\)为定义在样本集\(S\)上的假设类\(\mathcal{H}\)的Rademacher复杂度,\(M_{\phi} = \sup_{x\in \mathcal{X}, h\in \mathcal{H}}\phi(h(x))\)。下面先介绍Rademacher复杂度的定义。

定义 2 (Rademacher复杂度) 设样本集\(S = (z_1, z_2, \cdots, z_m)\)中的每个样本都独立同分布地采自分布\(\mathcal{D}\),\(\mathcal{F}=\{f: \mathcal{Z}\rightarrow \mathbb{R}\}\)为可测函数类。则\(\mathcal{F}\)关于样本集\(S\)的Rademacher复杂度[3]定义为

\[\mathfrak{R}_S(\mathcal{H}) = \mathbb{E}_{S}\mathbb{E}_{\sigma\sim \{\pm 1\}^m}\left[\sup_{f\in \mathcal{F}}\frac{1}{m}\sum_{i=1}^m \sigma_i f(z_i)\right]
\]

其中\(\sigma = (\sigma_1, \cdots, \sigma_m)\in \{\pm 1\}^m\)为随机向量,其中每个元素都独立同分布地采自\(\{-1, +1\}\)。

为了证明定理 1,我们会先展示一个引理,该引理关联了假设类\(\mathcal{H}\)和代理损失函数类\(\mathcal{L}\)的Rademacher复杂度。现定义代理损失函数类\(\mathcal{L}\)为

\[\mathcal{L} = \left\{(x, y)\rightarrow L(h, x, y)\mid h\in \mathcal{H}\right\}
\]

其中\(L\in \mathcal{L}\)是间隔损失\(\phi(\cdot)\)和假设\(h(\cdot)\)的复合,记\(\mathcal{L} = \mathcal{\phi}\circ \mathcal{H}\)。

则有下列引理[2]成立:

引理 1 设\(\mathfrak{R}_S(\mathcal{L})\)为\(\mathcal{L}\)关于样本集\(S\)的Rademacher复杂度,\(\mathfrak{R}_S(\mathcal{H})\)为\(\mathcal{H}\)关于样本集\(S\)的Rademacher复杂度,则我们有\(\mathfrak{R}_S(\mathcal{L})\leqslant 2 n C_{\phi} \mathfrak{R}_S(\mathcal{H})\)。

引理 1的证明 按照定义,可以将\(\mathfrak{R}_S(\mathcal{L})\)界定如下:

\[\begin{aligned}
\mathfrak{R}_S(\mathcal{L}) &= \mathbb{E}_S\mathbb{E}_{\sigma}\left[\sup_{L\in \mathcal{L}}\frac{1}{m}\sum_{i=1}^m \sigma_i L(x, y, h)\right] \\
&= \mathbb{E}_S\mathbb{E}_{\sigma}\left[\sup_{h\in \mathcal{H}}\frac{1}{m}\sum_{i=1}^m \sigma_i \left(\phi\left(h(x_i)_{y_i}\right) + \sum_{y^{\prime}\neq y_i}\phi\left(-h(x_i)_{y^{\prime}}\right)\right)\right]\\
&= \mathbb{E}_S\mathbb{E}_{\sigma}\left[\sup_{h\in \mathcal{H}}\left(\frac{1}{m}\sum_{i=1}^m \sigma_i \phi\left(h(x_i)_{y_i}\right) + \frac{1}{m}\sum_{i=1}^m \sigma_i \sum_{y^{\prime}\neq y_i}\phi\left(-h(x_i)_{y^{\prime}}\right)\right)\right]\\
&\leqslant \underbrace{\mathbb{E}_S\mathbb{E}_{\sigma}\left[\sup_{h\in \mathcal{H}}\frac{1}{m}\sum_{i=1}^m \sigma_i \phi\left(h(x_i)_{y_i}\right)\right]}_{(A)} + \underbrace{\mathbb{E}_S\mathbb{E}_{\sigma} \left[\sup_{h\in \mathcal{H}}\frac{1}{m}\sum_{i=1}^m \sigma_i \sum_{y^{\prime}\neq y_i}\phi\left(-h(x_i)_{y^{\prime}}\right)\right]}_{(B)}
\end{aligned}
\]

其中最后一行不等式我们使用了\(\sup(\cdot)\)函数的次可加性(sub-additivity):\(\sup(x + y)\leqslant \sup(x) + \sup(y)\)。接下来我们尝试界定上述两项。设\(\alpha_i = 2\mathbb{I}_{y\neq y_i} - 1\),可以将第一项\((A)\)界定如下:

\[\begin{aligned}
(A) &= \mathbb{E}_S\mathbb{E}_{\sigma}\left[\sup_{h\in \mathcal{H}}\frac{1}{m}\sum_{i=1}^m \sigma_i \phi\left(h(x_i)_{y_i}\right)\right]\\
&= \mathbb{E}_S\mathbb{E}_{\sigma}\left[\sup_{h\in \mathcal{H}}\frac{1}{2m}\sum_{i=1}^m \sigma_i \sum_y \phi\left(h(x_i)_{y}\right) (\alpha_i + 1)\right] \\
&\leqslant \mathbb{E}_S\mathbb{E}_{\sigma}\left[\sup_{h\in \mathcal{H}}\frac{1}{2m}\sum_{i=1}^m \sigma_i \sum_y \phi\left(h(x_i)_{y}\right)\alpha_i \right] + \mathbb{E}_S\mathbb{E}_{\sigma}\left[\sup_{h\in \mathcal{H}}\frac{1}{2m}\sum_{i=1}^m \sigma_i \sum_y \phi\left(h(x_i)_{y}\right) \right] \\
&\quad (\text{sub-additivity of} \sup(\cdot))\\
&= \mathbb{E}_S\mathbb{E}_{\sigma}\left[\sup_{h\in \mathcal{H}}\frac{1}{2m}\sum_{i=1}^m \alpha_i\sigma_i \sum_y \phi\left(h(x_i)_{y}\right) \right] + \mathbb{E}_S\mathbb{E}_{\sigma}\left[\sup_{h\in \mathcal{H}}\frac{1}{2m}\sum_{i=1}^m \sigma_i \sum_y \phi\left(h(x_i)_{y}\right) \right] \\
&= \mathbb{E}_S\mathbb{E}_{\sigma}\left[\sup_{h\in \mathcal{H}}\frac{1}{m}\sum_{i=1}^m \sigma_i \sum_y \phi\left(h(x_i)_{y}\right) \right] (\alpha_i\sigma_i \text{ has the same distribution as } \sigma_i)\\
&\leqslant \sum_y \mathbb{E}_S\mathbb{E}_{\sigma}\left[\sup_{h\in \mathcal{H}}\frac{1}{m}\sum_{i=1}^m \sigma_i \phi\left(h(x_i)_{y}\right) \right] (\text{sub-additivity of} \sup(\cdot))\\
&= n \mathfrak{R}_S(\phi\circ \mathcal{H})
\end{aligned}
\]

其中\(n\)是类别个数。与\((A)\)项类似,\((B)\)项也可以被$ \mathfrak{R}_S(\phi\circ \mathcal{H})$界定。

于是,我们可以将\(\mathcal{L}\)关于样本集\(S\)的Rademacher复杂度界定如下:

\[\mathfrak{R}_S(\mathcal{L}) \leqslant \underbrace{2 n \mathfrak{R}_S(\phi \circ \mathcal{H}) \leqslant 2 n C_{\phi} \mathfrak{R}_S(\mathcal{H})}_{\text{Talagrand contraction principle}}
\]

最后一个不等式根据如下的Talagrand压缩原理[12]得到:

引理 2 (Talagrand压缩原理) 设\(\phi: \mathbb{R}\rightarrow \mathbb{R}\)为\(C_{\phi}\)-Lipschitz函数,则

\[ \mathfrak{R}_S(\phi\circ\mathcal{H}) \leqslant C_{\phi}\mathfrak{R}_S(\mathcal{H})
\]

其中\(\phi\circ \mathcal{H} = \{z\mapsto \phi(h(z)): h\in \mathcal{H}\}\)。

其次,我们介绍一个经验过程的单侧上界关于训练样本\(S\)的期望的重要结论[9],该结论将经验过程的单侧上界与Rademacher复杂度联系了起来。

引理 3

\[\mathbb{E}_{S}\left[\sup_{h\in \mathcal{H}} \left(\widehat{R}_L(h) - R_L(h)\right)\right] \leqslant 2\mathfrak{R}_S(\mathcal{L})
\]

这个引理的证明会用到一种称之为对称化(symmetrization) 的技术,大致为引入辅助样本集\(S^{\prime}\)并以此将泛化误差\(R_L(h)\)限制到\(S^{\prime}\)上(类似测试集),并利用\(S\)和\(S^{\prime}\)样本集的对称性来在保持期望不变的前提下完成\(\sigma(\cdot)\)函数的引入(这也是为何不等式左边有个期望\(\mathbb{E}_S[\cdot]\)),详细证明可参阅《Understanding machine learning: From theory to algorithms》Ch.26 [9]

有了这些引理,我们可以接下来可以开始正式证明定理 1了。

下面再将定理 1再贴一遍:对任意\(\delta > 0\),至少以\(1 - \delta\)的概率有

\[\sup_{h\in \mathcal{H}}\lvert \widehat{R}_L(h) - R_L(h)\lvert \leqslant 4 n C_{\phi} \mathfrak{R}_S(\mathcal{H}) + M_{\phi} \sqrt{\frac{8\log \frac{2}{\delta}}{m}}
\]

定理 1的证明 上述不等式是经验过程的双侧界,只需讨论与\(\sup_{h\in \mathcal{H}}\left(\widehat{R}_L(h) - R_L(h)\right)\)相关的单侧界至少以概率\(1 - \frac{\delta}{2}\)成立即可。

记\(A(z_1, \cdots, z_m) = \sup_{h\in \mathcal{H}}\left(\widehat{R}_L(h) - R_L(h)\right)\),通过引理 3,我们已经知道\(
\mathbb{E}_{S}\left[A(z_1, \cdots, z_m)\right] \leqslant 2\mathfrak{R}_S(\mathcal{L})
\)成立。现在我们需要考虑\(A(z_1, \cdots, z_m)\)的界,那么如果我们可以证明有界变差条件[6][7]\(\left|A(z_1, \cdots, z_m) - A(z_1, \cdots, z_i^{'}, \cdots, z_m)\right|\leqslant c\)(也即将参数中的任意一项\(z_i = (x_i, y_i)\)被与训练集独立同分布的\(z_i^{\prime} = (x^{\prime}_i, y_i^{\prime})\)替换后,函数值的变化量被常数\(c\)界定),那么就可以考虑应用McDiarmid不等式得到

\[ A(z_1, \cdots, z_m) \leqslant \mathbb{E}_{S}\left[A(z_1, \cdots, z_m)\right] + c\sqrt{\frac{m}{2}\log (\frac{1}{\delta}))}
\]

以\(1 - \delta\)概率成立。

那么我们先尝试界定变差:

\[\begin{aligned}
&A(z_1, \cdots, z_m) - A(z_1, \cdots, z_i^{'}, \cdots, z_m)\\
&= \sup_{h\in \mathcal{H}}\left[\frac{1}{m}\sum_{j=1}^mL(h, x_j, y_j) - \mathbb{E}_{\mathcal{D}}\left[L(h, x, y)\right]\right]\\
&\quad \space - \sup_{h\in \mathcal{H}}\left[\frac{1}{m}L(h^{\prime}, x_i^{\prime}, y_i^{\prime}) + \frac{1}{m}\sum_{j\in [m]\backslash\{i\}}L(h^{\prime}, x_j, y_j)\\
- \mathbb{E}_{\mathcal{D}}\left[L(h^{\prime}, x, y)\right]\right]\\
&= \sup_{h\in \mathcal{H}}\inf_{h^{\prime}\in \mathcal{H}}\left[\frac{1}{m}\sum_{j=1}^mL(h, x_j, y_j) - \mathbb{E}_{\mathcal{D}}\left[L(h, x, y)\right]\right.\\
&\quad \space \left.- \frac{1}{m}L(h^{\prime}, x_i^{\prime}, y_i^{\prime}) - \frac{1}{m}\sum_{j\in [m]\backslash\{i\}}L(h^{\prime}, x_j, y_j)
+ \mathbb{E}_{\mathcal{D}}\left[L(h^{\prime}, x, y)\right]\right]\\
&\leqslant \sup_{h\in \mathcal{H}}\left[\frac{1}{m}\sum_{j=1}^mL(h, x_j, y_j) - \mathbb{E}_{\mathcal{D}}\left[L(h, x, y)\right]\right.\\
&\quad \space \left.- \frac{1}{m}L(h, x_i^{\prime}, y_i^{\prime}) - \frac{1}{m}\sum_{j\in [m]\backslash\{i\}}L(h, x_j, y_j)
+ \mathbb{E}_{\mathcal{D}}\left[L(h, x, y)\right]\right]\\
&= \sup_{h\in \mathcal{H}}\left[\frac{1}{m}L(h, x_i, y_i) - \frac{1}{m}L(h, x^{\prime}_i, y^{\prime}_i)\right]\\
&= \frac{1}{m}\sup_{h\in \mathcal{H}}\left[\phi\left(h(x_i)_{y_i}\right) + \sum_{y^{\prime}\neq y_i}\phi\left(-h(x_i)_{y^{\prime}}\right) - \phi\left(h(x_i^{\prime})_{y^{\prime}}\right) - \sum_{y^{\prime\prime}\neq y_i^{\prime}}\phi\left(-h(x_i^{\prime})_{y^{\prime\prime}}\right)\right]\\
&= \frac{1}{m}\sup_{h\in \mathcal{H}}\left[\phi\left(h(x_i)_{y_i}\right) + \phi\left(-h(x_i)_{y_i^{\prime}}\right) - \phi\left(h(x_i^{\prime})_{y_i^{\prime}}\right) - \phi\left(-h(x_i^{\prime})_{y_i}\right)\right]\\
&\leqslant \frac{4M_{\phi}}{n}
\end{aligned}
\]

于是\(c = \frac{4M_{\phi}}{n}\)。接着,应用McDiarmid不等式并结合引理 3、引理 1可知

\[\begin{aligned}
\sup_{h\in \mathcal{H}}\left(\widehat{R}_L(h) - R_L(h)\right) &\leqslant \mathbb{E}_{S}\left[\sup_{h\in \mathcal{H}}\left(\widehat{R}_L(h) - R_L(h)\right)\right] + c\sqrt{\frac{m}{2}\log (\frac{1}{\delta}))}\\
&\leqslant 2\mathfrak{R}_S(\mathcal{L}) + M_{\phi}\sqrt{\frac{8\log (\frac{1}{\delta})}{m}} \quad (\text{Lemma } 3)\\
&\leqslant 4 n C_{\phi} \mathfrak{R}_S(\mathcal{H})+ M_{\phi}\sqrt{\frac{8\log (\frac{1}{\delta})}{m}} \quad (\text{Lemma } 1)
\end{aligned}
\]

对任意\(\delta > 0\),至少以\(1 - \delta\)的概率成立。用\(\frac{\delta}{2}\)直接变量替换掉\(\delta\)有:\(\sup_{h\in \mathcal{H}}\left(\widehat{R}_L(h) - R_L(h)\right)\leqslant 4 n C_{\phi} \mathfrak{R}_S(\mathcal{H})+ M_{\phi}\sqrt{\frac{8\log (\frac{2}{\delta})}{m}}\)至少以\(1 - \frac{\delta}{2}\)的概率成立。于是对于双侧界,我们有:

\[\sup_{h\in \mathcal{H}}\lvert \widehat{R}_L(h) - R_L(h)\lvert \leqslant 4 n C_{\phi} \mathfrak{R}_S(\mathcal{H}) + M_{\phi} \sqrt{\frac{8\log \frac{2}{\delta}}{m}}
\]

对任意\(\delta > 0\),至少以\(1 - \delta\)的概率成立。定理得证。

于是,我们在第2部分提到的泛化差距\(R_L(\hat{h}) - \widehat{R}_L(\hat{h})\)和“小项”\(\widehat{R}(h^{\circ}) - R(h^{\circ})\)都可以被界定了。例如,泛化差距可以被界定如下:

\[R_L(\hat{h}) - \widehat{R}_L(\hat{h})\leqslant \sup_{h\in \mathcal{H}}\lvert \widehat{R}_L(h) - R_L(h)\lvert \leqslant 8 n C_{\phi} \mathfrak{R}_S(\mathcal{H}) + 4 M_{\phi} \sqrt{\frac{2\log \frac{2}{\delta}}{m}}
\]

至此,代理损失函数的泛化界得证。

参考

学习理论:代理损失函数的泛化界与Rademacher复杂度的更多相关文章

  1. 代理损失函数(surrogate loss function)

    Surrogate loss function,中文可以译为代理损失函数.当原本的loss function不便计算的时候,我们就会考虑使用surrogate loss function. 在二元分类 ...

  2. 机器学习中模型泛化能力和过拟合现象(overfitting)的矛盾、以及其主要缓解方法正则化技术原理初探

    1. 偏差与方差 - 机器学习算法泛化性能分析 在一个项目中,我们通过设计和训练得到了一个model,该model的泛化可能很好,也可能不尽如人意,其背后的决定因素是什么呢?或者说我们可以从哪些方面去 ...

  3. Foundations of Machine Learning: Rademacher complexity and VC-Dimension(2)

    Foundations of Machine Learning: Rademacher complexity and VC-Dimension(2) (一) 增长函数(Growth function) ...

  4. Visual Studio Code 代理设置

    Visual Studio Code (简称 VS Code)是由微软研发的一款免费.开源的跨平台文本(代码)编辑器,在十多年的编程经历中,我使用过非常多的的代码编辑器(包括 IDE),例如 Fron ...

  5. ProxyHandler处理器__代理设置__自定义opener

    ProxyHandler处理器(代理设置) 使用代理IP,这是爬虫/反爬虫的第二大招,通常也是最好用的. 很多网站会检测某一段时间某个IP的访问次数(通过流量统计,系统日志等),如果访问次数多的不像正 ...

  6. 最优化方法:范数和规则化regularization

    http://blog.csdn.net/pipisorry/article/details/52108040 范数规则化 机器学习中出现的非常频繁的问题有:过拟合与规则化.先简单的来理解下常用的L0 ...

  7. NLP十大里程碑

    NLP十大里程碑 2.1 里程碑一:1985复杂特征集 复杂特征集(complex feature set)又叫做多重属性(multiple features)描写.语言学里,这种描写方法最早出现在语 ...

  8. 【转载】VC维的来龙去脉

    本文转载自 火光摇曳 原文链接:VC维的来龙去脉 目录: 说说历史 Hoeffding不等式 Connection to Learning 学习可行的两个核心条件 Effective Number o ...

  9. 24分钟让AI跑起飞车类游戏

    本文由云+社区发表 作者:WeTest小编 WeTest 导读 本文主要介绍如何让AI在24分钟内学会玩飞车类游戏.我们使用Distributed PPO训练AI,在短时间内可以取得不错的训练效果. ...

  10. VC维的来龙去脉——转载

    VC维的来龙去脉——转载自“火光摇曳” 在研究VC维的过程中,发现一篇写的很不错的VC维的来龙去脉的文章,以此转载进行学习. 原文链接,有兴趣的可以参考原文进行研究学习 目录: 说说历史 Hoeffd ...

随机推荐

  1. L3-2、引导 AI 推理思考 —— 从条件判断到链式推理

    一.什么是引导式推理(Self-Reasoning Prompt)? 引导式推理是一种提示工程技术,通过特定的提示结构引导AI模型进行逐步推理,使其能够像人类一样"思考"问题,而非 ...

  2. 3D Gaussian splatting 03: 用户数据训练和结果查看

    目录 3D Gaussian splatting 01: 环境搭建 3D Gaussian splatting 02: 快速评估 3D Gaussian splatting 03: 用户数据训练和结果 ...

  3. 机器学习中的"食材挑选术":特征选择方法

    想象你要做一道美食,面对琳琅满目的食材,优秀的厨师不会把所有原料都扔进锅里,而是会选择最适合的几种. 在机器学习中,特征选择就是这个挑选过程,从原始数据中选择对预测目标最有用的特征(列),就像挑选优质 ...

  4. FFmpeg开发笔记(六十三)FFmpeg使用vvenc把视频转为H.266编码

    ​前面的两篇文章分别介绍了如何在Linux环境和Windows环境给FFmpeg集成H.266的编码器vvenc,接下来利用ffmpeg把视频文件转换为VVC格式,观察新生成的vvc视频能否正常播放. ...

  5. 手把手教你网络爬虫(爬取豆瓣电影top250,附带源代码)

    概念 网络爬虫就是按照一定的规则,自动抓取互联网信息的程序或脚本.其本质就是模拟浏览器打开网页,获取网页中我们需要的数据. 基本流程 准备工作(构建流程) 获取数据 解析内容 保存数据 1. 准备工作 ...

  6. OceanBase 中的身外身法 —— Auto DOP(自适应并行)使用技巧分享

    首先为大家推荐这个 OceanBase 开源负责人老纪的公众号 "老纪的技术唠嗑局",会持续更新和 OceanBase 相关的各种技术内容.欢迎感兴趣的朋友们关注! Part 1 ...

  7. ET5.0-添加心跳功能

    ET5.0 demo中添加心跳功能 一.服务端 1:添加文件夹,在Model/Module文件夹下新建文件夹 Hearbeat 2:添加心跳配置文件   SessionHeartbeatCompone ...

  8. java 如何根据经纬度查询出一千米内的资源数据

    使用地理信息系统(GIS)的相关技术和算法来实现根据经纬度查询一定范围内的资源数据.以下是一种基本的实现思路: 获取资源数据:首先,您需要有一组资源数据,每个数据都包含了对应资源的经纬度信息. 计算距 ...

  9. [原创]《C#高级GDI+实战:从零开发一个流程图》第06章:繁琐?没扩展性?抽象!抽象!

    一.前言 前面的课程我们实现了两种形状:矩形.圆形,在第4章的时候就会发现,仅增加了个新形状,代码量及判断逻辑就翻倍不止,异常繁琐,可维护性很差,更没有扩展性可言.我们本节课就来解决这一点,解决的方法 ...

  10. react jsx自定义标签 ts类型声明

    前言 假设我自定义了一个组件 全局导入的 <myNewElement foo="123" /> 此时ts会报异常 react18 在react 19 之前,我们可以这么 ...