Optimization Landscape and Expressivity of DeepCNNs

引
主要内容
- 基本的一些定义
- 假设2.4
- 引理2.5
- 假设3.1
- 假设3.2
- 引理3.3
- 定理3.4
- 定理3.5
- 推论3.6
- 假设4.1
- 引理4.2
- 引理4.3
- 定理4.4
- 定理4.5
Proof

Nguyen Q C, Hein M. Optimization Landscape and Expressivity of Deep CNNs[J]. arXiv: Learning, 2017.

BibTex

@article{nguyen2017optimization,

title={Optimization Landscape and Expressivity of Deep CNNs},

author={Nguyen, Quynh C and Hein, Matthias},

journal={arXiv: Learning},

year={2017}}

引

这篇文章，主要证明，在某些不算很强的假设下，CNN的最后的损失(文中是MSE)能够达到零，而且能够满足其的网络参数的无穷多的. 另外，还有"局部"最优解都是全局最优解的特性. 证明主要用到了勒贝格积分的知识(实际上，这一部分应该算在另一篇论文上，没去看），以及更多的代数的知识.

主要内容

基本的一些定义

\(X=[x_1, \ldots, x_N]^T \in \R^{N \times d}\)为输入的N个样本，而\(Y=[y_1, \ldots, y_N]^T \in \R^{N \times m}\)为对应的N个标签.

假设网络共有\(L\)层，\(n_k\)为第\(k=0, 1, \ldots, L\)层的宽度，也即神经元的个数. 用\(f_k: \R^d \rightarrow \R^{n_k}\)表示由样本\(x\)到第\(k\)层的输出的映射.

patches: 我们将每一层的神经元分成若干份，每一份的长度相同，且是包含所有神经元，并且没有俩个patch是完全相同的. 假设，每一层被分成\(P_k\)份，长度为\(l_k\). 则，可以表示为

\[\left \{ \begin{array}{ll}
\{x^1, \ldots, x^{P_0}\} \subset \R^{l_0}, & k=0, \\
\{f_k^1(x), \ldots, f_k^{P_k}(x)\} \subset \R^{l_k}, & k = 1, 2, \ldots, L-1.
\end{array} \right.
\]

filter: 假设每一层有\(T_k\)个filters，则 \(W_k = [w_k^1, \ldots,w_k^{T_k}] \in \R^{l_{k-1} \times T_k}, 1 \le k < L\) . 容易知道\(n_k=P_{k-1}T_k\), 并假设第k层的偏执为\(b_k \in \R^{n_k}\). 如果是全连接层，很明显，\(n_k=T_k\).

激活函数: 用\(\sigma_k\)表示第\(k\)层的激活函数, entry-wise.

卷积层

其中\([a] = \{1, 2, \ldots, a\}\).

上面的定义可以这么理解，先拿出第一个patch，用所有的filters操作一遍，并加上偏置，再通过激活函数为最后的输出，然后再拿下一个patch... 一般的卷积层，其实就是相当先分patch，再利用卷积核处理，当然这里可能存在一个排序的问题，但是作者证明的结论的过程中不需要排序.

全连接层

池化层

改写卷积层

为了更形象的表示，作者弄了一个线性映射\(\mathcal{M}_k: \R^{l_{k-1} \times T_k} \rightarrow \R^{n_{k-1} \times n_k}\). 看如下的例子:

其中:

\(n_{k-1}=5\), 也就是说，输入是5维的向量，卷积核是3维的，滑动为1. 相当于把\(w\)扩充至\(n_{k-1}\)，且只有所作用的patch的对应位置不为0. 这样就能用一种全连接层的是视角去看待了，而全连接层的\(U_k=W_k\). 所以，我们不需要再管patch了，来了一个输入\(x\)，只需\(U_k^Tx\)，然后进行加偏执和激活函数的操作即可，具体如下:

其中\(g_k(x)=U_k^Tf_{k-1}(x)+b_k\). 定义:

则:

定义损失函数:

\[\Phi ((W_l,b_l)_{l=1}^{L}) = \frac{1}{2} \|F_L - Y\|^2.
\]

假设2.4

对于第k个卷积层，存在\(W_k\)使得\(U_k\)是满秩的. 并且从下面的话中可以发现，只要patches满足之前讲的那些假设，那么这个假设便能够成立. 问题是，我不知道这个假设如何证明.

引理2.5

引理2.5告诉我们，让\(U_k\)满秩的\(W_k\)不仅存在，而且很多，多到让\(U_k\)不满秩的\(W_k\)的勒贝格测度为0. 也就是随便走两步都能满足假设.

假设3.1

这个假设看似很强，但是作者指出，可以通过对样本添加一个噪声来满足.

假设3.2

激活函数是连续非常数，且有一些极限性质.

引理3.3

ReLU, Sigmoid, Softplus等一些常见的激活函数都是满足上面的假设的.

定理3.4

注意, 条件1是第一层和第k层为卷积或者全连接层. 满足这些条件，则有\(\{f_k(x_1), \ldots, f_k(x_N)\}\)线性独立，也即\(F_k\)满秩.

定理3.5

注意，这里的条件1是第一层到第k层均为全连接层或卷积层. 则令\(F_k\)不满秩的网络参数的勒贝格测度为0，也就是说，\(F_k\)满秩是平凡的.

推论3.6

也就是说，我们能够找到网络参数，满足训练0误差.

假设4.1

注意，这里假设整个网络不包括池化层，且最后的输出层是全连接层.

并定义:

引理4.2

关于解析函数，这是复变函数里的东西，不同的版本有出入，

至少是无穷次可导的, 所以ReLU自然不列入考虑范围之内.

引理4.2说明\(F_k, U_{k+2}, \ldots, U_L\)满秩是很容易满足的.

引理4.3

定理4.4

定理4.4告诉我们，\(S_k\)中的所有的驻点(关于\(U_{k+1}\))都是最小值点.

定理4.5

作者考虑一个具体的分类问题，则CNN最后的输出应该为\(Z \in \R^{m \times m}\)，即有m类，如果样本\(x_i\)属于第j类，则\(Y\)的第i行为\(Z\)的第j行. 所以，一般情况下，\(Z\)为单位矩阵？

注意第\(k+1\)层为全连接层.

Proof

引理A.1

实解析函数，如果不恒为0，则\(\{x \in \R^n| f(x)=0\}\)的勒贝格测度为0，也就是几乎处处不为0呗.

引理2.5 证明

\(U_k = \mathcal{M}_k (W_k) \in \R^{n_{k-1} \times n_k}\), 因为\(\mathcal{M_k}\)是一个线性映射，所以\(U_k\)的每一个元素都是\(W_k\)的一个线性函数的像. 又\(U_k\)的每一个\(m \times m, m = \min \{n_{k-1}, n_k\}\)行列式是一个多项式函数，所以是解析函数，而解析函数的复合依旧是解析函数，所以每一个行列式都是关于\(W_k\)的一个解析函数. 而根据假设2.4，我们知道，存在一行列式不恒等于0，所以根据引理A.1，引理2.5可得.