写在SVM之前——凸优化与对偶问题

>>>写在SVM之前——凸优化与对偶问题

本篇是写在SVM之前的关于优化问题的一点知识，在SVM中会用到。考虑到SVM之复杂，将其中优化方面基础知识提出，单作此篇。所以，本文也不会涉及优化问题的许多深层问题，只是个人知识范围内所了解的SVM中涉及到的优化问题基础。

一、凸优化问题

在优化问题中，凸优化问题由于具有优良的性质（局部最优解即是全局最优解），受到广泛研究。

对于一个含约束的优化问题：

\[\left\{ \begin{matrix}\underset{x}{\mathop{\min }}\,f(x) \\\begin{matrix}s.t. & x\in C \\\end{matrix} \\\end{matrix} \right.\]

其中，$f(x)$ 为一个凸函数，变量$\text{x}$ 的可行域$\text{C}$ 是一个凸集，那么这个优化问题称为一个凸优化问题。

将上面的约束条件的形式更加明确一点，一个凸优化问题可以写成：

\[\left\{ \begin{matrix}\underset{x}{\mathop{\min }}\,f(x) \\\begin{matrix}s.t. & {{g}_{i}}(x)\le 0 \\{} & {{h}_{i}}(x)=0 \\\end{matrix} \\\end{matrix} \right.\]

其中，$f(x)$ 当然仍然为一个凸函数，但对约束条件有一定要求：${{g}_{i}}(x)$ 是凸函数；${{h}_{i}}(x)$ 为仿射函数。这样的要求当然是为了保证可行域是一个凸集。

不等式约束中${{g}_{i}}(x)$为凸函数，而凸函数的水平截集$\{x|{{g}_{i}}(x)\le \alpha \}$ 是一个凸集(凸函数的性质)，这就使得不等式约束保证了可行域为凸集；

对于等式约束${{h}_{i}}(x)=0$ 可以写成：

\[\left\{ \begin{matrix}{{h}_{i}}(x)\le 0 \\{{h}_{i}}(x)\ge 0 \\\end{matrix} \right.\]

要使得满足条件的$x$ 组成的集合为凸集，就要求${{h}_{i}}(x)$ 既是一个凸函数，又是一个凹函数，这样${{h}_{i}}(x)$便只能是仿射函数了。

以上便是凸优化问题的一般形式。常见的线性规划、二次规划、二次约束二次规划等优化问题都是凸优化问题。

二、拉格朗日对偶

抛开凸优化问题，回到一般的优化问题。

一般的优化问题可以写成以下形式：

\[\left\{ \begin{matrix}\underset{x}{\mathop{\min }}\,f(x) \\\begin{matrix}s.t. & {{g}_{i}}(x)\le 0 \\{} & {{h}_{i}}(x)=0 \\\end{matrix} \\\end{matrix} \right.\]

当然，这里对$f(x)$、${{g}_{i}}(x)$、${{h}_{i}}(x)$ 都是没有要求的。

根据拉格朗日方法，对应的拉格朗日函数为：

$L(x,\alpha ,\beta )=f(x)+\sum\limits_{i}{{{\alpha }_{i}}{{g}_{i}}(x)}+\sum\limits_{i}{{{\beta }_{i}}{{h}_{i}}(x)}$

其中$\alpha $ 、$\beta $为拉格朗日乘数（都是向量，其长度分别对应于不等式约束和等式约束的个数），且${{\alpha }_{i}}\ge 0$、$\beta $ 任意。

定义函数：

\[{{\theta }_{P}}(x)=\underset{\alpha ,\beta :{{\alpha }_{i}}\ge 0}{\mathop{\max }}\,L(x,\alpha ,\beta )\]

容易发现：

\[{{\theta }_{P}}(x)=\left\{ \begin{matrix}f(x) & {{g}_{i}}(x)\le 0\And {{h}_{i}}(x)=0 \\+\infty & {{g}_{i}}(x)>0||{{h}_{i}}(x)\ne 0 \\\end{matrix} \right.\]

如果原来的约束条件都满足那么$L(x,\alpha ,\beta )=f(x)+\sum\limits_{i}{{{\alpha }_{i}}{{g}_{i}}(x)}+\sum\limits_{i}{{{\beta }_{i}}{{h}_{i}}(x)}$，最后一项为零，第二项要取得最大值，由于${{g}_{i}}(x)\le 0$，所以只能取$\alpha =\overset{\to }{\mathop{0}}\,$ ，使其取得最大值0，这样\[{{\theta }_{P}}(x)=\underset{\alpha ,\beta :{{\alpha }_{i}}\ge 0}{\mathop{\max }}\,L(x,\alpha ,\beta )=f(x)\]

如果违背了原来的约束条件，比如存在某一个约束${{g}_{i}}(x)>0$，那么可以取${{\alpha }_{i}}$ 任意大，这样${{\theta }_{P}}(x)=+\infty $。违反等式约束${{h}_{i}}(x)=0$的情况是类似的。

所以可以认为${{\theta }_{P}}(x)$是对原理优化问题中的约束条件进行了吸收，是原来的约束优化问题变为无约束优化问题（相对于原来变量$x$ 无约束了），即原来的优化问题可以写成：

$\begin{align}\underset{x}{\mathop{\min }}\,{{\theta }_{P}}(x)=\underset{x}{\mathop{\min }}\,\underset{\alpha ,\beta :{{\alpha }_{i}}\ge 0}{\mathop{\max }}\,L(x,\alpha ,\beta )\end{align}$

现在，称（1）为原问题，这和最初的有约束问题是等价的。

将（1）中min和max交换顺序得到对偶问题：

$\begin{align}\underset{\alpha ,\beta :{{\alpha }_{i}}\ge 0}{\mathop{\max }}\,{{\theta }_{D}}(\alpha ,\beta )=\underset{\alpha ,\beta :{{\alpha }_{i}}\ge 0}{\mathop{\max }}\,\underset{x}{\mathop{\min }}\,L(x,\alpha ,\beta )\end{align}$

其中\[{{\theta }_{D}}(\alpha ,\beta )=\underset{x}{\mathop{\min }}\,L(x,\alpha ,\beta )\]

记${{p}^{*}}$ 为原问题的最优解，对应最优解的最优变量取值为${{x}^{*}}$，则${{p}^{*}}=f({{x}^{*}})$ ；

记${{d}^{*}}$ 为对偶问题的最优解，对应最优解的最优变量取值为${{\alpha }^{*}}$、${{\beta }^{*}}$，则${{d}^{*}}={{\theta }_{D}}({{\alpha }^{*}},{{\beta }^{*}})$。

下面来说明${{d}^{*}}\le {{p}^{*}}$。

对于任意$\alpha ,\beta $（$\alpha \ge 0$ ）：

\[\begin{align*}{{\theta }_{D}}(\alpha ,\beta )&=\underset{x}{\mathop{\min }}\,L(x,\alpha ,\beta ) \\& \le L({{x}^{*}},\alpha ,\beta ) \\ & =f({{x}^{*}})+\sum\limits_{i}{{{\alpha }_{i}}{{g}_{i}}({{x}^{*}})}+\sum\limits_{i}{{{\beta }_{i}}{{h}_{i}}({{x}^{*}})} \\& \le f({{x}^{*}}) \\& ={{p}^{*}} \\\end{align*}\]

第一个不等号成立是显然的，这是由$\underset{x}{\mathop{\min }}\,L(x,\alpha ,\beta )$ 的定义直接得到的；第二个不等号成立是因为${{x}^{*}}$ 是一个可行解，所以约束条件${{g}_{i}}(x)\le 0$ 和${{h}_{i}}(x)=0$ 都满足，所以$\sum\limits_{i}{{{\alpha }_{i}}{{g}_{i}}({{x}^{*}})}\le 0$ 、$\sum\limits_{i}{{{\beta }_{i}}{{h}_{i}}({{x}^{*}})}=0$。

由于以上推导过程中$\alpha $、$\beta $的任意性，所以${{d}^{*}}={{\theta }_{D}}({{\alpha }^{*}},{{\beta }^{*}})\le {{p}^{*}}$ ，所以求解对偶问题是在最大化原问题最优解的下界。

通常，对偶问题相对于原问题有比较好的形式（有看到“无论原问题形式如何，对偶问题都是一个凸优化问题”的说法，但没见过证明。），这样，当原问题不好求解时，可以转而求解对偶问题。问题是一般情况下有${{d}^{*}}\le {{p}^{*}}$，所以求解对偶问题只能得到原问题解的下界，不能保证${{d}^{*}}={{p}^{*}}$。

当原问题满足一些条件时，可以保证${{d}^{*}}={{p}^{*}}$。

Slater条件：存在$x$ ，使得不等式约束${{g}_{i}}(x)\le 0$严格成立，即${{g}_{i}}(x)=0$。

当原问题为一凸优化问题，且满足Slater条件时，有${{d}^{*}}={{p}^{*}}$，这样就原问题和对偶问题的解一致，求解对偶问题即可。显然，Slater是凸优化问题与其对偶问题等价的一个充分条件。

KKT条件是原问题与对偶问题等价的必要条件。考虑一般优化问题（不一定是凸优化），如果有${{d}^{*}}={{p}^{*}}$，则：

\[\begin{align*}{{d}^{*}}&={{\theta }_{D}}({{\alpha }^{*}},{{\beta }^{*}}) \\& =\underset{x}{\mathop{\min }}\,L(x,{{\alpha }^{*}},{{\beta }^{*}}) \\& \le L({{x}^{*}},{{\alpha }^{*}},{{\beta }^{*}}) \\& =f({{x}^{*}})+\sum\limits_{i}{{{\alpha }_{i}}^{*}{{g}_{i}}({{x}^{*}})}+\sum\limits_{i}{{{\beta }_{i}}^{*}{{h}_{i}}({{x}^{*}})} \\& \le f({{x}^{*}}) \\& ={{p}^{*}} \\\end{align*}\]

由于${{d}^{*}}={{p}^{*}}$，所以上面推导过程中所以的不等号“$\le $ ”应该取到等号。第一个等号得到$\underset{x}{\mathop{\min }}\,L(x,{{\alpha }^{*}},{{\beta }^{*}})=L({{x}^{*}},{{\alpha }^{*}},{{\beta }^{*}})$，这说明${{x}^{*}}$ 是$L(x,{{\alpha }^{*}},{{\beta }^{*}})$的一个极值点，所以$L(x,{{\alpha }^{*}},{{\beta }^{*}})$在${{x}^{*}}$ 处的偏导为零，$\frac{\partial L(x,{{\alpha }^{*}},{{\beta }^{*}})}{\partial x}{{|}_{{{x}^{*}}}}=0$ ；第二个等号得到$f({{x}^{*}})+\sum\limits_{i}{{{\alpha }_{i}}^{*}{{g}_{i}}({{x}^{*}})}+\sum\limits_{i}{{{\beta }_{i}}^{*}{{h}_{i}}({{x}^{*}})}=f({{x}^{*}})$，所以$\sum\limits_{i}{{{\beta }_{i}}^{*}{{h}_{i}}({{x}^{*}})}=0$、$\sum\limits_{i}{{{\alpha }_{i}}^{*}{{g}_{i}}({{x}^{*}})}=0$。$\sum\limits_{i}{{{\beta }_{i}}^{*}{{h}_{i}}({{x}^{*}})}=0$是显然的，因为根据约束条件本来就有${{h}_{i}}({{x}^{*}})=0$，重点是原本的$\sum\limits_{i}{{{\alpha }_{i}}^{*}{{g}_{i}}({{x}^{*}})}\le 0$现在取到了等号。

综合以上两点，在加上原来的约束，可以得到KKT条件：

\[\left\{ \begin{matrix}\frac{\partial L(x,{{\alpha }^{*}},{{\beta }^{*}})}{\partial x}{{|}_{{{x}^{*}}}}=0 \\\sum\limits_{i}{{{\alpha }_{i}}^{*}{{g}_{i}}({{x}^{*}})}=0 \\{{\alpha }_{i}}^{*}\ge 0 \\\begin{matrix}{{g}_{i}}({{x}^{*}})\le 0 \\{{h}_{i}}({{x}^{*}})=0 \\\end{matrix} \\\end{matrix} \right.\]

KKT条件是${{d}^{*}}={{p}^{*}}$的必要条件，给出了当原问题和对偶问题等价时对应最优值点所满足的性质。

尽管KKT条件是${{d}^{*}}={{p}^{*}}$的必要条件，但当原问题是凸优化问题时，它就升级为充要条件，也就是只要找到${{x}^{*}},{{\alpha }^{*}},{{\beta }^{*}}$ 满足以上五个条件，那么原问题就和对偶问题就有相同的解，分别在${{x}^{*}}$和$({{\alpha }^{*}},{{\beta }^{*}})$处取得。

另外，根据KKT条件中的$\sum\limits_{i}{{{\alpha }_{i}}^{*}{{g}_{i}}({{x}^{*}})}=0$可以得到，${{g}_{i}}({{x}^{*}})<0\Rightarrow {{\alpha }_{i}}^{*}=0$，反过来说，只有${{g}_{i}}({{x}^{*}})=0$，${{\alpha }_{i}}^{*}$才有可能不为0，这是SVM中用到的一个重要性质。