Perceptron, Support Vector Machine and Dual Optimization Problem (3)

Support Vector Machines

Perceptron and Linear Separability

假设存在一个 linear decision boundary，它可以完美地对 training dataset 进行分割。那么，经由上述 Perceptron Algorithm 计算，它将返回哪一条 linear separator？

当 linear separator（即一个给定的超平面）的 margin $\gamma$ 越大，则该模型的归纳与概括的性能越强。从几何的角度（二维）的角度来理解非常直观，我们需要这么一条 linear separator，即，它既能对 training dataset 进行完美的分割，同时，我们希望距它最近的数据点距它的距离最大化（如上图中间的那根直线）。否则，如果存在一个数据点距该 linear separator 的距离不是那么远，从直觉来说，围绕在该数据点附近且与它 label 相同的一个新数据点随意体现出的一个随机波动，将使得这个新数据点越过 linear separator，导致分类错误。

因此，现在的问题是，如何将 margin 纳入考量以求得这条最佳的 linear boundary？支持向量机将很好地解决这个问题。

Motivation（Why SVM？）

以下是 SVM 体现出的眼见的优势：

SVM 返回一个 linear classifier，并且由于其算法使 margin solution 最大化，故这个 linear classifier 是一个稳定的解。
对 SVM 稍加改变，则能提供一种解决当数据集 non-separable 情况的方法。
SVM 同样给出了进行非线性分类的隐性方法（implicit method，即上述的 kernel transformation）。

SVM Formula

假设存在一些 margin $\gamma \in \Gamma$ 使得 training dataset $\mathcal{S} = \mathcal{X} \times \mathcal{Y}$ 线性可分（但注意 linear separator 不一定穿过空间的原点）。

那么，decision boundary：

\[g(\vec{x}) = \vec{w} \cdot \vec{x} - b = 0
\]

Linear classifier：

\[\begin{align*}
f(\vec{x}) & = \text{sign}\big( g(\vec{x}) \big) \\
& = \text{sign} \big( \vec{w} \cdot \vec{x} - b \big)
\end{align*}
\]

思路

我们先分别求两个平行的超平面，使得它们对所有的 training data point 进行正确的分类，再使这两个超平面之间的距离最大化。

这也是所谓 “支持向量机（Support Vector Machine）” 名称的由来，我们最终选定的支持向量 $\vec{w}$ 就像千斤顶一样将上述两个平行的超平面 “支撑” 开来，并且支撑开的距离也将是尽可能的最大，如下图所示。

Derivation

如上图，两个超平面的 decision boundary 可以写作：

\[\begin{cases}
\vec{w} \cdot \vec{x} - b = 1 \\
\vec{w} \cdot \vec{x} - b = -1
\end{cases}
\]

则两个超平面之间的距离为：

\[\frac{2}{||\vec{w}||}
\]

对于初学者的直观理解，推导可以通过二维平面上点到直线的距离进行类比，已知点 $(x_{0}, y_{0})$ 到直线 $Ax + By + C = 0$ 的计算公式为：

\[\frac{|Ax_{0} + By_{0} + C|}{\sqrt{A^{2} + B^{2}}}
\]

因此，设 $\vec{w} \cdot \vec{x} - b = 1$ 上任意一点的坐标为 $\vec{x_{0}}$，故满足：

\[\vec{w} \cdot \vec{x_{0}} - b - 1 = 0
\]

那么两平行超平面之间的距离为该点到另一超平面 $\vec{w} \cdot \vec{x} - b = -1$ 的距离，即：

\[\begin{align*}
\frac{|\vec{w} \cdot \vec{x_{0}} - b + 1|}{\sqrt{||\vec{w}||^{2}}} & = \frac{|\big( \vec{w} \cdot \vec{x_{0}} - b - 1 \big) + 2|}{\sqrt{||\vec{w}||^{2}}} \\
& = \frac{2}{||\vec{w}||}
\end{align*}
\]

因此，对于 $\forall i \in \mathbb{N}^{+}$，当：

\[\begin{cases}
\vec{w} \cdot \vec{x_{i}} - b \geq 1 \qquad \qquad \text{if } y_{i} = 1 \\
\vec{w} \cdot \vec{x_{i}} - b \leq -1 \qquad \quad \ \text{if } y_{i} = -1
\end{cases}
\]

则 training data 全部被正确地分类。

理解

参考上图，此处 $\vec{w} \cdot \vec{x_{i}} - b \geq 1$ 和 $\vec{w} \cdot \vec{x_{i}} - b \leq -1$ 的几何意义是，将对于 label 为 $1$ 和 $-1$ 的 data point 分别排除在超平面 $\vec{w} \cdot \vec{x} - b = 1$ 和 $\vec{w} \cdot \vec{x} - b = -1$ 的两边外侧，从而留下两个超平面之间的空档。

我们合并上面两式为一个式子，则 training data 全部被正确地分类等价于：

\[\forall i \in \mathbb{N}^{+}: ~ y_{i} \big( \vec{w} \cdot \vec{x_{i}} - b \big) \geq 1
\]

现在我们得到了两个超平面的距离表达式 $\frac{2}{||\vec{w}||}$，同时需要满足 constraints $y_{i} \big( \vec{w} \cdot \vec{x_{i}} - b \big) \geq 1$ for $\forall i \in \mathbb{N}^{+}$，我们希望在约束条件下使 $\frac{2}{||\vec{w}||}$ 最大，那么 SVM 转变为运筹问题的求解，i.e.，

\[\begin{align*}
\text{maximize: } \quad & \frac{2}{||\vec{w}||} \\
\text{subject to: } \quad & y_{i} \big( \vec{w} \cdot \vec{x_{i}} - b \big) \geq 1, \quad \forall i \in \mathbb{N}^{+}
\end{align*}
\]

SVM Standard (Primal) Form

注意到，$||\vec{w}|| \geq 0$ 恒成立，且若 $||\vec{w}|| = 0$ 时，支持向量（即权重向量）$\vec{w}$ 为零向量，使得 linear separator 无意义。故最大化 $\frac{2}{||\vec{w}||}$ 等价于最小化 $\frac{1}{2} ||\vec{w}||$。类似于线性回归中使用 Mean Square Error 而非 Mean Absolute Error 作为 loss function 的原因，$||\vec{w}||$ 在原点处不可微，因此我们选择 minimize $\frac{1}{2} ||\vec{w}||^{2}$，而非原形式 $\frac{1}{2}||\vec{w}||$，这当然是等价的。

故 SVM Standard (Primal) Form 如下：

\[\begin{align*}
\text{minimize: } \quad & \frac{1}{2} ||\vec{w}||^{2} \\
\text{subject to: } \quad & y_{i} \big( \vec{w} \cdot \vec{x_{i}} - b \big) \geq 1, \quad \forall i \in \mathbb{N}^{+}
\end{align*}
\]

SVM When Training Dataset is Non-separable

当 training dataset 无法被全部正确地分类时（即，不存在一个 margin $\gamma \in \Gamma$ 使得 training dataset $\mathcal{S} = \mathcal{X} \times \mathcal{Y}$ 线性可分），可以引入 slack variables 求解问题。

SVM Standard (Primal) Form with Slack

SVM Standard (Primal) Form with Slack 如下所示：

\[\begin{align*}
& \text{minimize: } \quad \frac{1}{2} ||\vec{w}||^{2} + C \sum\limits_{i=1}^{n} \xi_{i} \\
& \text{subject to: } \quad \begin{cases}
y_{i} \big( \vec{w} \cdot \vec{x_{i}} - b \big) \geq 1 - \xi_{i}, \quad \forall i \in \mathbb{N}^{+} \\
\xi_{i} \geq 0, \qquad \qquad \qquad \qquad \forall i \in \mathbb{N}^{+} \\
\end{cases}
\end{align*}
\]

问题：如何求解最优的 $\vec{w}, ~ b, ~ \vec{\xi}$ ？

由于涉及边界问题，我们不能在目标函数中直接对 $\vec{w}, ~ b, ~ \vec{\xi}$ 求偏导。我们有以下两种解决办法：

Projection Methods

从一个满足 constraints 的解 $\vec{x_{0}}$ 开始，求能使得 objective function 略微减小的 $\vec{x_{1}}$。如果所求到的 $\vec{x_{1}}$ 违反了 constraints，那么 project back to the constraints 进行迭代。这种方法偏向于利用算法求解，从原理上类似于梯度下降算法以及前文介绍的 Perceptron Algorithm。
Penalty Methods

使用惩罚函数将 constraints 并入 objective function，对于违反 constraints 的解 $\vec{x}$ 予以惩罚。

The Lagrange (Penalty) Method：拉格朗日（惩罚）方法

考虑增广函数：

\[L(\vec{x}, \vec{\lambda}) = f(\vec{x}) + \sum\limits_{i=1}^{n} \lambda_{i} g_{i}(\vec{x})
\]

其中，$L(\vec{x}, \vec{\lambda})$ 为拉格朗日函数，$\lambda_{i}$ 为拉格朗日变量（或对偶变量，dual variables）。

对于此类函数，我们所需要的目标的 canonical form 为：

\[\begin{align*}
\text{minimize: } \quad & f(\vec{x}) \\
\text{subject to: } \quad & g_{i}(\vec{x}), \quad \forall i \in \mathbb{N}^{+}
\end{align*}
\]

由于 $g_{i}(\vec{x}) \leq 0$ for $\forall i \in \mathbb{N}^{+}$，则对于任意的 feasible $\vec{x}$ 以及任意的 $\vec{\lambda_{i}} \geq 0$，都有：

\[L(\vec{x}, \vec{\lambda}) \leq f(\vec{x})
\]

因此：

\[\max\limits_{\lambda_{i} \geq 0} L(\vec{x}, \vec{\lambda}) \leq f(\vec{x})
\]

注意到上式中的 $\max\limits_{\lambda_{i} \geq 0} L(\vec{x}, \vec{\lambda})$，这代表我们在 $\vec{\lambda}$ 所在的空间 $[0, ~ \infty)^{n}$ 中搜索使拉格朗日函数最大的 $\vec{\lambda}$，即搜索各个对应的 $\lambda_{i} \in [0, ~ \infty)$。

尤其注意上式 是针对 feasible $\vec{x}$ 成立。因为 $\max\limits_{\lambda_{i} \geq 0} L(\vec{x}, \vec{\lambda})$ 会导致：

当 $\vec{x}$ infeasible 时，意味着 $\vec{x}$ 不满足所有约束条件 $g_{i}(\vec{x}) \leq 0$ for $\forall i \in \mathbb{N}^{+}$，这意味着：

\[\exists i: ~ g_{i}(\vec{x}) > 0
\]

那么：

\[\begin{align*}
\max\limits_{\lambda_{i} \geq 0} L(\vec{x}, \vec{\lambda}) & = \max\limits_{\lambda_{i} \geq 0} \Big( f(\vec{x}) + \sum\limits_{i=1}^{n} \lambda_{i} g_{i}(\vec{x}) \Big) \\
& = f(\vec{x}) + \max\limits_{\lambda_{i} \geq 0} \sum\limits_{i=1}^{n} \lambda_{i} g_{i}(\vec{x}) \\
& = \infty
\end{align*}
\]

这是因为：只要对应的 $\lambda_{i} \rightarrow \infty$，则 $\lambda_{i} g_{i}(\vec{x}) \rightarrow \infty$（因为 $g_{i}(\vec{x}) > 0$），从而 $\sum\limits_{i=1}^{n} \lambda_{i} g_{i}(\vec{x}) \rightarrow \infty$，故 $L(\vec{x}, \vec{\lambda}) = f(\vec{x}) + \sum\limits_{i=1}^{n} \lambda_{i} g_{i}(\vec{x}) \rightarrow \infty$。

所以此时不满足 $\max\limits_{\lambda_{i} \geq 0} L(\vec{x}, \vec{\lambda}) \leq f(\vec{x})$。
当 $\vec{x}$ feasible 时，即对于 $\forall i \in \mathbb{N}^{+}$，约束条件 $g_{i}(\vec{x}) \leq 0$ 都成立，那么：

\[\forall i \in \mathbb{N}^{+}: ~ g_{i}(\vec{x}) \quad \implies \quad\sum\limits_{i=1}^{n} \lambda_{i} g_{i}(\vec{x}) \leq 0
\]

因此 $\max\limits_{\lambda_{i} \geq 0} \sum\limits_{i=1}^{n} \lambda_{i} g_{i}(\vec{x}) = 0$，即令所有 $\lambda_{i}$ 都为 $0$，故：

\[\begin{align*}
\max\limits_{\lambda_{i} \geq 0} L(\vec{x}, \vec{\lambda}) & = \max\limits_{\lambda_{i} \geq 0} \Big( f(\vec{x}) + \sum\limits_{i=1}^{n} \lambda_{i} g_{i}(\vec{x}) \Big) \\
& = f(\vec{x}) + \max\limits_{\lambda_{i} \geq 0} \Big( \sum\limits_{i=1}^{n} \lambda_{i} g_{i}(\vec{x}) \Big) \\
& = f(\vec{x})
\end{align*}
\]

根据上述结论，给定任意 feasible $\vec{x}$ 以及任意 $\lambda_{i} \geq 0$，有：

\[L(\vec{x}, \vec{\lambda}) \leq f(\vec{x})
\]

且：

\[\max\limits_{\lambda_{i} \geq 0} L(\vec{x}, \vec{\lambda}) = \begin{cases}
f(\vec{x}) \qquad \text{if } \vec{x} \text{ feasible} \\
\infty \qquad \quad \text{if } \vec{x} \text{ infeasible}
\end{cases}
\]

因此，原先的 constrained optimization problem 的 optimal solution 为：

\[p^{\star} = \min\limits_{\vec{x}} \max\limits_{\lambda_{i} \geq 0} L(\vec{x}, \vec{\lambda})
\]

如何理解 $\min\limits_{\vec{x}} \max\limits_{\lambda_{i} \geq 0} L(\vec{x}, \vec{\lambda})$？

$L(\vec{x}, \vec{\lambda})$ 是向量 $\vec{x}$ 和 $\vec{\lambda}$ 的函数，从向量角度可以抽象为一个二元函数。因此，计算逻辑是，对于每一个给定的 $\vec{x_{0}}$，可以得到仅关于 $\vec{\lambda}$ 的函数 $L(\vec{x_{0}}, \vec{\lambda})$，然后求出使对应的 $L(\vec{x_{0}}, \vec{\lambda})$ 最大的各 $\vec{\lambda_{(\vec{x_{0}})}}^{*}$（i.e.，各 $\lambda_{i}^{*}$）。因此内层 $\max\limits_{\lambda_{i} \geq 0} L(\vec{x}, \vec{\lambda})$ 返回一个对于任意给定的 $\vec{x_{0}}$，使得 $L(\vec{x_{0}}, \vec{\lambda})$ 最大的 $\vec{\lambda}$ 的集合。那么，$\max\limits_{\lambda_{i} \geq 0} L(\vec{x}, \vec{\lambda})$ 是一个仅关于 $\vec{x}$ 的函数，再在外层求使得这个函数最小的 $\vec{x}^{*}$，即 $\min\limits_{\vec{x}} \Big( \max\limits_{\lambda_{i} \geq 0} L(\vec{x}, \vec{\lambda}) \Big)$，其结果可以写为：

\[\min\limits_{\vec{x}} \max\limits_{\lambda_{i} \geq 0} L(\vec{x}, \vec{\lambda}) = L(\vec{x}^{*}, \vec{\lambda_{(\vec{x}^{*})}}^{*})
\]

解释（为什么它是 optimal solution？）：

因为，对于任意的 $\vec{x}$（无论是否 feasible），$\max\limits_{\lambda_{i} \geq 0} L(\vec{x}, \vec{\lambda})$ 计算出的结果可能为 $f(\vec{x})$（当 $\vec{x}$ 为 feasible），也可能为 $\infty$（当 $\vec{x}$ 为 infeasible）。但没关系，在最外层的 $\min\limits_{\vec{x}}$ 可以对 $\vec{x}$ 进行筛选，使最终选出的 $\vec{x}^{*}$ 不可能为 infeasible，否则相当于 $\min\limits_{\vec{x}}$ 计算出的结果为 $\infty$，这是只要存在 feasible region 就不可能发生的事情。