1、原始问题

假设$f(x)$,$c_i(x)$,$h_j(x)$是定义在$R^n$上的连续可微函数,$x \in R^n$。考虑以下三类优化问题。

1、无约束的优化问题:

\begin{align*}
\mathop{min}\limits_{x \in R^n}f(x)
\end{align*}

这个只需对函数求导,求极值点即可。

2、如果增加等式约束条件,则变为如下优化问题:

\begin{align*}
& \mathop{min}\limits_{x \in R^n}f(x) \\
& s.t. \quad h_j(x) = 0, \quad j = 1,2,3 \cdots ,l
\end{align*}

该优化问题可通过拉格朗日乘子法解决。定义拉格朗日函数:

\begin{align*}
\mathcal{L}(x_1,\cdots ,x_n,\beta_1,\cdots ,\beta_l) = f(x_1,\cdots ,x_n) - \sum_{j=1}^{l}\beta_jh_j(x_1,\cdots ,x_n)
\end{align*}

函数$\mathcal{L}$的极值点包含原问题的所有极值点。对原问题求解时,我们只需求出$\mathcal{L}$的所有极值点,带入$f(x)$一一检验即可。

3、增加不等式约束条件:

\begin{align*}
&\mathop{min}\limits_{x \in R^n}f(x) \tag{C.1} \\
s.t. \quad & c_i(x) \leq 0, \quad i=1,2, \cdots , k \tag{C.2} \\
& h_j(x) = 0, \quad j = 1,2,\cdots ,l \tag{C.3}
\end{align*}

下面将讨论对该问题的求解。并将该优化问题称为原始问题(primal problem)。

首先定义广义拉格朗日函数(generalized Lagrange function):

\begin{align*}
\mathcal{L} = f(x) + \sum_{i=1}^{k}\alpha_i c_i(x) + \sum_{j=1}^{l}\beta_i h_j(x) \tag{C.4}
\end{align*}

其中,$x \in R^n$。$\alpha_i$、$\beta_i$是拉格朗日乘子并且满足$\alpha_i \geq 0$。考虑关于$x$的函数:

\begin{align*}
\theta_P(x) = \mathop{max}\limits_{\alpha \geq 0, \beta }\mathcal{L}(x, \alpha , \beta ) \tag{C.5}
\end{align*}

注意,这是一个以$x$为自变量的函数。求解过程是:给定一个$x_0$,求函数$\mathcal{L(x_0, \alpha, \beta)}$的最大值,此时$x_0$是定值(也就是常数),$\alpha$、$\beta$是自变量。

下标P表示原始(primal)问题。

给定某个$x$,如果$x$违反约束条件,也就是存在某个$i$满足$c_i(x) > 0$,或者存在某个j满足$h_j(x)  \neq 0$,可以得到以下结论:

\begin{align*}
\theta_P(x) = [f(x) + \sum_{i=1}^{k}\alpha_i c_i(x) + \sum_{j=1}^{l}\beta_j h_j(x)] = +\infty \tag{C.6}
\end{align*}

因为若存在某个$i$满足$c_i(x) > 0$,可取$\alpha_i = +\infty$,若存在某个j满足$c_j(x)  \neq 0$,可取$\beta_j = = +\infty$。其余的$\alpha$和$\beta$均取0。如此可得$\theta_P(x) = +\infty$。

如果$x$满足约束条件,由约束条件(C.3)可知$\sum_{j=1}^{l}\beta_j h_j(x) = 0$,由约束条件(C.2)和$\alpha_i \geq 0$可知$\sum_{i=1}^{k}\alpha_i c_i(x)  \leq  0$。可以得到:

\begin{align*}
\theta_P(x)  = f(x)
\end{align*}

并且此时满足$\sum_{i=1}^{k}\alpha_i c_i(x)  =  0$。再由(C.2)和$\alpha_i \geq 0$可知,必须满足$\alpha_i = 0$或者$c_i(x) = 0$。这是SVM的很多重要性质的来源,如支持向量的概念。

综上所述,

\begin{align*}
\theta_P(x) = \left\{\begin{matrix}
f(x), \quad c_i(x) \leq 0 \quad and \quad h_j(x) = 0 \\
+\infty , \quad c_i(x) > 0 \quad or \quad h_j(x) \neq 0
\end{matrix}\right. \tag{C.7}
\end{align*}

所以原问题(C.1)~(C.3)等价于:

\begin{align*}
\mathop{min}\limits_{x}\theta_P(x) = \mathop{min}\limits_{x} \mathop{max}\limits_{\alpha \geq 0, \beta} \mathcal{L}(x,\alpha ,\beta) \tag{C.8}
\end{align*}

为了方便,定义原问题的最优值:

\begin{align*}
p^* = \mathop{min}\limits_{x}\theta_P(x) \tag{C.9}
\end{align*}

2、对偶问题

定义关于$\alpha$、$\beta$的函数

\begin{align*}
\theta_D(\alpha, \beta) = \mathop{min}\limits_{x}\mathcal{L}(x,\alpha,\beta) \tag{C.10}
\end{align*}

可以得到最优化问题:

\begin{align*}
& \mathop{max}\limits_{\alpha,\beta}\theta_D(\alpha,\beta) = \mathop{max}\limits_{\alpha,\beta}\mathop{min}\limits_{x}\mathcal{L}(x,\alpha,\beta) \tag{C.12} \\
& s.t. \quad \alpha_i \geq 0, \quad i = 1,2,\cdots k \tag{C.13}
\end{align*}

该问题成为原问题的对偶问题。原问题和对偶问题并不是等价的。

定义对偶问题的最优解为$d^*$,则有$d^* \geq p^*$(证明略)。

定理C.2 考虑原始问题(C.1)~(C.3)和对偶问题(C.12)~(C.13)。假设$f(x)和c_i(x)$是凸函数,$h_j(x)$是仿射函数;并且假设不等式约束$c_i(x)$是严格可行的,即存在$x$,对所有$i$有$c_i(x)<0$,则存在$x^*$,$\alpha^*$,$\beta^*$,使$x^*$是原始问题的解,$\alpha^*$,$\beta^*$是对偶问题的解,并且:

\begin{align*}
p^* = d^* = L(x^*,\alpha^*,\beta^*) \tag{C.20}
\end{align*}

定理C.3 对原问题的对偶问题, 假设$f(x)$和$c_i(x)$是凸函数,$h_j(x)$是仿射函数(一阶多项式,可理解为线性函数),并且不等式约束是严格可行的(即存在$x$,对所有的$i$有$c_i(x) < 0$),则原问题和对偶问题具有相同解的充要条件是最优解$x^*$,$\alpha^*$,$\beta^*$满足下面的KKT条件:

\begin{align*}
& \nabla_x \mathcal{L}(x^*,\alpha^*,\beta^*) = 0 \\
& \nabla_{\alpha} \mathcal{L}(x^*,\alpha^*,\beta^*) = 0 \\
& \nabla_{\beta} \mathcal{L}(x^*,\alpha^*,\beta^*) = 0 \\
& \alpha_i^* c_i(x^*) = 0 \\
& c_i(x^*) \leq 0 \\
& \alpha_i^* \geq 0 \\
& h_j(x^*) = 0
\end{align*}

参考文献:

李航:《统计学习方法》 附录C

wikipedia:拉格朗日乘数

支持向量机(SVM)必备知识(KKT、slater、对偶)

SVM系列第七讲--KKT条件

附录C--拉格朗日对偶性的更多相关文章

  1. 3. 支持向量机(SVM)拉格朗日对偶性(KKT)

    1. 感知机原理(Perceptron) 2. 感知机(Perceptron)基本形式和对偶形式实现 3. 支持向量机(SVM)拉格朗日对偶性(KKT) 4. 支持向量机(SVM)原理 5. 支持向量 ...

  2. 拉格朗日对偶性(Lagrange duality)

    目录 拉格朗日对偶性(Lagrange duality) 1. 从原始问题到对偶问题 2. 弱对偶与强对偶 3. KKT条件 Reference: 拉格朗日对偶性(Lagrange duality) ...

  3. A-08 拉格朗日对偶性

    目录 拉格朗日对偶性 一.原始问题 1.1 约束最优化问题 1.2 广义拉格朗日函数 1.3 约束条件的考虑 二.对偶问题 三.原始问题和对偶问题的关系 3.1 定理1 3.2 推论1 3.3 定理2 ...

  4. 简易解说拉格朗日对偶(Lagrange duality)(转载)

    引言:尝试用最简单易懂的描述解释清楚机器学习中会用到的拉格朗日对偶性知识,非科班出身,如有数学专业博友,望多提意见! 1.原始问题 假设是定义在上的连续可微函数(为什么要求连续可微呢,后面再说,这里不 ...

  5. 简易解说拉格朗日对偶(Lagrange duality)

    引言:尝试用最简单易懂的描述解释清楚机器学习中会用到的拉格朗日对偶性知识,非科班出身,如有数学专业博友,望多提意见! 1.原始问题 假设是定义在上的连续可微函数(为什么要求连续可微呢,后面再说,这里不 ...

  6. 支持向量机 (一): 线性可分类 svm

    支持向量机(support vector machine, 以下简称 svm)是机器学习里的重要方法,特别适用于中小型样本.非线性.高维的分类和回归问题.本系列力图展现 svm 的核心思想和完整推导过 ...

  7. svm 之 线性可分支持向量机

    定义:给定线性可分训练数据集,通过间隔最大化或等价的求解凸二次规划问题学习获得分离超平面和分类决策函数,称为线性可分支持向量机. 目录: • 函数间隔 • 几何间隔 • 间隔最大化 • 对偶算法 1. ...

  8. 【十大经典数据挖掘算法】SVM

    [十大经典数据挖掘算法]系列 C4.5 K-Means SVM Apriori EM PageRank AdaBoost kNN Naïve Bayes CART SVM(Support Vector ...

  9. [Machine Learning & Algorithm]CAML机器学习系列2:深入浅出ML之Entropy-Based家族

    声明:本博客整理自博友@zhouyong计算广告与机器学习-技术共享平台,尊重原创,欢迎感兴趣的博友查看原文. 写在前面 记得在<Pattern Recognition And Machine ...

  10. 机器学习笔记—svm算法(上)

    本文申明:本文原创,如转载请注明原文出处. 引言:上一篇我们讲到了logistic回归,今天我们来说一说与其很相似的svm算法,当然问题的讨论还是在线性可分的基础下讨论的. 很多人说svm是目前最好的 ...

随机推荐

  1. cocos2d-x 游戏开发之有限状态机(FSM) (三)

    cocos2d-x 游戏开发之有限状态机(FSM) (三) 有限状态机简称FSM,现在我们创建一个专门的FSM类,负责管理对象(Monkey)的状态.然后Monkey类就实现了行为与状态分离.Monk ...

  2. Hibernate学习大全

    第1课 课程内容. 6 第2课Hibernate UML图. 6 第3课 风格. 7 第4课 资源. 7 第5课 环境准备. 7 第6课 第一个示例HibernateHelloWorld 7 第7课 ...

  3. Media Player Classic - HC 源代码分析 3:核心类 (CMainFrame)(2)

    ===================================================== Media Player Classic - HC 源代码分析系列文章列表: Media P ...

  4. EBS-子库存转移和物料搬运单区别

    FROM:http://bbs.erp100.com/forum.php?mod=viewthread&tid=261550&extra=page%3D7 EBS-子库存转移和物料搬运 ...

  5. Android BLE与终端通信(三)——客户端与服务端通信过程以及实现数据通信

    Android BLE与终端通信(三)--客户端与服务端通信过程以及实现数据通信 前面的终究只是小知识点,上不了台面,也只能算是起到一个科普的作用,而同步到实际的开发上去,今天就来延续前两篇实现蓝牙主 ...

  6. Spring 官网jar下载

    1,首先输入http://spring.io/进入Spring官网 2,点击project 栏,找到Spring framwork 3,点击reference 4,找到Distribution Zip ...

  7. 恶补web之六:javascript知识(1)

    javascript(下称js)是一种轻量级编程语言,它可以插入html页面然后由浏览器执行. document.write("<h1>...</h1>") ...

  8. Kubernetes如何支持有状态服务的部署?

    作者:Jack47 转载请保留作者和原文出处 PS:如果喜欢我写的文章,欢迎关注我的微信公众账号程序员杰克,两边的文章会同步,也可以添加我的RSS订阅源. Kubernetes对无状态服务有完善的支持 ...

  9. 《转》优化UITableViewCell高度计算的那些事

    我是前言 这篇文章是我和我们团队最近对 UITableViewCell 利用 AutoLayout 自动高度计算和 UITableView 滑动优化的一个总结.我们也在维护一个开源的扩展,UITabl ...

  10. Android 加载gif图片强大框架(支持预加载、缓存,还支持显示静态图片,一行代码全搞定)

    之前项目中没有涉及到显示gif图片的功能,也没有着重研究过,最近项目中要用到显示gif图片,于是就在网上一顿搜,用过之后发现如下几个缺点. 1.加载大的gif图片会出现oom. 2.没有预加载和缓存功 ...