引言

本篇文章将详解带有约束条件的最优化问题,约束条件分为等式约束与不等式约束,对于等式约束的优化问题,可以直接应用拉格朗日乘子法去求取最优值;对于含有不等式约束的优化问题,可以转化为在满足 KKT 约束条件下应用拉格朗日乘子法求解。拉格朗日求得的并不一定是最优解,只有在凸优化的情况下,才能保证得到的是最优解,所以本文称拉格朗日乘子法得到的为可行解,其实就是局部极小值,接下来从无约束优化开始一一讲解。

无约束优化

首先考虑一个不带任何约束的优化问题,对于变量 $ x \in \mathbb{R}^N $ 的函数 $f(x)$ ,无约束优化问题如下:

\[\min_x  f(x) \]

该问题很好解,根据 Fermat 定理,直接找到使目标函数得 0 的点即可 即 $\nabla_xf(x) = 0$ ,如果没有解析解的话,可以使用梯度下降或牛顿方法等迭代的手段来使 $x$ 沿负梯度方向逐步逼近极小值点。

等式约束优化

当目标函数加上约束条件之后,问题就变成如下形式:

\begin{aligned}
&\min_{x } \  f(x)  \\
&s.t.  \ \ \ h_i(x) = 0 , i = 1,2,...,m \\
\end{aligned}

约束条件会将解的范围限定在一个可行域,此时不一定能找到使得 $\nabla_xf(x)$ 为 0 的点,只需找到在可行域内使得 $f(x)$ 最小的值即可,常用的方法即为拉格朗日乘子法,该方法首先引入 Lagrange Multiplier $\alpha \in \mathbb{R}^m$ ,构建 Lagrangian 如下:

\[L(x,\alpha) = f(x) + \sum_{i=1}^m \alpha_i h_i(x)\]

求解方法如下:首先对 Lagrangian  关于 $\alpha$ 与 $x$ 求 :

\[\left \{
\begin{aligned}
\nabla_x L(x,\alpha)= 0  \\
\nabla_{ \alpha } L(x,\alpha)= 0
\end{aligned} \right.\]

令导数为 0 ,求得 $x$ 、$\alpha$  的值后,将 $x$ 带入 $f(x)$ 即为在约束条件 $h_i(x)$ 下的可行解。这样做的意义是什么呢? 接下来看一个直观的示例,对于二维情况下的目标函数是 $f(x, y)$,在平面中画出 $f(x, y)$ 的等高线,如下图的虚线所示, 并只给出一个约束等式 $h(x,y) = 0$ ,如下图的绿线所示,目标函数 $f(x,y)$ 与约束 $g(x,y)$ 只有三种情况,相交、相切或者没有交集,没交集肯定不是解,只有相交或者相切可能是解,但相交得到的一定不是最优值,因为相交意味着肯定还存在其它的等高线在该条等高线的内部或者外部,使得新的等高线与目标函数的交点的值更大或者更小,这就意味着只有等高线与目标函数的曲线相切的时候,才可能得到可行解.

因此给出结论:拉格朗日乘子法取得极值的必要条件是目标函数与约束函数相切,这时两者的法向量是平行的,即

\[ \nabla _xf(x) – \alpha \nabla_xh(x) = 0\]

所以只要满足上述等式,且满足之前的约束 $h_i(x) = 0 , i = 1,2,…,m$ ,即可得到解,联立起来,正好得到就是拉格朗日乘子法。这里只是直观展示了一下拉格朗日乘子法的几何推导 ,并没有给出详细的证明。

不等式约束优化

当约束加上不等式之后,情况变得更加复杂,首先来看一个简单的情况,给定如下不等式约束问题:

\begin{aligned}
&\min_x \ f(x) \\
& \ s.t. \ \  g(x) \le 0
\end{aligned}

对应的 Lagrangian 与图形分别如下所示:

\[L(x, \lambda) = f(x) + \lambda g(x)\]

这时的可行解必须落在约束区域 $g(x)$ 之内,下图给出了目标函数的等高线与约束:

由图可见可行解 $x$ 只能在 $g(x) < 0$ 或者 $g(x) = 0$  的区域里取得:

  • 当可行解 $x$ 落在 $g(x) < 0$ 的区域内,此时直接极小化 $f(x)$ 即可;
  • 当可行解 $x$ 落在 $g(x) = 0$ 即边界上,此时等价于等式约束优化问题.

当约束区域包含目标函数原有的的可行解时,此时加上约束可行解扔落在约束区域内部,对应 $g(x) < 0$ 的情况,这时约束条件不起作用;当约束区域不包含目标函数原有的可行解时,此时加上约束后可行解落在边界 $g(x) = 0$ 上。下图分别描述了两种情况,右图表示加上约束可行解会落在约束区域的边界上。

以上两种情况就是说,要么可行解落在约束边界上即得 $g(x) = 0$ ,要么可行解落在约束区域内部,此时约束不起作用,另 $\lambda = 0$ 消去约束即可,所以无论哪种情况都会得到:

\[\lambda g(x) = 0\]

还有一个问题是 $\lambda$ 的取值,在等式约束优化中,约束函数与目标函数的梯度只要满足平行即可,而在不等式约束中则不然,若 $\lambda \ne 0$,这便说明 可行解 $x$ 是落在约束区域的边界上的,这时可行解应尽量靠近无约束时的解,所以在约束边界上,目标函数的负梯度方向应该远离约束区域朝向无约束时的解,此时正好可得约束函数的梯度方向与目标函数的负梯度方向应相同:

\[ -\nabla_x f(x) = \lambda  \nabla_xg(x) \]

上式需要满足的要求是拉格朗日乘子 $\lambda > 0$ ,这个问题可以举一个形象的例子,假设你去爬山,目标是山顶,但有一个障碍挡住了通向山顶的路,所以只能沿着障碍爬到尽可能靠近山顶的位置,然后望着山顶叹叹气,这里山顶便是目标函数的可行解,障碍便是约束函数的边界,此时的梯度方向一定是指向山顶的,与障碍的梯度同向,下图描述了这种情况 :

可见对于不等式约束,只要满足一定的条件,依然可以使用拉格朗日乘子法解决,这里的条件便是 KKT 条件。接下来给出形式化的 KKT 条件 首先给出形式化的不等式约束优化问题:

\begin{aligned}
&\min_x \  f(x)  \\
&s.t.  \ \ \ h_i(x) = 0 , \  i = 1,2,...,m \ \\
& \ \ \ \ \ \ \ \ \ \   g_j(x) \le 0, \  j = 1,2,...,n
\end{aligned}

列出 Lagrangian 得到无约束优化问题:

\[ L(x,\alpha,\beta) =f(x) + \sum_{i=1}^m \alpha_i h_i(x) + \sum_{j=1}^n\beta_ig_i(x) \]

经过之前的分析,便得知加上不等式约束后可行解 $x$ 需要满足的就是以下的 KKT 条件:

\begin{align}
\nabla_x L(x,\alpha,\beta) &= 0   \\
\beta_jg_j(x) &= 0  , \ j=1,2,...,n\\
h_i(x)&= 0 , \ i=1,2,...,m  \\
g_j(x) &\le 0  , \  j=1,2,...,n  \\
\beta_j &\ge  0 , \ j=1,2,...,n  \\
\end{align}

满足 KKT 条件后极小化 Lagrangian 即可得到在不等式约束条件下的可行解。 KKT 条件看起来很多,其实很好理解:

(1) :拉格朗日取得可行解的必要条件;

(2) :这就是以上分析的一个比较有意思的约束,称作松弛互补条件;

(3) $\sim$ (4) :初始的约束条件;

(5) :不等式约束的 Lagrange Multiplier 需满足的条件。

主要的KKT条件便是 (3) 和 (5) ,只要满足这俩个条件便可直接用拉格朗日乘子法, SVM 中的支持向量便是来自于此,需要注意的是 KKT 条件与对偶问题也有很大的联系,下一篇文章就是拉格朗日对偶。

参考文献:

1. 书:PRML | 《机器学习方法》-李航 |《机器学习》-周志华

2. http://blog.csdn.net/xianlingmao/article/details/7919597

3. http://blog.csdn.net/timingspace/article/details/50966105

4. http://blog.csdn.net/loadstar_kun/article/details/25369017

5. http://blog.csdn.net/johnnyconstantine/article/details/46335763

6. http://www.csc.kth.se/utbildning/kth/kurser/DD3364/Lectures/KKT.pdf nice PPT

http://www.csc.kth.se/utbildning/kth/kurser/DD3364/Lectures/Duality.pdf

7. http://www.cnblogs.com/jerrylead/archive/2011/03/13/1982684.html

约束优化方法之拉格朗日乘子法与KKT条件的更多相关文章

  1. 【机器学习之数学】03 有约束的非线性优化问题——拉格朗日乘子法、KKT条件、投影法

    目录 1 将有约束问题转化为无约束问题 1.1 拉格朗日法 1.1.1 KKT条件 1.1.2 拉格朗日法更新方程 1.1.3 凸优化问题下的拉格朗日法 1.2 罚函数法 2 对梯度算法进行修改,使其 ...

  2. 关于拉格朗日乘子法与KKT条件

    关于拉格朗日乘子法与KKT条件 关于拉格朗日乘子法与KKT条件   目录 拉格朗日乘子法的数学基础 共轭函数 拉格朗日函数 拉格朗日对偶函数 目标函数最优值的下界 拉格朗日对偶函数与共轭函数的联系 拉 ...

  3. 拉格朗日乘子法与KKT条件 && SVM中为什么要用对偶问题

    参考链接: 拉格朗日乘子法和KKT条件 SVM为什么要从原始问题变为对偶问题来求解 为什么要用对偶问题 写在SVM之前——凸优化与对偶问题 1. 拉格朗日乘子法与KKT条件 2. SVM 为什么要从原 ...

  4. 机器学习——支持向量机(SVM)之拉格朗日乘子法,KKT条件以及简化版SMO算法分析

    SVM有很多实现,现在只关注其中最流行的一种实现,即序列最小优化(Sequential Minimal Optimization,SMO)算法,然后介绍如何使用一种核函数(kernel)的方式将SVM ...

  5. 拉格朗日乘子法以及KKT条件

    拉格朗日乘子法是一种优化算法,主要用来解决约束优化问题.他的主要思想是通过引入拉格朗日乘子来将含有n个变量和k个约束条件的约束优化问题转化为含有n+k个变量的无约束优化问题. 其中,利用拉格朗日乘子法 ...

  6. 机器学习——最优化问题:拉格朗日乘子法、KKT条件以及对偶问题

    1 前言 拉格朗日乘子法(Lagrange Multiplier)  和 KKT(Karush-Kuhn-Tucker)  条件是求解约束优化问题的重要方法,在有等式约束时使用拉格朗日乘子法,在有不等 ...

  7. 装载:关于拉格朗日乘子法与KKT条件

    作者:@wzyer 拉格朗日乘子法无疑是最优化理论中最重要的一个方法.但是现在网上并没有很好的完整介绍整个方法的文章.我这里尝试详细介绍一下这方面的有关问题,插入自己的一些理解,希望能够对大家有帮助. ...

  8. 【365】拉格朗日乘子法与KKT条件说明

    参考:知乎回答 - 通过山头形象描述 参考:马同学 - 如何理解拉格朗日乘子法? 参考: 马同学 - 如何理解拉格朗日乘子法和KKT条件? 参考:拉格朗日乘数 - Wikipedia 自己总结的规律 ...

  9. 拉格朗日乘子法与KKT条件

    拉格朗日乘子法 \[min \quad f = 2x_1^2+3x_2^2+7x_3^2 \\s.t. \quad 2x_1+x_2 = 1 \\ \quad \quad \quad 2x_2+3x_ ...

随机推荐

  1. servlet 项目

    1.Servlet基础类,必须继承HttpServlet package com.fan; import java.io.IOException; import java.io.PrintWriter ...

  2. hdu 4745 Two Rabbits

    思路:求最长回文子串的长度!代码如下: #include<iostream> #include<stdio.h> #include<algorithm> #incl ...

  3. Android OpenGL 学习笔记 --开始篇

    转自: http://www.cnblogs.com/TerryBlog/archive/2010/07/09/1774475.html 1.什么是 OpenGL? OpenGL 是个专业的3D程序接 ...

  4. tomcat下context.xml中JNDI数据源配置

    jndi(Java Naming and Directory Interface,Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API.命名服务将名称和对象联系起来,使得我们可以用 ...

  5. HDU5597/BestCoder Round #66 (div.2) GTW likes function 打表欧拉函数

    GTW likes function      Memory Limit: 131072/131072 K (Java/Others) 问题描述 现在给出下列两个定义: f(x)=f_{0}(x)=\ ...

  6. Fatal error: cannot allocate memory for the buffer pool

    mysql有时候会被系统kill掉,原因是内存不够了,一般都是Ubuntu出现的,因为Ubuntu吃内存,你们又给的不多.. 咋解决呢? 重启服务器是可以的,起码暂时可以了, 可以考虑加内存,或者增加 ...

  7. MAC的一些实用

    重置Dock, Launchpad defaults write com.apple.dock ResetLaunchPad -bool true; killall Dock;

  8. java Comparable和Comaprator的对比

    Comparable使一个class具备不同实例间进行比较的行为.这些对象的集合,可作为Collections.sort或Arrays.sort的参数 Comparator可以看成一种算法的实现,将算 ...

  9. Hadoop namenode无法启动问题解决

    原因:在root账户(非hadoop账户)下操作hadoop会导致很大的问题 首先运行bin/start-all.sh发现namenode没有启动 只有它们 9428 DataNode 9712 Jo ...

  10. SQL分组查询group by

    注意:select 后的字段,必须要么包含在group by中,要么包含在having 后的聚合函数里. 1. GROUP BY 是分组查询, 一般 GROUP BY 是和聚合函数配合使用 group ...