CS229 笔记07

Optimal Margin Classifier

  • 回顾SVM

    \[
    \begin{eqnarray*}
    h_{w,b}&=&g(w^{\rm T}x+b)\\[1em]
    g(z)&=&\begin{cases}1&z\geq0\\[1em]-1&z<0\end{cases}\\[1em]
    y&\in&\{-1,1\}\\[1em]
    \hat\gamma^{(i)}&=&y^{(i)}\left(w^{\rm T}x+b\right)\tag{Functional Margin}\\[1em]
    \gamma^{(i)}&=&y^{(i)}\left(\frac{w^{\rm T}}{||w||}x+\frac{b}{||w||}\right)\tag{Geometric Margin}\\[1em]
    \hat\gamma&=&\min_i \hat\gamma^{(i)}\\[1em]
    \gamma&=&\min_i \gamma^{(i)}\\[1em]
    \end{eqnarray*}
    \]

  • Optimal Margin Classifier(最大间隔分类器)

    由于函数间隔 \(\hat\gamma​\) 是可以通过改变 \(w\) 和 \(b​\) 来任意缩放的,所以这里说的“最大间隔”指的是几何间隔 \(\gamma​\) ,而几何间隔所需要满足的条件是,对于任意的样本 \((x^{(i)},y^{(i)})​\) ,都有 \(\gamma^{(i)}\geq\gamma​\) ,即:

    \[
    \max \gamma\\
    {\text{s.t. }}y^{(i)}\left(\frac{w^{\rm T}}{||w||}x+\frac{b}{||w||}\right)\geq\gamma
    \]

    这就是最大间隔分类器最原始的想法,在满足所有样本到超平面的距离都大于 \(\gamma\) 的前提下,最大化这个 \(\gamma\) 。但是这就有一个问题,当找到这么一组 \((w,b)\) 满足上面的最优化条件后, \((2w,2b)\) 也将满足上面的最优化条件(因为 \((w,b)\) 和 \((2w,2b)\) 其实就是同一个超平面),所以需要限定一下缩放的原则,比如规定 \(||w||=1\) ,或者 \(w_1=1\) 等等,这个原则可以有多种方式选定。假设约定 \(||w||=1\) ,那么上面的优化问题就转变成以下的形式:

    \[
    \max \gamma\\
    {\text{s.t. }}y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)\geq\gamma {\text{ and }} ||w||=1
    \]

    然而这并不是一个很好的优化问题,因为这个 \(||w||=1\) 是一个很糟糕的非凸性约束( \(w\) 将在一个球面上取值,而球面集并不是一个凸集),所以还需要把优化问题再换一种表达方式。既然在约束条件里面很难给 \(W\) 作一个约束(因为很难找到一个约束条件既能防止 \(w\) 任意缩放,又能保证 \(w\) 的取值集合是一个凸集),那么可以尝试把 \(w\) 放到目标优化函数里面:

    \[
    \max \gamma=\max \frac{\hat\gamma}{||w||}\\
    {\text{s.t. }}y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)\geq\hat\gamma
    \]

    但是这时候目标函数 \(\hat\gamma/||w||\) 又不是一个凸函数了。注意到 \(\hat\gamma\) 是可以任意缩放的,那么可以令 \(\hat\gamma=1\) ,得到:

    \[
    \max \frac{1}{||w||}\\
    {\text{s.t. }}y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)\geq1
    \]

    把最大化目标函数转为最小化其倒数,并平方:

    \[
    \min ||w||^2\\
    {\text{s.t. }}y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)\geq1
    \]

    这就是最大间隔分类器的最终形式,其目标优化函数是一个凸函数,约束集是一个凸集。

Lagrange Multiplier

  • Lagrange Multiplier(拉格朗日常数法)的一般形式

    要解决的问题为:

    \[
    \min f(w)\\
    {\text{s.t. }}h_i(w)=0,\,(i=1,2,\cdots,l)
    \]

    要求解以上问题,首先要创建一个拉格朗日算子:

    \[
    {\mathcal L}(w,\beta)=f(w)+\sum_i\beta_ih_i(w)
    \]

    其中的 \(\beta_i\) 被称为Lagrange Multiplier(拉格朗日乘数)。

    然后令它的偏导数为0,求解方程组即可:

    \[
    \begin{eqnarray*}
    \frac{\partial{\mathcal L}(w,\beta)}{\partial w}&=&0\\[1em]
    \frac{\partial {\mathcal L}(w,\beta)}{\partial\beta}&=&0\\[1em]
    \end{eqnarray*}
    \]

  • Lagrange Multiplier(拉格朗日常数法)的扩展形式

    要求解的问题为:

    \[
    \min_w f(w)\\
    \begin{eqnarray*}
    {\text{s.t. }}g_i(w)&\leq&0,\,(i=1,2,\cdots,k)\tag{1}\\
    h_i(w)&=&0,\,(i=1,2,\cdots,l)\tag{2}\\
    \end{eqnarray*}
    \]

    拉格朗日算子为:

    \[
    {\mathcal L}(w,\alpha,\beta)=f(w)+\sum_{i=1}^k\alpha_ig_i(w)+\sum_{i=1}^l\beta_ih_i(w)\tag{3}
    \]

    定义 \(\Theta_P(w)\) 为:

    \[
    \Theta_P(w)\xlongequal{def}\max_{\alpha,\beta,\,{\text{s.t.}}\,\alpha\geq0}{\mathcal L}(w,\alpha,\beta)\tag{4}
    \]

    现在考虑另一个优化问题:

    \[
    p^*=\min_w\max_{\alpha,\beta,\,{\text{s.t.}}\,\alpha\geq0}{\mathcal L}(w,\alpha,\beta)=\min_w\Theta_P(w)
    \]

    若 \(g_i(w)>0\) ,不满足条件 \((1)\) ,那么根据等式 \((3)\) 和 \((4)\) , \(\Theta_P(w)\) 将是一个无穷大值。若 \(h_i(w)\neq0\) ,不满足条件 \((2)\) ,同理 \(\Theta_P(w)\) 也将是一个无穷大值。

    若同时满足条件 \((1)\) 和条件 \((2)\) ,那么显然:

    \[
    \Theta_P(w)=f(w)
    \]

    所以原来的优化问题也转变成新的优化问题:

    \[
    \min_w f(w)=\min_w \Theta_P(w)=p^*
    \]

Dual Problem

  • Dual Problem(对偶问题)

    定义:
    \[
    \Theta_D(\alpha, \beta)=\min_w{\mathcal L}(w,\alpha,\beta)\\
    d^*=\max_{\alpha,\beta,\,{\text{s.t.}}\,\alpha\geq0}\min_w{\mathcal L}(w,\alpha,\beta)=\max_{\alpha,\beta,\,{\text{s.t.}}\,\alpha\geq0}\Theta_D(\alpha,\beta)
    \]
    则 \(d^*\) 就是 \(p^*\) 的对偶问题,其实就是交换了 \(\min\) 和 \(\max\) 的位置。在通常情况下, \(d^*\leq p^*\) ,而这两个优化问题会有相同的解。

  • 以上问题的完整表述

    令 \(f\) 是凸函数,假设 \(h_i(w)\) 是仿射函数,即 \(h_i(w)=\alpha_i^{\rm T}w+b_i\) 。再假设:

    \[
    \exists w, {\text { s.t. }} \forall_i\, g_i(w)<0
    \]

    那么,将存在 \(w^*\) , \(\alpha^*\) , \(\beta^*\) ,使得 \(w^*\) 是原始问题 \(p^*\) 的解, \(\alpha^*\) 和 \(\beta^*\) 是对偶问题 \(d^*\) 的解,并且 \(p^*=d^*={\mathcal L}(w^*,\alpha^*,\beta^*)\) ,且:

    \[
    \begin{eqnarray*}
    \frac{\partial}{\partial w}{\mathcal L}(w^*,\alpha^*,\beta^*)&=&0\\[1em]
    \frac{\partial}{\partial \beta}{\mathcal L}(w^*,\alpha^*,\beta^*)&=&0\\[1em]
    \alpha_i^*g_i(w^*)&=&0\\[1em]
    g_i(w*)&\leq&0\\[1em]
    \alpha_i^*&\geq&0\\[1em]
    \end{eqnarray*}
    \]

重新回到最大间隔分类器

  • 准备工作

    回顾一下最大间隔分类器要优化的目标:

    \[
    \min \frac{1}{2}||w||^2\\
    {\text {s.t. }}y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)\geq1
    \]

    令 \(g(w,b)=1-y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)\leq0\) 。

    拉格朗日算子为(由于只有不等式约束,没有等式约束,所以只有参数 \(\alpha\) ,没有参数 \(\beta\) :

    \[
    {\mathcal L}(w,b,\alpha)=\frac{1}{2}||w||^2-\sum_{i=1}^m\alpha_i\left[y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)-1\right]
    \]

    其对偶问题为:

    \[
    \Theta_D(\alpha)=\max_{w,b}{\mathcal L}(w,b,\alpha)
    \]

    要想最小化目标函数,只要用目标函数对 \(w\) 求偏导,令偏导等于0,解方程即可:

    \[
    \begin{eqnarray*}
    &&\frac{\partial}{\partial w}{\mathcal L}(w,b,\alpha)\\[1em]
    &=&\frac{\partial}{\partial w}\left\{\frac{1}{2}||w||^2-\sum_{i=1}^m\alpha_i\left[y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)-1\right]\right\}\\[1em]
    &=&w-\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)}\xlongequal{set}0\\[1em]
    \therefore\,w&=&\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)} \\[1em]
    \end{eqnarray*}\\[1em]
    \]

    用目标函数对 \(b\) 求导,得到:

    \[
    \begin{eqnarray*}
    &&\frac{\partial}{\partial b}{\mathcal L}({w,b,\alpha})\\[1em]
    &=&\frac{\partial}{\partial b}\left\{\frac{1}{2}||w||^2-\sum_{i=1}^m\alpha_i\left[y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)-1\right]\right\}\\[1em]
    &=&-\sum_{i=1}^m\alpha_iy^{(i)}\xlongequal{set}0\\[1em]
    &\therefore&\,\sum_{i=1}^m\alpha_iy^{(i)}=0 \tag{5} \\[1em]
    \end{eqnarray*}
    \]

    这是一个约束条件,现在暂时还无法解出 \(b\) 。

    将上面的结果代入 \({\mathcal L}(w,b,\alpha)\) :

    \[
    \begin{eqnarray*}
    &&{\mathcal L}(w,b,\alpha)\\[1em]
    &=&\frac{1}{2}||w||^2-\sum_{i=1}^m\alpha_i\left[y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)-1\right]\\[1em]
    &=&\frac{1}{2}w^{\rm T}w-\sum_{i=1}^m\alpha_i\left[y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)-1\right]\\[1em]
    &=&\frac{1}{2}\left(\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)}\right)^{\rm T}\left(\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)}\right)-\sum_{i=1}^m\alpha_i\left[y^{(i)}\left(\left(\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)}\right)^{\rm T}x^{(i)}+b\right)-1\right]\\[1em]
    &=&\frac{1}{2}\left(\sum_{i,j}^m\alpha_i\alpha_jy^{(i)}y^{(j)}\left\langle x^{(i)},x^{(j)}\right\rangle\right)-\sum_{i=1}^m\alpha_iy^{(i)}\left(\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)}\right)^{\rm T}x^{(i)}-\sum_{i=1}^m\alpha_iy^{(i)}b+\sum_{i=1}^m\alpha_i\\[1em]
    &=&\frac{1}{2}\left(\sum_{i,j}^m\alpha_i\alpha_jy^{(i)}y^{(j)}\left\langle x^{(i)},x^{(j)}\right\rangle\right)-\sum_{i,j}^m\alpha_i\alpha_jy^{(i)}y^{(j)}\left\langle x^{(i)},x^{(j)}\right\rangle-\sum_{i=1}^m\alpha_iy^{(i)}b+\sum_{i=1}^m\alpha_i\tag{Eq.5}\\[1em]
    &=&\sum_{i=1}^m\alpha_i-\frac{1}{2}\left(\sum_{i,j}^m\alpha_i\alpha_jy^{(i)}y^{(j)}\left\langle x^{(i)},x^{(j)}\right\rangle\right)\\[1em]
    &\xlongequal{def}&W(\alpha)\\[1em]
    \end{eqnarray*}
    \]

    所以对偶问题为:

    \[
    \begin{eqnarray*}
    \Theta_D(\alpha)&=&\max_{w,b}{\mathcal L}(w,b,\alpha)\\[1em]
    &=&\max_{w,b}\left\{\sum_{i=1}^m\alpha_i-\frac{1}{2}\left(\sum_{i,j}^m\alpha_i\alpha_jy^{(i)}y^{(j)}\left\langle x^{(i)},x^{(j)}\right\rangle\right)\right\}\\[1em]
    &=&\max_{w,b}W(\alpha)\\[1em]
    {\text{s.t. }}&&\alpha_i\geq0\\[1em]
    &&\sum_{i=1}^m\alpha_iy^{(i)}=0\\[1em]
    \end{eqnarray*}
    \]

  • 解决SVM最大间隔分类器问题的步骤

    1. 首先解决对偶问题,求出 \(\alpha^*\)

    2. 然后代入 \(w=\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)}\) 求出 \(w\)

    3. 最后由于 \(b\) 代表着超平面的截距,所以只需将 \(b\) 设置在最大间隔的中间即可。

  • 模型训练之后的预测过程:

    对于一个新样本 \(x\) ,预测函数 \(h_{w,b}(x)\) 为:

    \[
    \begin{eqnarray*}
    h_{w,b}(x)&=&g(w^{\rm T}x+b)\\
    &=&g\left(\sum_{i=1}^m\alpha_iy^{(i)}\left\langle x^{(i)},x \right\rangle+b\right)
    \end{eqnarray*}
    \]

CS229 笔记07的更多相关文章

  1. 机器学习实战 - 读书笔记(07) - 利用AdaBoost元算法提高分类性能

    前言 最近在看Peter Harrington写的"机器学习实战",这是我的学习笔记,这次是第7章 - 利用AdaBoost元算法提高分类性能. 核心思想 在使用某个特定的算法是, ...

  2. JAVA自学笔记07

    JAVA自学笔记07 1.构造方法 1) 例如:Student s = new Student();//构造方法 System.out.println(s);// Student@e5bbd6 2)功 ...

  3. 学习笔记 07 --- JUC集合

    学习笔记 07 --- JUC集合 在讲JUC集合之前我们先总结一下Java的集合框架,主要包含Collection集合和Map类.Collection集合又能够划分为LIst和Set. 1. Lis ...

  4. 机器学习实战(Machine Learning in Action)学习笔记————07.使用Apriori算法进行关联分析

    机器学习实战(Machine Learning in Action)学习笔记————07.使用Apriori算法进行关联分析 关键字:Apriori.关联规则挖掘.频繁项集作者:米仓山下时间:2018 ...

  5. CS229 笔记08

    CS229 笔记08 Kernel 回顾之前的优化问题 原始问题为: \[ \min_{w,b} \frac{1}{2}||w||^2\\[1.5em] {\text{s.t.}}y^{(i)}\le ...

  6. CS229 笔记06

    CS229 笔记06 朴素贝叶斯 事件模型 事件模型与普通的朴素贝叶斯算法不同的是,在事件模型中,假设文本词典一共有 \(k\) 个词,训练集一共有 \(m\) 封邮件,第 \(i\) 封邮件的词的个 ...

  7. CS229 笔记05

    CS229 笔记05 生成学习方法 判别学习方法的主要思想是假设属于不同target的样本,服从不同的分布. 例如 \(P(x|y=0) \sim {\scr N}(\mu_1,\sigma_1^2) ...

  8. CS229 笔记04

    CS229 笔记04 Logistic Regression Newton's Method 根据之前的讨论,在Logistic Regression中的一些符号有: \[ \begin{eqnarr ...

  9. CS229 笔记03

    CS229 笔记03 局部加权线性回归 Non-Parametric Learning Algorithm (非参数学习方法) Number of parameters grows with the ...

随机推荐

  1. 使用VSCode调试单个PHP文件

    突然发现是可以使用 VSCode 调试单个 PHP 文件的,今天之前一直没有弄成功,还以为 VSCode 是不能调试单文件呢.这里记录一下今天这个"突然发现"的过程. 开始,是在看 ...

  2. 用信鸽来讲解HTTPS的知识

    加密是一个很难理解的东西,这里头满是数学证明.不过,除非你是在开发一个加密系统,否则无需了解那些高阶的复杂知识. 如果你看这篇文章是为了创造下一个 HTTPS 协议,很抱歉,请出门左走,鸽子是远远不够 ...

  3. PAT甲题题解-1052. Linked List Sorting (25)-排序

    三个注意点: 1.给出的n个节点并不一定都在链表中 2.最后一组样例首地址即为-1 3.输出地址的时候一直忘记前面要补0... #include <iostream> #include & ...

  4. No.1101_第十次团队会议

    今天项目进展很多,大家都在现在的成果而开心,信心高涨,后面的任务的完成也基本都能指日可待.之前团队出现了各种问题,沟通出现了很多障碍,导致各方面受阻.现在大家再面对面坦诚相对,交流了一下自己的想法,结 ...

  5. javascript 数组对象及其方法

    数组声明:通过let arr = new Array(); 或者 let arr = []; 数组对象可调用的方法: 1)find方法,使用情况是对数组进行筛选遍历,find方法要求某个函数(A)作为 ...

  6. Alpha冲刺第5天

    Alpha第六天 1.团队成员 郑西坤 031602542 (队长) 陈俊杰 031602504 陈顺兴 031602505 张胜男 031602540 廖钰萍 031602323 雷光游 03160 ...

  7. RocketMQ 事务消息

    RocketMQ 事务消息在实现上充分利用了 RocketMQ 本身机制,在实现零依赖的基础上,同样实现了高性能.可扩展.全异步等一系列特性. 在具体实现上,RocketMQ 通过使用 Half To ...

  8. 链表的C/C++实现

    一个链表实现,函数声明放在 list.h 头文件汇总,函数定义放在list.cpp 中,main.cpp 用来测试各个函数. 1.文件list.h // list.h #ifndef __LIST_H ...

  9. SSM框架 mapper.xml中 value的空值判断问题

    先看解决方案,其他的都是问题的出处 解决方案:if中使用 _parameter,#{value}不变 <if test="_parameter!='' and _parameter!= ...

  10. 【题解】Luogu P2047 社交网络总结 (Floyd算法,最短路计数)

    题目描述 在社交网络(social network)的研究中,我们常常使用图论概念去解释一些社会现象.不妨看这样的一个问题.在一个社交圈子里有n个人,人与人之间有不同程度的关系.我 们将这个关系网络对 ...