(本文假设你已经知道了hard margin SVM的基本知识.)
如果要为Kernel methods找一个最好搭档, 那肯定是SVM. SVM从90年代开始流行, 直至2012年被deep learning打败. 但这个打败也仅仅是在Computer Vision 领域. 可以说对现在的AI研究来说, 第一火的算法当属deep learning. 第二火的仍是SVM. 单纯的SVM是一个线性分类器, 能解决的问题不多. 是kernel methods为SVM插上了一双隐形的翅膀, 让它能翱翔于AI研究的天空, 因为kernel methods可以将线性SVM变成非线性的.

问题描述

  • 给定:

    • 一个training set \(D\), 由\(m\)个二元组\((x_i, y_i)\)组成.

      • \(x_i\)是一个\(d\)维列向量, \(x_i \in R^d\)
      • \(y_i = \pm 1\), 代表\(x_i\)所属类别
      • \(i \in [1, m]\)
    • 一个kernel function \(kappa\)
  • 目标: 用D训练一个kernel svm分类器, 判断测试样本\(x \notin D\)的类别\(y\)

目标函数

假设\(\kappa\)对应的feature mapping function为\(\Phi\), 那么\(\Phi(x)\)将\(x\)从原始输入空间\(\chi:R^d\)映射到一个线性可分的特征空间\(H:R^n\). 这时用SVM对新得到的训练数据\((\Phi(x_i), y_i)\)进行线性分类.
SVM的优化目标是maximum margin. 这个margin是指正负两类decision boundaries的距离.
两个decision boundaries的方程为:
\[
w^T \Phi(x) + b = \pm 1
\]
它们的距离为:
\[
margin = \frac {2}{||w||}
\]
最大化\(d\)的值就是最小化\(||w||\)的值, 所以SVM的优化目标又可以写为:
\[
minimize : J(w) = \frac 12 w^T w
\]
因为需要正确分类所有的training data, 所以需要满足的约束条件为:
\[
y_i(w^T \Phi(x_i) + b) \ge 1, \forall i\in[1,m]
\]

对偶问题

上述优化问题的Lagrange multipliers function为:
\[
J(w, b, \alpha_1, \dots \alpha_m) = \frac 12 w^Tw - \sum_{i = 1}^m \alpha_i[y_i(w^T\Phi(x_i) + b) - 1], \alpha_i \ge 0
\]
它取得最小值的必要条件为
\[
\frac {\partial J}{\partial w} = w - \sum_{i = 1}^m \alpha_i y_i \Phi(x_i) = 0
\]
\[
\frac {\partial J}{\partial b} = \sum_{i = 1}^m \alpha_i y_i = 0
\]

\[
\to w = \sum_{i = 1}^m \alpha_i y_i \Phi(x_i) = Z^T \beta
\]
其中
\[
Z =
\left[
\begin{matrix}
\Phi(x_1)^T\\
\Phi(x_2)^T\\
\vdots \\
\Phi(x_m)^T
\end{matrix}
\right]
\qquad
\beta =
\left[
\begin{matrix}
\alpha_1y_1\\
\alpha_2y_2\\
\vdots \\
\alpha_my_m
\end{matrix}
\right]
\]

\(\to\)

\[
w^Tw = \beta^T Z Z^T \beta = \beta^TK\beta
\]

\[
w^T\Phi(x_i) = \beta^T Z \Phi(x_i) = \beta^T k_i^T = k_i\beta
\]
其中, \(K\)是kernel matrix, \(k_i\)是\(K\)的第\(i\)行.
代入 \(J(w, b, \alpha_1, \dots \alpha_m)\), 就得到了对偶问题:

\[maximumize: W(\alpha) = \sum_{i=1}^m \alpha_i + \frac 12 \beta^T K \beta - \sum_{i=1}^m \alpha_iy_ik_i\beta \]
\[ = \sum_{i=1}^m \alpha_i + \frac 12 \beta^T K \beta - \beta^T K \beta \]
\[ = \sum_{i=1}^m \alpha_i - \frac 12 \beta^T K \beta \]
\[ = \sum_{i=1}^m \alpha_i - \frac 12 \sum_{i=1}^m\sum_{j=1}^m \alpha_i\alpha_j y_i y_j \kappa(x_i, x_j) \]

它需要满足两个约束条件:
\((1)\sum_{i = 1}^m \alpha_i y_i = 0\)
\((2)\alpha_i \ge 0\)
可以解出\(W(\alpha)\)里包含的未知参数\(\alpha = (\alpha_1,\dots, \alpha_m)\).具体解法先略过.

得到\(w\)和\(b\)

\(\alpha\)已知后, 可以求得\(w\):
\[
w = \sum_{i = 1}^m \alpha_i y_i \Phi(x_i)
\]
现在就差\(b\)了. 如何求\(b\)呢? 现在回头想想SVM里的Support Vector的概念. 对于位于decision boudaries上的样本, 它们的\(y_i(w^T\Phi(x_i) + b) = 1\). 所以\(b\)可以根据支持向量, 即\(\alpha_i \neq 0\)对应的\(\Phi(x_i)\)来求得, 用\(\Phi(x_{sv})\)表示.
\[
b = y_{sv} - w^T\Phi(x_{sv}) = y_{sv} - \sum_{i = 1}^m \alpha_i y_i \Phi(x_i)^T \Phi(x_{sv}) = y_{sv} - \sum_{i=1}^m \alpha_i y_i \kappa(x_i, x_{sv})
\]
SV会存在多个, 理论上每个SV求出来的\(b\)应该是相等的. 但在现实情况中会存在计算误差, 所以一个更robust的做法是利用所有的SV求出各自的\(b\), 然后取平均值.
这个时候, \(w\)中还有\(\Phi\), 真实值是未知的, 但没关系. \(b\)则完全已知了.

预测新样本的类别

最后得到的SVM模型为
\[
y = sgn(w^T\Phi(x) + b) = sgn(\sum_{i = 1}^m \alpha_i y_i \Phi(x_i)\Phi(x) + b) = sgn(\sum_{i = 1}^m \alpha_i y_i \kappa(x_i, x) + b)
\]

Kernel Methods (4) Kernel SVM的更多相关文章

  1. Kernel Methods (2) Kernel function

    几个重要的问题 现在已经知道了kernel function的定义, 以及使用kernel后可以将非线性问题转换成一个线性问题. 在使用kernel 方法时, 如果稍微思考一下的话, 就会遇到以下几个 ...

  2. Kernel Methods (5) Kernel PCA

    先看一眼PCA与KPCA的可视化区别: 在PCA算法是怎么跟协方差矩阵/特征值/特征向量勾搭起来的?里已经推导过PCA算法的小半部分原理. 本文假设你已经知道了PCA算法的基本原理和步骤. 从原始输入 ...

  3. Kernel Methods (3) Kernel Linear Regression

    Linear Regression 线性回归应该算得上是最简单的一种机器学习算法了吧. 它的问题定义为: 给定训练数据集\(D\), 由\(m\)个二元组\(x_i, y_i\)组成, 其中: \(x ...

  4. PRML读书会第六章 Kernel Methods(核函数,线性回归的Dual Representations,高斯过程 ,Gaussian Processes)

    主讲人 网络上的尼采 (新浪微博:@Nietzsche_复杂网络机器学习) 网络上的尼采(813394698) 9:16:05 今天的主要内容:Kernel的基本知识,高斯过程.边思考边打字,有点慢, ...

  5. Kernel Methods - An conclusion

    Kernel Methods理论的几个要点: 隐藏的特征映射函数\(\Phi\) 核函数\(\kappa\): 条件: 对称, 正半定; 合法的每个kernel function都能找到对应的\(\P ...

  6. 核方法(Kernel Methods)

    核方法(Kernel Methods) 支持向量机(SVM)是机器学习中一个常见的算法,通过最大间隔的思想去求解一个优化问题,得到一个分类超平面.对于非线性问题,则是通过引入核函数,对特征进行映射(通 ...

  7. Kernel Methods for Deep Learning

    目录 引 主要内容 与深度学习的联系 实验 Cho Y, Saul L K. Kernel Methods for Deep Learning[C]. neural information proce ...

  8. Kernel methods on spike train space for neuroscience: a tutorial

    郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! 时序点过程:http://www.tensorinfinity.com/paper_154.html Abstract 在过去的十年中,人 ...

  9. Kernel Methods (6) The Representer Theorem

    The Representer Theorem, 表示定理. 给定: 非空样本空间: \(\chi\) \(m\)个样本:\(\{(x_1, y_1), \dots, (x_m, y_m)\}, x_ ...

随机推荐

  1. Qt5 发布的exe应用程序Windows下无法执行的问题解决方案

    本解决方案着重解决报错为: This application has requested the Runtime to terminate it in an unusual way. 的错误. 即: ...

  2. NOIP2015pj求和

    题目描述 一条狭长的纸带被均匀划分出了n个格子,格子编号从1到n.每个格子上都染了一种颜色color_i用[1,m]当中的一个整数表示),并且写了一个数字number_i. 定义一种特殊的三元组:(x ...

  3. ACCP7.0优化Myschool内侧题

    1) 在SQL Server 中,为数据库表建立索引能够(C ). 索引:是SQL SERVER编排数据的内部方法,是检索表中数据的直接通道 建立索引的作用:大大提高了数据库的检索速度,改善数据库性能 ...

  4. 技术专题-PHP代码审计

    作者:坏蛋链接:https://zhuanlan.zhihu.com/p/24472674来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 一.前言 php代码审计如字面 ...

  5. rpc使用举例

    #server.py from SimpleXMLRPCServer import SimpleXMLRPCServer def add(x,y): return x+y server=SimpleX ...

  6. JS/PHP 浮点数精确运算

    php浮点数精确运算 bc是Binary Calculator的缩写.bc*函数的参数都是操作数加上一个可选的 [int scale],比如string bcadd(string $left_oper ...

  7. MySQL 的乐观并发控制Optimistic concurrency control

    默认情况下, MySQL的Innodb事务隔离级别是重复读 repeatable read, SELECT @@GLOBAL.tx_isolation, @@tx_isolation;REPEATAB ...

  8. PAT 1015. 德才论 (25) JAVA

    宋代史学家司马光在<资治通鉴>中有一段著名的"德才论":"是故才德全尽谓之圣人,才德兼亡谓之愚人,德胜才谓之君子,才胜德谓之小人.凡取人之术,苟不得圣人,君子 ...

  9. ASP.NET 单点登陆

    第一种:同主域但不同子域之间实现单点登陆 Form验证其实是基于身份cookie的验证.客户登陆后,生成一个包含用户身份信息(包含一个ticket)的cookie,这个cookie的名字就是在web. ...

  10. DEDECMS之九 文章采集

    到很多网友都为织梦(DEDECMS)的采集教程头疼,的确,官方出的教程太笼统了,什么都没说,换个网站你什么都做不了,这个教程是最详尽的教程,让你一看即会! 一.列表采集 第一步.我们打开织梦后台点击采 ...