(本文假设你已经知道了hard margin SVM的基本知识.)
如果要为Kernel methods找一个最好搭档, 那肯定是SVM. SVM从90年代开始流行, 直至2012年被deep learning打败. 但这个打败也仅仅是在Computer Vision 领域. 可以说对现在的AI研究来说, 第一火的算法当属deep learning. 第二火的仍是SVM. 单纯的SVM是一个线性分类器, 能解决的问题不多. 是kernel methods为SVM插上了一双隐形的翅膀, 让它能翱翔于AI研究的天空, 因为kernel methods可以将线性SVM变成非线性的.

问题描述

给定:
- 一个training set \(D\), 由\(m\)个二元组\((x_i, y_i)\)组成.
  - \(x_i\)是一个\(d\)维列向量, \(x_i \in R^d\)
  - \(y_i = \pm 1\), 代表\(x_i\)所属类别
  - \(i \in [1, m]\)
- 一个kernel function \(kappa\)
目标: 用D训练一个kernel svm分类器, 判断测试样本\(x \notin D\)的类别\(y\)

目标函数

假设\(\kappa\)对应的feature mapping function为\(\Phi\), 那么\(\Phi(x)\)将\(x\)从原始输入空间\(\chi:R^d\)映射到一个线性可分的特征空间\(H:R^n\). 这时用SVM对新得到的训练数据\((\Phi(x_i), y_i)\)进行线性分类.
SVM的优化目标是maximum margin. 这个margin是指正负两类decision boundaries的距离.
两个decision boundaries的方程为:
\[
w^T \Phi(x) + b = \pm 1
\]
它们的距离为:
\[
margin = \frac {2}{||w||}
\]
最大化\(d\)的值就是最小化\(||w||\)的值, 所以SVM的优化目标又可以写为:
\[
minimize : J(w) = \frac 12 w^T w
\]
因为需要正确分类所有的training data, 所以需要满足的约束条件为:
\[
y_i(w^T \Phi(x_i) + b) \ge 1, \forall i\in[1,m]
\]

对偶问题

上述优化问题的Lagrange multipliers function为:
\[
J(w, b, \alpha_1, \dots \alpha_m) = \frac 12 w^Tw - \sum_{i = 1}^m \alpha_i[y_i(w^T\Phi(x_i) + b) - 1], \alpha_i \ge 0
\]
它取得最小值的必要条件为
\[
\frac {\partial J}{\partial w} = w - \sum_{i = 1}^m \alpha_i y_i \Phi(x_i) = 0
\]
\[
\frac {\partial J}{\partial b} = \sum_{i = 1}^m \alpha_i y_i = 0
\]

\[
\to w = \sum_{i = 1}^m \alpha_i y_i \Phi(x_i) = Z^T \beta
\]
其中
\[
Z =
\left[
\begin{matrix}
\Phi(x_1)^T\\
\Phi(x_2)^T\\
\vdots \\
\Phi(x_m)^T
\end{matrix}
\right]
\qquad
\beta =
\left[
\begin{matrix}
\alpha_1y_1\\
\alpha_2y_2\\
\vdots \\
\alpha_my_m
\end{matrix}
\right]
\]

\(\to\)

\[
w^Tw = \beta^T Z Z^T \beta = \beta^TK\beta
\]

\[
w^T\Phi(x_i) = \beta^T Z \Phi(x_i) = \beta^T k_i^T = k_i\beta
\]
其中, \(K\)是kernel matrix, \(k_i\)是\(K\)的第\(i\)行.
代入 \(J(w, b, \alpha_1, \dots \alpha_m)\), 就得到了对偶问题:

\[maximumize: W(\alpha) = \sum_{i=1}^m \alpha_i + \frac 12 \beta^T K \beta - \sum_{i=1}^m \alpha_iy_ik_i\beta \]
\[ = \sum_{i=1}^m \alpha_i + \frac 12 \beta^T K \beta - \beta^T K \beta \]
\[ = \sum_{i=1}^m \alpha_i - \frac 12 \beta^T K \beta \]
\[ = \sum_{i=1}^m \alpha_i - \frac 12 \sum_{i=1}^m\sum_{j=1}^m \alpha_i\alpha_j y_i y_j \kappa(x_i, x_j) \]

它需要满足两个约束条件:
\((1)\sum_{i = 1}^m \alpha_i y_i = 0\)
\((2)\alpha_i \ge 0\)
可以解出\(W(\alpha)\)里包含的未知参数\(\alpha = (\alpha_1,\dots, \alpha_m)\).具体解法先略过.

得到\(w\)和\(b\)

\(\alpha\)已知后, 可以求得\(w\):
\[
w = \sum_{i = 1}^m \alpha_i y_i \Phi(x_i)
\]
现在就差\(b\)了. 如何求\(b\)呢? 现在回头想想SVM里的Support Vector的概念. 对于位于decision boudaries上的样本, 它们的\(y_i(w^T\Phi(x_i) + b) = 1\). 所以\(b\)可以根据支持向量, 即\(\alpha_i \neq 0\)对应的\(\Phi(x_i)\)来求得, 用\(\Phi(x_{sv})\)表示.
\[
b = y_{sv} - w^T\Phi(x_{sv}) = y_{sv} - \sum_{i = 1}^m \alpha_i y_i \Phi(x_i)^T \Phi(x_{sv}) = y_{sv} - \sum_{i=1}^m \alpha_i y_i \kappa(x_i, x_{sv})
\]
SV会存在多个, 理论上每个SV求出来的\(b\)应该是相等的. 但在现实情况中会存在计算误差, 所以一个更robust的做法是利用所有的SV求出各自的\(b\), 然后取平均值.
这个时候, \(w\)中还有\(\Phi\), 真实值是未知的, 但没关系. \(b\)则完全已知了.

预测新样本的类别

最后得到的SVM模型为
\[
y = sgn(w^T\Phi(x) + b) = sgn(\sum_{i = 1}^m \alpha_i y_i \Phi(x_i)\Phi(x) + b) = sgn(\sum_{i = 1}^m \alpha_i y_i \kappa(x_i, x) + b)
\]

Kernel Methods (4) Kernel SVM的更多相关文章

Kernel Methods (2) Kernel function
几个重要的问题现在已经知道了kernel function的定义, 以及使用kernel后可以将非线性问题转换成一个线性问题. 在使用kernel 方法时, 如果稍微思考一下的话, 就会遇到以下几个 ...
Kernel Methods (5) Kernel PCA
先看一眼PCA与KPCA的可视化区别: 在PCA算法是怎么跟协方差矩阵/特征值/特征向量勾搭起来的?里已经推导过PCA算法的小半部分原理. 本文假设你已经知道了PCA算法的基本原理和步骤. 从原始输入 ...
Kernel Methods (3) Kernel Linear Regression
Linear Regression 线性回归应该算得上是最简单的一种机器学习算法了吧. 它的问题定义为: 给定训练数据集\(D\), 由\(m\)个二元组\(x_i, y_i\)组成, 其中: \(x ...
PRML读书会第六章 Kernel Methods（核函数，线性回归的Dual Representations，高斯过程，Gaussian Processes）
主讲人网络上的尼采 (新浪微博:@Nietzsche_复杂网络机器学习) 网络上的尼采(813394698) 9:16:05 今天的主要内容:Kernel的基本知识,高斯过程.边思考边打字,有点慢, ...
Kernel Methods - An conclusion
Kernel Methods理论的几个要点: 隐藏的特征映射函数\(\Phi\) 核函数\(\kappa\): 条件: 对称, 正半定; 合法的每个kernel function都能找到对应的\(\P ...
核方法（Kernel Methods）
核方法(Kernel Methods) 支持向量机(SVM)是机器学习中一个常见的算法,通过最大间隔的思想去求解一个优化问题,得到一个分类超平面.对于非线性问题,则是通过引入核函数,对特征进行映射(通 ...
Kernel Methods for Deep Learning
目录引主要内容与深度学习的联系实验 Cho Y, Saul L K. Kernel Methods for Deep Learning[C]. neural information proce ...
Kernel methods on spike train space for neuroscience: a tutorial
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! 时序点过程:http://www.tensorinfinity.com/paper_154.html Abstract 在过去的十年中,人 ...
Kernel Methods (6) The Representer Theorem
The Representer Theorem, 表示定理. 给定: 非空样本空间: \(\chi\) \(m\)个样本:\(\{(x_1, y_1), \dots, (x_m, y_m)\}, x_ ...

随机推荐

给深度学习入门者的Python快速教程 - numpy和Matplotlib篇
始终无法有效把word排版好的粘贴过来,排版更佳版本请见知乎文章: https://zhuanlan.zhihu.com/p/24309547 实在搞不定博客园的排版,排版更佳的版本在: 给深度学习入 ...
java 27 - 1 反射之类的加载器
说到反射,首先说类的加载器. 类的加载: 当程序要使用某个类时,如果该类还未被加载到内存中,则系统会通过加载,连接,初始化三步来实现对这个类进行初始化. 加载: 就是指将class文件读入内存,并为之 ...
oracle round 函数,replace()函数
(1)如何使用 Oracle Round 函数 (四舍五入)描述 : 传回一个数值,该数值是按照指定的小数位元数进行四舍五入运算的结果.SELECT ROUND( number, [ decimal_ ...
HTML 学习笔记 CSS3 (边框)
CSS3边框通过CSS3边框你能够创建远角边框向矩形边框添加阴影使用图片来绘制边框 . CSS3的边框属性主要包含以下几种 border-radius 边框圆角 box-shadow 边框阴 ...
window.open与window.close的兼容性问题
window.open(页面地址url,打开的方式) 方法打开一个新的窗口(页面) 如果url为空,则默认打开一个空白页面如果打开方式为空,默认为新窗口方式打开返回值:返回新打开窗口的windo ...
text
链接: 初识 TextKit 如何实现自己没实现过的需求之文本动画
Codevs 1506 传话（floyd大法好）。
1506 传话时间限制: 1 s 空间限制: 128000 KB 题目等级 : 白银 Silver 题解题目描述 Description 一个朋友网络,如果a认识b,那么如果a第 ...
perl 下使用非root用户安装模块
perl下安装模块可以使用cpan命令,但是通常我们不具有root用户权限,所以只能以sudo方式安装模块. 例如需要安装Net::SCP::Expect模块, 执行cpan Net::SCP::Ex ...
PHP 基础笔记
数据类型字符串整数浮点数布尔值数组对象 NULL 未定义的变量,数据类型为 NULL. PHP 中数组和对象是不同的类型,而 js 中数组即为对象.(ps: es6 已经内置了 class ...
谈谈数据监听observable的实现
一.概述数据监听实现上就是当数据变化时会通知我们的监听器去更新所有的订阅处理,如: var vm = new Observer({a:{b:{x:1,y:2}}}); vm.watch('a.b.x ...

Kernel Methods (4) Kernel SVM