Kernel Methods (4) Kernel SVM
(本文假设你已经知道了hard margin SVM的基本知识.)
如果要为Kernel methods找一个最好搭档, 那肯定是SVM. SVM从90年代开始流行, 直至2012年被deep learning打败. 但这个打败也仅仅是在Computer Vision 领域. 可以说对现在的AI研究来说, 第一火的算法当属deep learning. 第二火的仍是SVM. 单纯的SVM是一个线性分类器, 能解决的问题不多. 是kernel methods为SVM插上了一双隐形的翅膀, 让它能翱翔于AI研究的天空, 因为kernel methods可以将线性SVM变成非线性的.
问题描述
- 给定:
- 一个training set \(D\), 由\(m\)个二元组\((x_i, y_i)\)组成.
- \(x_i\)是一个\(d\)维列向量, \(x_i \in R^d\)
- \(y_i = \pm 1\), 代表\(x_i\)所属类别
- \(i \in [1, m]\)
- 一个kernel function \(kappa\)
- 一个training set \(D\), 由\(m\)个二元组\((x_i, y_i)\)组成.
- 目标: 用D训练一个kernel svm分类器, 判断测试样本\(x \notin D\)的类别\(y\)
目标函数
假设\(\kappa\)对应的feature mapping function为\(\Phi\), 那么\(\Phi(x)\)将\(x\)从原始输入空间\(\chi:R^d\)映射到一个线性可分的特征空间\(H:R^n\). 这时用SVM对新得到的训练数据\((\Phi(x_i), y_i)\)进行线性分类.
SVM的优化目标是maximum margin. 这个margin是指正负两类decision boundaries的距离.
两个decision boundaries的方程为:
\[
w^T \Phi(x) + b = \pm 1
\]
它们的距离为:
\[
margin = \frac {2}{||w||}
\]
最大化\(d\)的值就是最小化\(||w||\)的值, 所以SVM的优化目标又可以写为:
\[
minimize : J(w) = \frac 12 w^T w
\]
因为需要正确分类所有的training data, 所以需要满足的约束条件为:
\[
y_i(w^T \Phi(x_i) + b) \ge 1, \forall i\in[1,m]
\]
对偶问题
上述优化问题的Lagrange multipliers function为:
\[
J(w, b, \alpha_1, \dots \alpha_m) = \frac 12 w^Tw - \sum_{i = 1}^m \alpha_i[y_i(w^T\Phi(x_i) + b) - 1], \alpha_i \ge 0
\]
它取得最小值的必要条件为
\[
\frac {\partial J}{\partial w} = w - \sum_{i = 1}^m \alpha_i y_i \Phi(x_i) = 0
\]
\[
\frac {\partial J}{\partial b} = \sum_{i = 1}^m \alpha_i y_i = 0
\]
\[
\to w = \sum_{i = 1}^m \alpha_i y_i \Phi(x_i) = Z^T \beta
\]
其中
\[
Z =
\left[
\begin{matrix}
\Phi(x_1)^T\\
\Phi(x_2)^T\\
\vdots \\
\Phi(x_m)^T
\end{matrix}
\right]
\qquad
\beta =
\left[
\begin{matrix}
\alpha_1y_1\\
\alpha_2y_2\\
\vdots \\
\alpha_my_m
\end{matrix}
\right]
\]
\(\to\)
\[
w^Tw = \beta^T Z Z^T \beta = \beta^TK\beta
\]
\[
w^T\Phi(x_i) = \beta^T Z \Phi(x_i) = \beta^T k_i^T = k_i\beta
\]
其中, \(K\)是kernel matrix, \(k_i\)是\(K\)的第\(i\)行.
代入 \(J(w, b, \alpha_1, \dots \alpha_m)\), 就得到了对偶问题:
\[maximumize: W(\alpha) = \sum_{i=1}^m \alpha_i + \frac 12 \beta^T K \beta - \sum_{i=1}^m \alpha_iy_ik_i\beta \]
\[ = \sum_{i=1}^m \alpha_i + \frac 12 \beta^T K \beta - \beta^T K \beta \]
\[ = \sum_{i=1}^m \alpha_i - \frac 12 \beta^T K \beta \]
\[ = \sum_{i=1}^m \alpha_i - \frac 12 \sum_{i=1}^m\sum_{j=1}^m \alpha_i\alpha_j y_i y_j \kappa(x_i, x_j) \]
它需要满足两个约束条件:
\((1)\sum_{i = 1}^m \alpha_i y_i = 0\)
\((2)\alpha_i \ge 0\)
可以解出\(W(\alpha)\)里包含的未知参数\(\alpha = (\alpha_1,\dots, \alpha_m)\).具体解法先略过.
得到\(w\)和\(b\)
\(\alpha\)已知后, 可以求得\(w\):
\[
w = \sum_{i = 1}^m \alpha_i y_i \Phi(x_i)
\]
现在就差\(b\)了. 如何求\(b\)呢? 现在回头想想SVM里的Support Vector的概念. 对于位于decision boudaries上的样本, 它们的\(y_i(w^T\Phi(x_i) + b) = 1\). 所以\(b\)可以根据支持向量, 即\(\alpha_i \neq 0\)对应的\(\Phi(x_i)\)来求得, 用\(\Phi(x_{sv})\)表示.
\[
b = y_{sv} - w^T\Phi(x_{sv}) = y_{sv} - \sum_{i = 1}^m \alpha_i y_i \Phi(x_i)^T \Phi(x_{sv}) = y_{sv} - \sum_{i=1}^m \alpha_i y_i \kappa(x_i, x_{sv})
\]
SV会存在多个, 理论上每个SV求出来的\(b\)应该是相等的. 但在现实情况中会存在计算误差, 所以一个更robust的做法是利用所有的SV求出各自的\(b\), 然后取平均值.
这个时候, \(w\)中还有\(\Phi\), 真实值是未知的, 但没关系. \(b\)则完全已知了.
预测新样本的类别
最后得到的SVM模型为
\[
y = sgn(w^T\Phi(x) + b) = sgn(\sum_{i = 1}^m \alpha_i y_i \Phi(x_i)\Phi(x) + b) = sgn(\sum_{i = 1}^m \alpha_i y_i \kappa(x_i, x) + b)
\]
Kernel Methods (4) Kernel SVM的更多相关文章
- Kernel Methods (2) Kernel function
几个重要的问题 现在已经知道了kernel function的定义, 以及使用kernel后可以将非线性问题转换成一个线性问题. 在使用kernel 方法时, 如果稍微思考一下的话, 就会遇到以下几个 ...
- Kernel Methods (5) Kernel PCA
先看一眼PCA与KPCA的可视化区别: 在PCA算法是怎么跟协方差矩阵/特征值/特征向量勾搭起来的?里已经推导过PCA算法的小半部分原理. 本文假设你已经知道了PCA算法的基本原理和步骤. 从原始输入 ...
- Kernel Methods (3) Kernel Linear Regression
Linear Regression 线性回归应该算得上是最简单的一种机器学习算法了吧. 它的问题定义为: 给定训练数据集\(D\), 由\(m\)个二元组\(x_i, y_i\)组成, 其中: \(x ...
- PRML读书会第六章 Kernel Methods(核函数,线性回归的Dual Representations,高斯过程 ,Gaussian Processes)
主讲人 网络上的尼采 (新浪微博:@Nietzsche_复杂网络机器学习) 网络上的尼采(813394698) 9:16:05 今天的主要内容:Kernel的基本知识,高斯过程.边思考边打字,有点慢, ...
- Kernel Methods - An conclusion
Kernel Methods理论的几个要点: 隐藏的特征映射函数\(\Phi\) 核函数\(\kappa\): 条件: 对称, 正半定; 合法的每个kernel function都能找到对应的\(\P ...
- 核方法(Kernel Methods)
核方法(Kernel Methods) 支持向量机(SVM)是机器学习中一个常见的算法,通过最大间隔的思想去求解一个优化问题,得到一个分类超平面.对于非线性问题,则是通过引入核函数,对特征进行映射(通 ...
- Kernel Methods for Deep Learning
目录 引 主要内容 与深度学习的联系 实验 Cho Y, Saul L K. Kernel Methods for Deep Learning[C]. neural information proce ...
- Kernel methods on spike train space for neuroscience: a tutorial
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! 时序点过程:http://www.tensorinfinity.com/paper_154.html Abstract 在过去的十年中,人 ...
- Kernel Methods (6) The Representer Theorem
The Representer Theorem, 表示定理. 给定: 非空样本空间: \(\chi\) \(m\)个样本:\(\{(x_1, y_1), \dots, (x_m, y_m)\}, x_ ...
随机推荐
- NOIP2015聪明的质检员[二分 | 预处理]
背景 NOIP2011 day2 第二题 描述 小T 是一名质量监督员,最近负责检验一批矿产的质量.这批矿产共有 n 个矿石,从 1到n 逐一编号,每个矿石都有自己的重量 wi 以及价值vi .检验矿 ...
- NOIP2015跳石头[二分答案]
题目背景 一年一度的“跳石头”比赛又要开始了! 题目描述 这项比赛将在一条笔直的河道中进行,河道中分布着一些巨大岩石.组委会已经选 择好了两块岩石作为比赛起点和终点.在起点和终点之间,有 N 块岩石( ...
- Integer & int & == & equals
int 是基本类型,直接存数值,integer是对象,用一个引用指向这个对象 int 是基本数据类型,Integer是类 int类的变量初始为0,Integer的变量则初始化为null. 如果只是用来 ...
- Guava 是个风火轮之函数式编程(3)——表处理
云栖社区> 博客列表> 正文 Guava 是个风火轮之函数式编程(3)--表处理 潘家邦 2016-01-26 13:19:21 浏览1062 评论0 java Guava 摘要: 早先学 ...
- single单例模式
单例模式:多用于数据库连接,保证数据库只连接一次,避免重复连接.因为多次打开服务器会造成服务器负担,运行速度会减慢. 以下是一个连接数据库的单例模式: <?php class db_mysql{ ...
- [No00005F]读书与心智
读千卷书,行万里路,不够…还得有个对谈者相伴,才更有意思.十月七号晚上,与友人谈读书,线上直播,三百观众相伴,四小时畅谈,不亦乐乎! Part1:读书的载体 散发出最浓郁的知识芬芳和铭刻下最隽永的历史 ...
- HTML 学习笔记(链接)
HTML链接 超链接可以是一个字,一个词,或者一组词,也可以是一幅图像,您可以点击这些内容来跳转到新的文档或者当前文档中的某个部分. 当您把鼠标指针移动到网页中的某个链接上时,箭头会变为一只小手. 我 ...
- addClass, removeClass, toggleClass(从jquery中抠出来)
<div id="d3" class="cur"></div> var mylibs = (function(){ var rtrim ...
- Linux中 groupadd 和 useradd 的命令说明
groupadd [options] group 说明The groupadd command creates a new group account using the values specifi ...
- [资料]自动化e2e测试 -- WebDriverJS,Jasmine和Protractor
1. http://sentsin.com/web/658.html 2. http://www.tuicool.com/articles/AnE3Mb 3. http://www.doc88.com ...