1. 前言

在前一篇支持向量机（SVM）原理中，我们对线性可分SVM的模型和损失函数优化做了总结。但是大家有没发现，之前的文章介绍的支持向量机会无法处理一些情况，比如在有0，1两类，在0类的中间出现了几个1类的异常点，这样的话要之前最原始的SVM绝对分离两个类基本是不可能的了。本文对支持向量机做一个推广，允许超平面能够错分一些点，来达到能分离异常点。

2. SVM异常点问题

有时候本来数据的确是可分的，也就是说可以用线性分类SVM的学习方法来求解，但是却因为混入了异常点，导致不能线性可分，比如下图，本来数据是可以按下面的实线来做超平面分离的，可以由于一个橙色和一个蓝色的异常点导致我们没法按照上一篇线性支持向量机中的方法来分类。

另外一种情况没有这么糟糕到不可分，但是会严重影响我们模型的泛化预测效果，比如下图，本来如果我们不考虑异常点，SVM的超平面应该是下图中的红色线所示，但是由于有一个蓝色的异常点，导致我们学习到的超平面是下图中的粗虚线所示，这样会严重影响我们的分类模型预测效果。

3. 线性分类SVM的软间隔最大化

前一篇的SVM由于是绝对分离类别，我们可以称之为硬间隔SVM。公式为

\[
min\;\; \frac{1}{2}||w||_2^2 \;\; s.t \;\; y_i(w^Tx_i + b) \geq 1 (i =1,2,...m)
\]
本文介绍的软间隔是：SVM对训练集里面的每个样本(xi,yi)引入了一个松弛变量\(\xi_i\geq0\),使函数间隔加上松弛变量大于等于1，也就是说条件变量改为如下：

\[
y_i(w\bullet x_i +b) \geq 1- \xi_i
\]
加入松弛变量\(\xi_i\)后，损失函数就需要改写为

\[
min\;\; \frac{1}{2}||w||_2^2 +C\sum\limits_{i=1}^{m}\xi_i
\]
\[
s.t. \;\; y_i(w^Tx_i + b) \geq 1 - \xi_i \;\;(i =1,2,...m)
\]
\[
\xi_i \geq 0 \;\;(i =1,2,...m)
\]
这里，\(C>0\)为惩罚参数，可以理解为我们一般回归和分类问题正则化时候的参数。\(C\)越大，对误分类的惩罚越大，\(C\)越小，对误分类的惩罚越小。

也就是说，我们希望\(\frac{1}{2}||w||^2_2\)尽量小，误分类的点尽可能的少。\(C\)是协调两者关系的正则化惩罚系数。在实际应用中，需要调参来选择。

这个目标函数的优化和上一篇的线性可分SVM的优化方式类似，我们下面就来看看怎么对线性分类SVM的软间隔最大化来进行学习优化。

4. 拉格朗日对偶化

我们将软间隔最大化的约束问题用拉格朗日函数转化为无约束问题公司如下：

\[
L(w,b,\xi,\alpha,\mu) = \frac{1}{2}||w||_2^2 +C\sum\limits_{i=1}^{m}\xi_i - \sum\limits_{i=1}^{m}\alpha_i[y_i(w^Tx_i + b) - 1 + \xi_i] - \sum\limits_{i=1}^{m}\mu_i\xi_i
\]
我们现在要优化的目标函数是：

\[
\underbrace{min}_{w,b,\xi}\; \underbrace{max}_{\alpha_i \geq 0, \mu_i \geq 0,} L(w,b,\alpha, \xi,\mu)
\]
这个优化目标也满足KKT条件，也就是说，我们可以通过拉格朗日对偶将我们的优化问题转化为等价的对偶问题来求解如下：

\[
\underbrace{max}_{\alpha_i \geq 0, \mu_i \geq 0,} \; \underbrace{min}_{w,b,\xi}\; L(w,b,\alpha, \xi,\mu)
\]
最后求出的结果很干净，和之前的结果也非常像，如下：

\[
\underbrace{ min }_{\alpha} \frac{1}{2}\sum\limits_{i=1,j=1}^{m}\alpha_i\alpha_jy_iy_j(x_i \bullet x_j) - \sum\limits_{i=1}^{m}\alpha_i
\]
\[
s.t. \; \sum\limits_{i=1}^{m}\alpha_iy_i = 0
\]
\[
0 \leq \alpha_i \leq C
\]

这就是软间隔最大化时的线性可分SVM的优化目标形式，和上一篇的硬间隔最大化的线性可分SVM相比，我们仅仅是多了一个约束条件\(0≤\alpha_i≤C\)。我们依然可以通过SMO算法来求上式极小化时对应的\(\alpha\)向量就可以求出\(w\)和\(b\)了。

5. Hinge损失函数

我们从另一个角度来解读软间隔的损失函数，表达式如下：

\[
\underbrace{ min}_{w, b}[1-y_i(w \bullet x + b)]_{+} + \lambda ||w||_2^2
\]

其中\(L(y(w \bullet x + b)) = [1-y_i(w \bullet x + b)]_{+}\)称为合页损失函数(hinge loss function)，下标+表示为：

\[
[z]_{+}= \begin{cases} z & {z >0}\\ 0& {z\leq 0} \end{cases}
\]

也就是说，如果点被正确分类，且函数间隔大于1，损失是0，否则损失是\(1-y(w \bullet x + b)\),如下图中的绿线。我们在下图还可以看出其他各种模型损失和函数间隔的关系：对于0-1损失函数，如果正确分类，损失是0，误分类损失1，如下图黑线，可见0-1损失函数是不可导的。对于感知机模型，感知机的损失函数是\([-y_i(w \bullet x + b)]_{+}\)，这样当样本被正确分类时，损失是0，误分类时，损失是\(-y_i(w \bullet x + b)\)，如下图紫线。对于逻辑回归之类和最大熵模型对应的对数损失，损失函数是\(log[1+exp(-y(w \bullet x + b))]\), 如下图红线所示。

6. 总结

线性可分SVM通过软间隔最大化，可以解决线性数据集带有异常点时的分类处理，但是现实生活中的确有很多数据不是线性可分的，这些线性不可分的数据也不是去掉异常点就能处理这么简单。那么SVM怎么能处理中这样的情况呢？我们在下一篇就来讨论线性不可分SVM和核函数的原理。

5. 支持向量机（SVM）软间隔的更多相关文章

线性可分支持向量机与软间隔最大化--SVM(2)
线性可分支持向量机与软间隔最大化--SVM 给定线性可分的数据集假设输入空间(特征向量)为,输出空间为. 输入表示实例的特征向量,对应于输入空间的点: 输出表示示例的类别. 我们说可以通过间隔最 ...
机器学习，详解SVM软间隔与对偶问题
今天是机器学习专题的第34篇文章,我们继续来聊聊SVM模型. 我们在上一篇文章当中推导了SVM模型在硬间隔的原理以及公式,最后我们消去了所有的变量,只剩下了\(\alpha\).在硬间隔模型当中,样本 ...
机器学习之支持向量机—SVM原理代码实现
支持向量机—SVM原理代码实现本文系作者原创,转载请注明出处:https://www.cnblogs.com/further-further-further/p/9596898.html 1. 解决 ...
复习支持向量机(SVM)没空看书时，掌握下面的知识就够了
支持向量机(support vector machines, SVM)是一种二类分类模型.它的基本模型是定义在特征空间上的间隔最大的线性分类器:支持向量机还包括核技巧,这使它成为实质上的非线性分类器. ...
一步步教你轻松学支持向量机SVM算法之理论篇1
一步步教你轻松学支持向量机SVM算法之理论篇1 (白宁超 2018年10月22日10:03:35) 摘要:支持向量机即SVM(Support Vector Machine) ,是一种监督学习算法,属于 ...
支持向量机(SVM)的推导(线性SVM、软间隔SVM、Kernel Trick)
线性可分支持向量机给定线性可分的训练数据集,通过间隔最大化或等价地求解相应的凸二次规划问题学习到的分离超平面为 \[w^{\ast }x+b^{\ast }=0\] 以及相应的决策函数 \[f\le ...
支持向量机（SVM）必备概念(凸集和凸函数，凸优化问题，软间隔，核函数，拉格朗日乘子法，对偶问题，slater条件、KKT条件）
SVM目前被认为是最好的现成的分类器,SVM整个原理的推导过程也很是复杂啊,其中涉及到很多概念,如:凸集和凸函数,凸优化问题,软间隔,核函数,拉格朗日乘子法,对偶问题,slater条件.KKT条件还有 ...
支持向量机 (二)：软间隔 svm 与核函数
软间隔最大化(线性不可分类svm) 上一篇求解出来的间隔被称为 "硬间隔(hard margin)",其可以将所有样本点划分正确且都在间隔边界之外,即所有样本点都满足 \(y_{i ...
SVM支持向量机——核函数、软间隔
支持向量机的目的是寻找一个能讲两类样本正确分类的超平面,很多时候这些样本并不是线性分布的. 由此,可以将原始特征空间映射到更高维的特征空间,使其线性可分.而且,如果原始空间是有限维,即属性数量有限, ...

随机推荐

HDU 3018 Ant Trip （欧拉回路）
Ant Trip Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Su ...
Postgresql 正则表达式
在postgresql中使用正则表达式时需要使用关键字“~”,以表示该关键字之前的内容需匹配之后的正则表达式,若匹配规则不需要区分大小写,可以使用组合关键字“~*”: 相反,若需要查询不匹配这则表达式 ...
【struts2】值栈（后篇）
在值栈(前篇)我们学习了值栈的基本知识,接下来,来看看在程序中具体如何使用值栈. 1 ActionContext的基本使用 1.1 如何获取? 要获取ActionContext有两个基本的方法,如果在 ...
SQL plan directives
SQL plan directives SQL plan directives含有优化器产生优化的执行计划时需要的附加信息和指令. 在sql执行时,如果cardinality估计有错误,数据库就会创建 ...
使用equals方法时，要注意
这是我在项目中犯的一个低级错误: 使用equals方法时,要注意这个方法是boolean java.lang.String.equals(Object anObject)传递的是Object,所以传任 ...
WEB服务器搭建–IIS
功能作用 IIS是一个World Wide Web server.Gopher server和FTP server全部包容在里面. IIS意味着你能发布网页,并且有ASP(Active Server ...
频分复用（Frequency Division Multiplexer）
作者:桂. 时间:2017年12月19日20:43:04 链接:http://www.cnblogs.com/xingshansi/p/8067839.html 前言主要记录基本的频分复用原理,以及 ...
MySql（十五）：MySql架构设计——可扩展性设计之 Cache 与 Search 的利用
前言前面章节部分所分析的可扩展架构方案,基本上都是围绕在数据库自身来进行的,这样是否会使我们在寻求扩展性之路的思维受到“禁锢”,无法更为宽广的发散开来.这一章,我们就将跳出完全依靠数据库自身来改善扩 ...
MySql（二）：MySql架构组成
主要架构就是这张图展示的具体细节看下面文章: MySql 物理文件组成 MySQL 自带工具使用介绍 Mysql Server系统架构介绍
Linux内核设计基础（一）之中断处理
假设让内核定期对设备进行轮询.以便处理设备,那会做非常多无用功,假设能让设备在须要内核时主动通知内核,会是一个聪明的方式,这便是中断. 在响应一个特定中断时,内核会运行一个函数--中断处理程序. 中断 ...

5. 支持向量机（SVM）软间隔

1. 感知机原理（Perceptron）

2. 感知机(Perceptron)基本形式和对偶形式实现

3. 支持向量机（SVM）拉格朗日对偶性（KKT）

4. 支持向量机（SVM）原理