简单理解 SVM

SVM，中文名叫支持向量机。

在深度学习出现以前，它是数据挖掘的宠儿；

SVM具有十分完整的数据理论证明，但同时理论也相当复杂。

初识SVM

同其他分类算法一样，SVM分类也是寻找合适的决策边界，为方便理解，以二分类为例。

假设存在二分类样本，我们一定可以找到一个超平面将类别分开，但是通常会存在很多这样的超平面。

那取哪个呢？

直观感受

直观来看，应该取中间那条粗线，因为这条线对样本的“容忍性”最好，也就是说样本发生微小变化，不会影响分类结果，但是其他细线，如果样本发生微小变化，都会使得分类结果发生变化，也就是说粗线作为决策边界，其鲁棒性最好。

数学解释

从直观上看，取粗线为宜，但是这条粗线有很多的平行线，都可以实现分类，那么怎么取呢？

我们把这条粗线向两边平移，直至粗线和两边离他最近的样本重合，此时生成了2个新的超平面，记为 b11，b12，然后我们可以把之前的粗线移动到b11和b12的中间，确保粗线到b11和b12的距离相等

假设我们有两条粗线B1，B2，分别完成上述操作，

b11和b12之间的距离，叫做B1这条决策边界的边际（margin），也有叫“间隔”，记为d，当然也有把b11和B1的距离叫边际的，无所谓，不影响理论

显然拥有更大的边际的决策边界泛化能力更强

与b11和b12相交的样本点叫支持向量

数学建模

如何找到具有最大边际的决策边界呢？

假设这个超平面为 wx+b=0

超平面上取两点x1，x2，则

wx1+b=0

wx2+b=0

w(x1-x2)=0，故w与x1-x2垂直，即w为超平面的法向量。

超平面外任意点到平面的距离为

此时把支持向量带入上式，即可得到

d=2r，带有绝对值，不好处理。

解释

1. 上图把超平面的表达形式稍微变化了一下，而且进行了一系列的推导

2. 其实最开始也有解释，如果向两侧平移不同距离，那么应该先调整决策边界到两个新平面的中间，此时3个平面的wb都要做调整。

3. 上图是许多资料未讲明的地方

4. 上图是个变换过程，如果二分类的标签不是-1 1，也可以变换成-1 1

上图的结论是

假设是二分类，那么决策边界 wx+b=0 向两侧平移1，可得

等号成立的条件就是支持向量，此时 |wx+b|=1，那么

这就是边际d。

欲使边际最大，就是 maxd

注意，在训练过程中，我们使用的是全部样本，而不单是支持向量，而全部样本存在约束

综合表示就是 y(wx+b)>1,

那么目标为

最大转换为最小，方便计算

w加了平方，也是方便计算，不影响，w最小，w平方也就最小

以上就是SVM的基础理论。

拉格朗日乘子与对偶问题

其实上面的目标函数已经是个凸函数，可以用梯度下降等优化算法来求解，但是SVM使用了另一种优化算法，即拉格朗日对偶函数，

这部分比较麻烦，如果你不是专门研究SVM，没必要太纠结这块，因为即使你弄明白了，过一段时间就会忘记。

核函数

上面讲到用超平面来划分样本，但现实中很多问题是线性不可分的，此时不存在可划分类别的超平面。

对于这样的问题，需要将样本从原始空间映射到一个更高维的空间，使得样本在新的特征空间线性可分。

如果原始空间有限，那么一定存在一个高维空间使得样本可分。

这种映射其实就是一个函数，我们称之为核函数。

常用的核函数有

一般情况下会先用高斯核试试，但经验告诉我们，文本一般使用线性核。

核函数的计算也是可以简化的

软间隔与正则化

SVM总是在寻找超平面使得样本能够完全被分开，但是由于现实中数据杂质很多，完全分开很容易造成过拟合。

缓解这个问题的思路就是允许部分样本被错误划分，于是提出了“软间隔”的概念（相对有“硬间隔”的概念）

可以看到红色样本被错误划分

此时的红色样本实际为1（-1），预测为-1（1），已经不满足 y(wx+b)>1的约束条件，

那对应我们的目标函数怎么改呢？去掉约束吗？显然不能

在分类时，我们虽然容忍部分样本被错误划分，但是我们希望被错误划分的样本越少越好，也就是说我们希望大部分样本仍然满足约束条件。

目标函数可改为

C是个>0的常数，也就是正则项系数，这里叫容忍系数

l_0/1是“0/1损失函数”

当样本被错误分类时，y(wx+b)<0，y(wx+b)-1<0，l_0/1=1，

当样本被正确分类时，l_0/1=0

要使目标函数最小，就要使后面那部分最小，然而当样本被错误划分时，后面为1，如果C很大，那么后面那部分就很大，显然不符合我们的目标，所以需要1尽可能少，也就是错误划分尽可能少。

当C无穷大时，就是不能错误划分，后面那部分是0，目标函数最小，也就是“硬间隔”。

所以C越大，模型越“精确”。

由于l_0/1函数非凸，非连续，数学性质不太好，所以要用其他函数来替代它，称为“替代损失”

三种常用的替代损失函数

总结

SVM的理论十分复杂，上面只是介绍了冰山一角，有助于你在实际项目中完成调参工作。

参考资料：

周志华《机器学习》

简单理解 SVM的更多相关文章

支持向量机通俗导论（理解SVM的三层境界）
原文链接:http://blog.csdn.net/v_july_v/article/details/7624837 作者:July.pluskid :致谢:白石.JerryLead 出处:结构之法算 ...
支持向量机通俗导论（理解SVM的三层境地）
支持向量机通俗导论(理解SVM的三层境地) 作者:July :致谢:pluskid.白石.JerryLead.出处:结构之法算法之道blog. 前言动笔写这个支持向量机(support vector ...
支持向量机通俗导论（理解SVM的三层境界）(ZT）
支持向量机通俗导论(理解SVM的三层境界) 原文:http://blog.csdn.net/v_JULY_v/article/details/7624837 作者:July .致谢:pluskid.白 ...
支持向量机通俗导论（理解SVM的三层境界）【非原创】
支持向量机通俗导论(理解SVM的三层境界) 作者:July :致谢:pluskid.白石.JerryLead. 出处:结构之法算法之道blog. 前言动笔写这个支持向量机(support vecto ...
机器学习之深入理解SVM
在浏览本篇博客之前,最好先查看一下我写的还有一篇文章机器学习之初识SVM(点击可查阅哦).这样能够更好地为了结以下内容做铺垫! 支持向量机学习方法包括构建由简至繁的模型:线性可分支持向量机.线性支持向 ...
支持向量机通俗导论（理解SVM的三层境界） by v_JULY_v
支持向量机通俗导论(理解SVM的三层境界) 前言动笔写这个支持向量机(support vector machine)是费了不少劲和困难的,原因很简单,一者这个东西本身就并不好懂,要深入学习和研究下去 ...
支持向量机通俗导论（理解SVM的三层境界）[转]
作者:July .致谢:pluskid.白石.JerryLead.说明:本文最初写于2012年6月,而后不断反反复复修改&优化,修改次数达上百次,最后修改于2016年11月.声明:本文于201 ...
我是这样理解--SVM，不需要繁杂公式的那种！(附代码)
1. 讲讲SVM 1.1 一个关于SVM的童话故事支持向量机(Support Vector Machine,SVM)是众多监督学习方法中十分出色的一种,几乎所有讲述经典机器学习方法的教材都会介绍.关 ...
git的简单理解及基础操作命令
前端小白一枚,最近开始使用git,于是花了2天看了廖雪峰的git教程(偏实践,对于学习git的基础操作很有帮助哦),也在看<git版本控制管理>这本书(偏理论,内容完善,很不错),针对所学 ...

随机推荐

Redis（四）-持久化
1.Redis将所有数据存储在内存中,从内存同步到磁盘上,就做持久化过程. 2.持久化有两种方式:rdb(Redis Database)和aof(Append of file) # rdb持久化方法: ...
CPU利用率和CPU负荷(CPU usage vs CPU load)
对于CPU的性能监测,通常用top指令能显示出两个指标:cpu 利用率和cpu负荷. 其中%Cpu相关的内容: us表示用户进程cpu利用率,sy表示系统内核进程cpu利用率,ni表示运行正常进程消耗 ...
Oracle解决ora-01653 无法通过1024扩展
综合上述检查结果,可断定遇到的问题是因为可能性1—表空间不足导致.解决办法也就是扩大表空间扩大表空间的四种方法: 1.增加数据文件 ALTER TABLESPACE ***_TRD ADD DATA ...
8.4 GOF设计模式三: 外观模式 Facade
GOF设计模式三: 外观模式 Facade  “现有系统”功能强大.复杂,开发“新系统”需要用到其中一部分,但又要增加一部分新功能,该怎么办?4.1 Facade Pattern: Key Fea ...
CF数据结构练习(二)
1. 833D Red-Black Cobweb 大意: 给定树, 边为黑色或白色, 求所有黑白边比例在$[\frac{1}{2},2]$内的路径边权乘积的乘积. 考虑点分治, 记黑边数为$a$, 白 ...
CRM 员工创建并分配用户
REPORT zjp_emp_upload. TABLES: sscrfields. DATA:gt_excel_data TYPE TABLE OF zalsmex_tabline, gs_exce ...
RBMQ发布和订阅消息
RBMQ发布和订阅消息 exchange 参考翻译自: RabbitMQ官网生产者并非将消息直接发送到queue,而是发送到exchange中,具体将消息发送到特定的队列还是多个队列,或者是丢弃,取 ...
php+redis 实现消息队列的推送【demo】。
用redis做队列,为了缓解瞬间请求服务器的压力.实际开发当中可通过定时任务去做.当然缺点是不够实时. 1.添加一个php文件,PushQueue.php <?php $redis=new re ...
转：为什么根据IP地址查询物理所在地，而不是mac地址？
来自 https://mp.weixin.qq.com/s/aOZQGMnMI2nkX4-qcJL4WQ 读者不是说mac地址是计算机网卡唯一的地址吗?这样不是可以直接定位到某一台机器吗?为什么要用 ...
MVC，MVP和MVVM三种开发模式
MVC: mvc模式:意思是软件可分为三部分: 视图(View):用户页面控制器(Controller):控制器模型(Model):模型通讯方式: 1.View 传送指令到Controller ...

简单理解 SVM

简单理解 SVM的更多相关文章

随机推荐

热门专题