[机器学习]SVM原理

　　SVM是机器学习中神一般的存在，虽然自深度学习以来有被拉下神坛的趋势，但不得不说SVM在这个领域有着举足轻重的地位。本文从Hard SVM 到 Dual Hard SVM再引进Kernel Trick，然后推广到常用的Soft Kernel SVM。

　　一、Hard SVM

　　SVM本身是从感知机算法演变而来，感知机算法是在一个线性可分的数据集中找到一个分类超平面，尽可能的将数据集划分开，理论上这样的超平面有无数多个，但是从直觉上，我们知道离两侧数据都比较远的超平面更适合用于分类，于是我们选择了一个比较“胖”的边界的超平面作为分类界，这就是SVM。

　　我们知道一个超平面wx+b=0，w是这个超平面的法向量，则平面外一点到这个平面的距离为：d=1/||W||*|W^Tx+b|（解析几何的知识）。绝对值符号会导致函数不平滑，又因为数据集是线性可分的，所以我们可以把距离公式改写为：d=1/||W||*y_i·(W^Tx_i+b)（具体可以参考感知机）。那么我们就有了最基本的优化对象：

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　max_w,b margin(b,w)

　　　　　　　　　　　　　　　　　　　　　　　　subject to:for every n y_i·(W^Tx_i+b)>0

　　　　　　　　　　　　　　　　　　　　　　　　　　　　margin(b,w) = min_w,b d

　　我们知道同时放缩一个超平面的系数并不会改变这个超平面，such as 3wx+3b=0=wx+b，所以我们可以假设离我们超平面最近的那个向量到平面的距离为1，即让y_i·(W^Tx_i+b)=1，那么原来的优化问题就变为了：

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　max_w,b 1/||W||

　　　　　　　　　　　　　　　　　　　　　　　　subject to:for every n y_i·(W^Tx_i+b)>0 (已经满足)

　　　　　　　　　　　　　　　　　　　　　　　　　　　　 min_i y_i·(W^Tx_i+b)≥1

　　最大化问题不是很好解决，我们可以转换为我们熟悉最小化问题：

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　min_w,b 0.5*W^T*W

　　　　　　　　　　　　　　　　　　　　　　　　 subject to:min_i y_i·(W^Tx_i+b)≥1

　　很明显这是一个二次规划问题，我们有成熟的算法如SMO，来解决这样的问题。

　　二、Dual SVM　　　　

　　对于一个已经解决的问题，为什么我们还要考虑它的对偶问题？这是因为化作对偶问题后会更容易求解，同样也方便引入Kernel Trick。

　　考虑原始SVM问题：　　　　　　

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　 min_w,b 0.5*W^T*W

　　　　　　　　　　　　　　　　　　　　　　　　　　　　 subject to:all i y_i·(W^Tx_i+b)≥1

　　我们改变其形式，转化为：

　　　　　　　　　　　　　　　　　　　　　　　　　　min_w,b(max_{all α>0} 0.5*W^T*W+∑α(1-y_i·(W^Tx_i+b)))

　　我们发现如果满足了条件α的值会变成0，如果不满足就会变成+∞，以此来约束我们的条件。然后我们从极小极大的问题转换为极大极小的问题。　　

　　　　 min_w,b(max_{all α>0} 0.5*W^T*W+∑α(1-y_i·(W^Tx_i+b))) ≥ min_w,b(0.5*W^T*W+∑α(1-y_i·(W^Tx_i+b))

　　　　min_w,b(0.5*W^T*W+∑α(1-y_i·(W^Tx_i+b))≥max_{all α>0}(min_w,b 0.5*W^T*W+∑α(1-y_i·(W^Tx_i+b)))

　　而max_{all α>0}(min_w,b 0.5*W^T*W+∑α(1-y_i·(W^Tx_i+b)))就是我们的Lagrange Dual Problem。这是我们原问题的一个下界，那么什么时候能够取得等号呢？根据拉格朗日对偶问题，当优化函数和条件是凸函数时，对偶问题是原问题的解的充要条件即为KKT 条件。然后我们求解对偶问题的极小问题，对w，b求偏导，令其等于0，得到结果为

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　L(w,b,α)=-0.5*||∑αyx||²+∑α

　　我们就可以来解决极大问题了，原始优化问题就可以转化为：

　　　　　　　　　　　　　　　　　　　　　　　　　 max_{all α>0} _{∑yα = 0 w=∑αyx} -0.5*||∑αyx||²+∑α

　　这显然又是一个二次规划问题！所以就可以求解了，然后用KKT条件来求解w,b。这就是对偶问题的求解方案。

　　三、Kernel Trick

　　当数据不是线性可分的，那么SVM就失去了作用，但是我们可以寻找一种函数将数据映射到更高维的空间中，以此把问题变成一个线性可分的问题，但是这会带来维度的急剧上升，使得模型求解效率大大下降，而Kernel Trick就是为了解决这样的问题而出现的！（下回补完！）

　　四、Soft SVM

[机器学习]SVM原理的更多相关文章

机器学习之支持向量机—SVM原理代码实现
支持向量机—SVM原理代码实现本文系作者原创,转载请注明出处:https://www.cnblogs.com/further-further-further/p/9596898.html 1. 解决 ...
文本分类学习（五）机器学习SVM的前奏-特征提取（卡方检验续集）
前言: 上一篇比较详细的介绍了卡方检验和卡方分布.这篇我们就实际操刀,找到一些训练集,正所谓纸上得来终觉浅,绝知此事要躬行.然而我在躬行的时候,发现了卡方检验对于文本分类来说应该把公式再变形一般,那样 ...
Support Vector Machine (1) : 简单SVM原理
目录 Support Vector Machine (1) : 简单SVM原理 Support Vector Machine (2) : Sequential Minimal Optimization ...
机器学习 | 深入SVM原理及模型推导（一）
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是机器学习专题的第32篇文章,我们来聊聊SVM. SVM模型大家可能非常熟悉,可能都知道它是面试的常客,经常被问到.它最早诞生于上世纪六 ...
SVM原理与实践
SVM迅速发展和完善,在解决小样本.非线性及高维模式识别问题中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中.从此迅速的发展起来,已经在许多领域(生物信息学,文本和手写识别等)都取 ...
（一）SVM原理
前言本文开始主要介绍一下SVM的分类原理以及SVM的数学导出和SVM在Python上的实现.借鉴了许多文章,会在后面一一指出,如果有什么不对的希望能指正. 一. SVM简介首先看到SVM是在斯坦福 ...
机器学习——SVM详解（标准形式，对偶形式，Kernel及Soft Margin）
(写在前面:机器学习入行快2年了,多多少少用过一些算法,但由于敲公式太过浪费时间,所以一直搁置了开一个机器学习系列的博客.但是现在毕竟是电子化的时代,也不可能每时每刻都带着自己的记事本.如果可以掏出手 ...
SVM原理简介
本文只是简单介绍一下SVM的理论框架,想要详细了解当中细节问题处理可以参看后续章节或者网上各种详细资料.推荐Andrew Ng的斯坦福大学机器学习课程. 年代中期发展起来的基于统计学习理论的一种机器学 ...
SVM原理（1）
SVM即支持向量机,是一种机器学习内的二类分类方法,是有监督学习方法. 首先我们需要建立一个分类任务: 首先考虑线性可分的情况:(所谓线性可分就是在N维空间上的两类点,可以用N-1个未知数的函数(超平 ...

随机推荐

python 单向循环列表
# -*- coding: utf-8 -*- # @author: Tele # @Time : 2019/04/23 下午 6:54 # 单向循环列表 # 单向循环列表与单向列表的不同之处在于最后 ...
TensorFlow 实战（五）—— 图像预处理
当然 tensorflow 并不是一种用于图像处理的框架,这里图像处理仅仅是一些简单的像素级操作,最终目的比如用于数据增强: tf.random_crop() tf.image.random_flip ...
Android菜鸟的成长笔记（23）——获取网络和SIM卡信息
TelephonyManager是一个管理手机通话状态.电话网络信息的服务类,该类提供了大量的getXxx()方法来获取电话网络的相关信息.这些信息包括设备编号.软件版本.网络运营商代号.网络运营商名 ...
【非常高%】【codeforces 733B】Parade
time limit per test1 second memory limit per test256 megabytes inputstandard input outputstandard ou ...
UVA 1428 - Ping pong(树状数组)
UVA 1428 - Ping pong 题目链接题意:给定一些人,从左到右,每一个人有一个技能值,如今要举办比赛,必须满足位置从左往右3个人.而且技能值从小到大或从大到小,问有几种举办形式思路: ...
【21.67%】【codeforces 727B】Bill Total Value
time limit per test1 second memory limit per test256 megabytes inputstandard input outputstandard ou ...
iOS的安全性和越狱
提到越狱,很多人第一反应大概是免费的游戏和 app. 作为软件从业人员,深知中国的大环境的特殊性.内有用户想吃免费午餐的不良付费习惯,外有行业内大头诸如某讯对创新的绞杀.大家对越狱是为了免费.盗版软件 ...
Qt实用技巧：使用QTableView、QSqlTableMode与QSqlDatabase对数据库数据进行操作
本文章博客地址:http://blog.csdn.net/qq21497936/article/details/78615800 Qt实用技巧:使用QTableView.QSqlTableMode与Q ...
TCP/IP协议族(一)
TCP/IP协议族(一) HTTP简介.请求方法与响应状态码接下来想系统的回顾一下TCP/IP协议族的相关东西,当然这些东西大部分是在大学的时候学过的,但是那句话,基础的东西还是要不时的回顾回顾的. ...
一篇简单易懂的原理文章，让你把JVM玩弄与手掌之中
jvm原理 Java虚拟机是整个java平台的基石,是java技术实现硬件无关和操作系统无关的关键环节,是java语言生成极小体积的编译代码的运行平台,是保护用户机器免受恶意代码侵袭的保护屏障.JVM ...

[机器学习]SVM原理

[机器学习]SVM原理的更多相关文章

随机推荐

热门专题