SVM现在主流的有两个方法。一个是传统的推导，计算支持向量求解的方法，一个是近几年兴起的梯度下降的方法。梯度下降方法的核心是使用了hinge loss作为损失函数，所以最近也有人提出的深度SVM其实就是使用hinge loss的神经网络。

本文的目的是讲解传统的推导。

SVM的超平面

SVM模型的基本原理，就是寻找一个合适的超平面，把两类的样本正确分开。单个SVM只能处理二分类，多分类需要多个SVM。

【什么是超平面？】

超平面就是n维度空间的n-1维度的子空间。换成人话就是2维空间中的1维度的线，三维立体空间的二维平面。

图中总共有5个超平面，那么哪一个是最好的呢？我们认为中间的那个是最好的。因为他对两侧的间隔较大。

SVM基本型

超平面我们可以用这个方程来表示：

$\bm{w^Tx}+b=0$

空间中任意一个点x到这个超平面的垂直距离为：

$d = \frac{|\bm{w^Tx}+b|}{||\bm{w}||}$

这里不得不提到一下逻辑回归，对于逻辑回归来说：

就是在超平面一侧的样本，逻辑回归给出的预测类别是1，另外一侧就是0.

但是SVM觉得这样有一些过于绝对了，所以：

不仅仅要一个样本在平面的一侧，还要在平面的这一侧足够远的地方，才能算作某一类的样本。

从图中可以看到，两条虚线之外的点，才是SVM能确定是正样本还是负样本的点。

【什么是支持向量？】

图中距离超平面最近的几个训练样本，并且这几个训练样本可以让上式的等号成立。这个点就是支持向量。

【什么是SVM的间隔】

两个不同类别的支持向量到超平面的最小距离之和。其实也就是$\frac{2}{||w||}$

到这里，我们可以隐隐约约的发现，寻找最优的超平面其实等价于寻找一个最大的间隔，或者说让间隔最大化。所以可以得到：

$\max_{w,b} \frac{2}{||\bm{w}||}$

这个的约束条件就是：让SVM给正样本的打分大于1，给负样本的打分小于-1,也就是：

简化一下这个约束条件，可以得到：

$y_i(\bm{w^Tx_i}+b)>=1$

一般我们都是求取最小化问题，所以把最大化max问题取倒数，变成最小化问题：

$\min_{w,b} \frac{||\bm{w}||}{2}$

这里为了后续的计算方便，最小化$||w||$等价于最小化$||w||^2$,所以得到：

$\min_{w,b} \frac{||\bm{w}||^2}{2}$

总之SVM的基本型就是:

SVM求解

现在求得了基本型。现在可以来进一步优化这个最小化问题。但是首当其冲的问题便是，如何处理这个约束条件。这里用到的方法是拉格朗日乘子法。将约束条件以$\alpha_i$的权重加入到优化问题中，所以可以得到：

$Loss(\bm{w},b,\bm{\alpha})=\frac{1}{2}||w||^2+\sum^m_{i=1}\alpha_i(1-y_i(w^Tx_i+b))$

这里的loss就是我们要最小化的对象；
这里的m就是支持向量的数量。

为了最小化这个问题，对w和b求偏导数，可以得到：

$w = \sum^m_{i=1}{\alpha_iy_ix_i}$

$0 = \sum^m_{i=1}{\alpha_iy_i}$

然后把这两个公式代入到：

$Loss(\bm{w},b,\bm{\alpha})=\frac{1}{2}||w||^2+\sum^m_{i=1}\alpha_i(1-y_i(w^Tx_i+b))$

可以消掉w和b，得到：

约束条件为：

从而根据这个计算出$\alpha_i$的取值，然后得到w和b的取值。

【到底如何求解$\alpha$?】

上面说的最后一部求解alpha，都是理论可以求解，但是实际中如何做到呢？其实这里如何求解$\alpha$要用到另外一个条件。

就是上述过程要满足一个叫做KKT的条件（KKT具体是什么有点复杂，就不多说了）：

想要第三个公式成立，要么$\alpha_i$等于0，要么$y_if(x_i)-1=0$.如果alpha=0，那么意味着这个样本不是支持向量，不应该对SVM超平面起到任何影响，所以是不可能的。所以只有$y_if(x_i)-1=0$。

加上了这个条件，我们可以求解出来$\alpha_i$的具体数值，然后求解w和b的数值。

假设有3个支持向量，那么就会有三个$\alpha_1, \alpha_2, \alpha_3$ ,然后根据$y_if(x_i)-1=0$可以列出3个关于$\alpha_1,\alpha_2,\alpha_3$的三元一次方程组，然后得到唯一解。

AI面试之SVM推导的更多相关文章

AI面试必备/深度学习100问1-50题答案解析
AI面试必备/深度学习100问1-50题答案解析 2018年09月04日 15:42:07 刀客123 阅读数 2020更多分类专栏: 机器学习转载:https://blog.csdn.net ...
ML-线性 SVM 推导
Max Margin svm 即Suport Vector Machine, 中文意为:支持向量机. 对于二分类问题, 在样本空间中(即便是多维向量, 在空间中可表示为一个点). svm的核心思想就是 ...
统计学习方法—SVM推导
目录 SVM 1. 定义 1.1 函数间隔和几何间隔 1.2 间隔最大化 2. 线性可分SVM 2.1 对偶问题 2.2 序列最小最优算法(SMO) 3. 线性不可分SVM 3.1 松弛变量 3.2 ...
AI面试刷题版
(1)代码题(leetcode类型),主要考察数据结构和基础算法,以及代码基本功虽然这部分跟机器学习,深度学习关系不大,但也是面试的重中之重.基本每家公司的面试都问了大量的算法题和代码题,即使是商汤 ...
2019收藏盘点（编程语言/AI/面试/实用工具）
2020.1.5更新我看过的后面会加上评价编程学习 java开源项目汇总: https://github.com/Snailclimb/awesome-java 大数据学习入门: https:// ...
五、SVM推导过程
SVM 时间复杂度一般为O(N³) 最重要的是推导过程 NIPS(机器学习顶级会议) 如果给定一个训练集,我们的目标是给定一个边界(一条线),离他最近的训练集样本路越宽越好下面的几张图反映了SVM的 ...
SVM推导
标准最大margin问题假设data是linear seperable的优化目标希望 margin(w),i.e, 最小的点到直线的距离最大即是要得到最右的线,它对噪声的鲁棒性最好得到的分 ...
AI面试-算法结构基础
其实目前国内几乎只要是技术岗,面试中都100%会问算法和数据结构. 这两者能快速体现候选人真实的水平,比如代码量,代码的质量,性能,思维是否有逻辑,是否灵活. 算法结果概述 1.前言 1.应用范围:机 ...
1.2 linear SVM 推导
1.将公式中的distance具体化将$w_0$单独抽出作为$b$,$w=(w_1,...,w_n),x=(x_1,...,x_n)$ 则分割平面为:$w^Tx+b=0$ A.证明w为法向量 ...

随机推荐

Dubbo想要个网关怎么办？试试整合Spring Cloud Gateway
一.背景在微服务架构中 API网关非常重要,网关作为全局流量入口并不单单是一个反向路由,更多的是把各个边缘服务(Web层)的各种共性需求抽取出来放在一个公共的"服务"(网关)中 ...
【UVA11383】 Golden Tiger Claw 【二分图KM算法（板子）】
题目题目传送门:https://www.luogu.com.cn/problem/UVA11383 分析最近刚刚学了二分图,然后来了一个这样的题,看完题意之后,稍微想一想就能想出来是一个二分图,然 ...
Sql sever 声明变量，赋值变量
语句: --声明变量DECLARE @idcard nvarchar () , @rowid nvarchar () --给变量赋值SELECT @idcard = '{0}', @rowid = ' ...
使用scrapy实现去重，使用Redis实现增量爬取
面试场景: 要求对正在爬取的内容与mysql数据库中的数据进行比较去重解决方式: 通过Redis来作为中间件,通过url来确保爬过的数据不会再爬,做到增量爬取. Redis数据库其实就是一个中间件, ...
计算机组成原理Day-1
10大HBase常见运维工具整理
摘要:HBase自带许多运维工具,为用户提供管理.分析.修复和调试功能.本文将列举一些常用HBase工具,开发人员和运维人员可以参考本文内容,利用这些工具对HBase进行日常管理和运维. HBase组 ...
P4817 Fruit Feast G
最开始拿到这道题的时候,题目中其实只规定了两种水果的饱食度,可以理解成价值或是重量,在不超过T的情况求最大值.第一眼看过去感觉就是装箱问题(背包),只不过这道题用的是完全背包,但是考虑到喝水的情况,做 ...
openstack cinder-backup流程与源码分析
在现在的云计算大数据环境下,备份容灾已经变成了一个炙手可热的话题,今天,和大家一起分享一下openstack是怎么做灾备的. [首先介绍快照] snapshot可以为volume创建快照,快照中保存了 ...
【Oracle】如何让一个用户能够访问另外一个用户下所有的表
根据需求的不同,也分为好几种方法,且看下文. 先构造基本的环境:创建两个用户AA,BB,基本需求为用户AA能够访问用户BB下所有的表,即用户AA有对BB下所有的表有"select on&qu ...
day09总结
with 上下文管理 # f = open(r"文件路径", mode="rt", encoding="utf-8")# data = f. ...

AI面试之SVM推导

SVM的超平面

SVM基本型

SVM求解

AI面试之SVM推导的更多相关文章

随机推荐

热门专题