Support Vector Machine(3)：Soft Margin 平衡之美

很多材料上面讲道“引入Soft Margin的原因是因为数据线性不可分”，个人认为有些错误，其实再难以被分解的数据，如果我们用很复杂的弯弯绕曲线去做，还是可以被分解，并且映射到高维空间后认为其线性可分。但如果我们细细思考，其实很多算法都有一样的索求：寻求一种之于“最大限度拟合训练集”and“获得更好归纳能力”的平横，也就是所谓的Overfitting and Underfitting。也像人的性格，太过纠结细节或者神经太过大条，都难以和人相处愉快。那让我们的训练集的数据，必须要用很复杂的曲线才可以分割时，我们引入soft margin的概念。

在未引入Soft Margin的SVM中，我们希望每个训练集中的数据点至少满足如下条件，即距离Margin的函数距离大于0，也即距离Hyperplane的函数距离大于1

而考虑到，如果有部分outliers点的函数距离小于我们的期望值了，该偏离为ξ，那么这些点满足的条件是：

那么，我们把之前的优化问题如下：

转化为了：

也就是说，一方面我们需要优化ω，使得margin=1/|| ω||值达到最大化，另一方面我们选择的 ω又要使得outliers的偏离值之和最小，在二者之间寻求一种平衡。C是平衡系数，用于调整两部分调整项之间的权重。该优化的拉格朗日函数为：

经过求对偶，利用KKT条件：

带回到原L函数中，ξ的系数会变成C-α-r=0，因而被消去，所以经过推导，Dual问题变为：

可以看到，形式几乎和原问题一样，只是在α的条件上加了个上限C。

Support Vector Machine(3)：Soft Margin 平衡之美的更多相关文章

Support Vector Machine (1) : 简单SVM原理
目录 Support Vector Machine (1) : 简单SVM原理 Support Vector Machine (2) : Sequential Minimal Optimization ...
A glimpse of Support Vector Machine
支持向量机(support vector machine, 以下简称svm)是机器学习里的重要方法,特别适用于中小型样本.非线性.高维的分类和回归问题.本篇希望在正篇提供一个svm的简明阐述,附录则提 ...
机器学习算法 --- SVM (Support Vector Machine)
一.SVM的简介 SVM(Support Vector Machine,中文名:支持向量机),是一种非常常用的机器学习分类算法,也是在传统机器学习(在以神经网络为主的深度学习出现以前)中一种非常牛X的 ...
机器学习之支持向量机（Support Vector Machine）
转载请注明出处:http://www.cnblogs.com/Peyton-Li/ 支持向量机支持向量机(support vector machines,SVMs)是一种二类分类模型.它的基本模型是 ...
Support Vector Machine (3) : 再谈泛化误差（Generalization Error）
目录 Support Vector Machine (1) : 简单SVM原理 Support Vector Machine (2) : Sequential Minimal Optimization ...
Support Vector Machine (2) : Sequential Minimal Optimization
目录 Support Vector Machine (1) : 简单SVM原理 Support Vector Machine (2) : Sequential Minimal Optimization ...
支持向量机（Support Vector Machine，SVM）——　线性SVM
支持向量机(Support Vector Machine,简称 SVM)于 1995 年正式发表,由于其在文本分类任务中的卓越性能,很快就成为机器学习的主流技术.尽管现在 Deep Learnin ...
机器学习技法总结（一）：支持向量机（linear support vector machine，dual support vector machine）
第一阶段技法: large margin (the relationship between large marin and regularization), hard-SVM,soft-SVM,du ...
Support Vector Machine(1):线性可分集的决策边界
与Logistuc Regression相比,SVM是一种优化的分类算法,其动机是寻找一个最佳的决策边界,使得从决策边界与各组数据之间存在margin,并且需要使各侧的margin最大化.比较容易理解 ...

随机推荐

运维脚本-elasticsearch数据迁移python3脚本
elasticsearch数据迁移python3脚本 #!/usr/bin/python3 #elsearch 数据迁移脚本 #迁移工具路径 import time,os #下面命令是用到了一个go语 ...
魔板（bfs+康托展开）
# 10027. 「一本通 1.4 例 2」魔板 [题目描述] Rubik 先生在发明了风靡全球魔方之后,又发明了它的二维版本--魔板.这是一张有 888 个大小相同的格子的魔板: 1 2 3 4 8 ...
3183 RMQ / 贪心（坑成。。）
题意:删去m个数,使剩下的数组成的数最小题解 :贪心 , RMQ RMQ解法,建st表找,用rmq找最小值的下标,注意点 ,因为最小值是区间最右最小值,所以应该改成 <= 而不是< mi ...
BUUCTF--rsa
测试文件:https://buuoj.cn/files/ed10ec009d5aab0050022aee131a7293/41c4e672-98c5-43e5-adf4-49d75db307e4.zi ...
07-Log日志
# 1. 日志相关概念 - 日志的级别(level) - 不同的用户关注不同的程序信息 - DEBUG - INFO - NOTICE - WARNING - ERROR - CRITICAL - A ...
Dubbo架构深入篇----RPC实现总结
最近我拜读了mindwind的一片博客文章深入浅出 RPC - 深入篇,希望通过Dubbo深入学习RPC架构设计,在此结合RPC架构的原理,解析Dubbo是如何实现RPC架构的. RPC架构模型 RP ...
基于firebird的数据转存
功能:使用于相同的表从一个数据库转存到另一数据库: 方式:直连fdb并加载django,引用django的model完成: 原因:1.select * from *** 返回的数有很多None,直接i ...
POJ 2104 区间第k大（主席树）
题目链接:http://poj.org/problem?id=2104 题目大意:给定还有n个数的序列,m个操作,每个操作含有l,r,k,求区间[l,r]第k大解题思路:线段树只能维护序列的最大值最 ...
关于<label>的for属性的简单探索
在freecodecamp上HTML教程的Create a Set of Radio Buttons这一节中,看到这样一段话, It is considered best practice to se ...
【leetcode】1039. Minimum Score Triangulation of Polygon
题目如下: Given N, consider a convex N-sided polygon with vertices labelled A[0], A[i], ..., A[N-1] in c ...

Support Vector Machine(3)：Soft Margin 平衡之美

Support Vector Machine(3)：Soft Margin 平衡之美的更多相关文章

随机推荐

热门专题