线性可分支持向量机与软间隔最大化--SVM(2)

hichens 2024-11-07 01:46:15 原文

线性可分支持向量机与软间隔最大化--SVM

给定线性可分的数据集

假设输入空间(特征向量)为，输出空间为。
输入
表示实例的特征向量，对应于输入空间的点；
输出
表示示例的类别。

我们说可以通过间隔最大化或者等价的求出相应的凸二次规划问题得到的分离超平面

以及决策函数：

但是，上述的解决方法对于下面的数据却不是很友好，例如，下图中黄色的点不满足间隔大于等于1的条件

这样的数据集不是线性可分的，但是去除少量的异常点之后，剩下的点都是线性可分的，因此，我们称这样的数据集是近似线性可分的。
对于近似线性可分的数据集，我们引入了松弛变量，使得函数间隔加上松弛变量大于等于1。这样就得到了下面的解决方案：

其中，每个样本点都对应一个松弛变量， C > 0 称为惩罚参数。C越大，对误分类的点的惩罚越大。
这个解决方案旨在使得间隔最大化的同时减少误分类个数。下图是C对分类的影响，左图是大C，右图是小C：

可以证明w是唯一的，但是b不唯一，而是存在一个区间

下面来解决这个问题

首先引入拉格朗日函数（Lagrange Function）：

他的对偶问题(参考拉格朗日对偶性(Lagrange duality))是极大极小问题，首先求。对求导，解法如下：

代入得到：

问题转化为：

怎么求最优的w， b呢？
我们来看，原问题的KKT条件如下：

根据KKT条件的性质可以知道（参考拉格朗日乘子（Lagrange multify）和KKT条件)：

所以可以求得：

综上，引入松弛变量后线性支持向量机算法为：

.

*我们引入的松弛变量去哪里了呢？为什么算法中没有了？
其实，松弛变量在通过惩罚参数C隐式的作用。
我们可以改变C值，看看改变C哪些变量会随着改变。
增大C，由知，就更有可能大于0，再根据，松弛变量取0就更简单，这样就没有约束作用了。对整个数据集来说相当于是小的约束作用。
反之也可推出约束作用更强。
可以用这张图来解释：

线性可分支持向量机与软间隔最大化--SVM(2)的更多相关文章

统计学习：线性可分支持向量机(SVM)
模型超平面我们称下面形式的集合为超平面 \[\begin{aligned} \{ \bm{x} | \bm{a}^{T} \bm{x} - b = 0 \} \end{aligned} \tag{ ...
svm 之线性可分支持向量机
定义:给定线性可分训练数据集,通过间隔最大化或等价的求解凸二次规划问题学习获得分离超平面和分类决策函数,称为线性可分支持向量机. 目录: • 函数间隔 • 几何间隔 • 间隔最大化 • 对偶算法 1. ...
统计学习2：线性可分支持向量机(Scipy实现)
1. 模型 1.1 超平面我们称下面形式的集合为超平面 \[\begin{aligned} \{ \bm{x} | \bm{a}^{T} \bm{x} - b = 0 \} \end{aligned ...
线性可分支持向量机--SVM（1）
线性可分支持向量机--SVM (1) 给定线性可分的数据集假设输入空间(特征向量)为,输出空间为. 输入表示实例的特征向量,对应于输入空间的点: 输出表示示例的类别. 线性可分支持向量机的定义: ...
SVM中的软间隔最大化与硬间隔最大化
参考文献:https://blog.csdn.net/Dominic_S/article/details/83002153 1.硬间隔最大化对于以上的KKT条件可以看出,对于任意的训练样本总有ai= ...
软间隔分类——SVM
引入:1. 数据线性不可分:2. 映射到高维依然不是线性可分3. 出现噪声.如图: 对原始问题变形得到#2: 进行拉格朗日转换: 其中α和r是拉格朗日因子,均有不小于0的约束.按照之前的对偶问题的推导 ...
SVM中的间隔最大化
参考链接: 1.https://blog.csdn.net/TaiJi1985/article/details/75087742 2.李航<统计学习方法>7.1节线性可分支持向量机与硬间 ...
支持向量机(SVM)的推导(线性SVM、软间隔SVM、Kernel Trick)
线性可分支持向量机给定线性可分的训练数据集,通过间隔最大化或等价地求解相应的凸二次规划问题学习到的分离超平面为 \[w^{\ast }x+b^{\ast }=0\] 以及相应的决策函数 \[f\le ...
5. 支持向量机（SVM）软间隔
1. 感知机原理(Perceptron) 2. 感知机(Perceptron)基本形式和对偶形式实现 3. 支持向量机(SVM)拉格朗日对偶性(KKT) 4. 支持向量机(SVM)原理 5. 支持向量 ...

随机推荐

python 求两个数的最大公约数
给定两个整数a,b,求他们的最大公约数 def gcd(a,b): if a<b: a,b=b,a while(a%b != 0): c = a%b a=b b=c return b a,b = ...
TensorFlow2 Part1：基础
TensorFlow™是一个基于数据流编程(dataflow programming)的符号数学系统,被广泛应用于各类机器学习(machine learning)算法的编程实现,其前身是谷歌的神经网络 ...
108-PHP类成员protected和private成员属性不能被查看数值
<?php class mao{ //定义猫类 public $age; //定义多个成员属性 protected $weight; private $color; } $mao1=new ma ...
Flink 容错机制与状态
简介 Apache Flink提供了一种容错机制,可以持续恢复数据流应用程序的状态. 该机制确保即使出现故障,经过恢复,程序的状态也会回到以前的状态. Flink 主持 at least once 语 ...
箭头函数this
箭头函数的this值是由包含它的函数(非箭头函数)来决定的,与包含的函数的this指向一致,如果包裹它的不是函数(直到找到最外层)则this指向全局对象并且箭头函数的this是固定的,由定义它时所在 ...
Docker 网络详解及 pipework 源码解读与实践
转载自:https://www.infoq.cn/article/docker-network-and-pipework-open-source-explanation-practice/ Docke ...
jvm 优化
1.jvm 运行参数 1.1 jvm 参数类型 1.1.1 标准参数 -help -version 1.1.2 -X参数(非标准参数) -Xint -Xcomp 1.1.3-XX参数(使用率高) -X ...
cf 760B.Frodo and pillows
二分,判断条件就是最小情况(设当前k位取x)比剩余值(m-x)要小.(貌似又做麻烦了2333) #include<bits/stdc++.h> #define LL long long # ...
comparable接口和 comparator接口的特点与区别
1. Comparator 和 Comparable 相同的地方他们都是java的一个接口, 并且是用来对自定义的class比较大小的. 什么是自定义class: 如 public class Pe ...
黑马oracle_day01：03.oracle的查询
01.oracle体系结构 02.oracle的基本操作 03.oracle的查询 04.oracle对象 05.oracle编程黑马oracle_day01:03.oracle的查询 09scot ...