SVM3 Soft Margin SVM

futurehau 2024-10-25 18:05:27 原文

之前分为两部分讨论过SVM。第一部分讨论了线性SVM，并且针对线性不可分的数据，把原始的问题转化为对偶的SVM求解。http://www.cnblogs.com/futurehau/p/6143178.html

然后考虑到特征数量特别特别多的时候，引入核函数的求解。http://www.cnblogs.com/futurehau/p/6149558.html

但是，之前也遗留了一个问题，就是比如高斯核函数或其他的核函数，虽然large margin能够在一定程度上防止过拟合，但是加入你的核函数太过于powerful的话，还是很有可能带来overfit的问题。另一方面，之前都是基于hard Margin,就是要求你所有的数据都给我分正确，这很容易带来过拟合的问题。

所以，接下来就讨论soft margin来避免过拟合问题。简单来说soft margin就是允许模型犯一些的错误。

一、soft margin 的引入

　　如下图所示，我们把原来的hard margin转化为soft margin,允许你在一些点处犯错误，但是最小化的式子就需要改变，意思是你错误的点要尽可能的少。c是用来权衡soft margin和容许犯的错误大小的超参数。

　　

　　稍微转化一下，表达式变为：

　　

　　但是我们发现，这样一个表达式并不是一个QP问题的，因为取0取1这个的引入导致是非线性的，那么我们应该怎么转化呢？

　　这样思考，之前我们只考虑了分正确没，对于不正确的都一视同仁。我们可不可以改变一下呢？对于那些不正确的，如果离边界比较远的其实是大错误，如果离边界比较近的其实是小错误，这两类错误其实是应该区分开来的，所以引入新的表达式如下：

　　

　　使用伊布c龙来记录违反的大小。表明你离我想要的值到底有多远。

　　这样，我们的问题就转化为：

　　

　　观察这个表达式，其实也可以看为给定松弛因子做目标函数，给定一个L2的正则项。

　　

二、soft margin 的 dual problem

　　好了，我们之前得到原始的soft margin 问题：

　　

　　类似于之前的方法，我们需要把这个问题转换为对偶问题。

　　写出拉格朗日函数：

　　

　　目标：

　　

　　对伊布c隆求导得到：

　　

　　带回原来表达式化简得到：

　　

　　得到最终的表达式：

　　

　　我们发现，最终的soft Margin dual problem的表达式和hard margin的表达式是内部是一样的，区别在于alpha的范围变化了。所以类似于之前的内部求偏导，我们可以得到：

　　

　　对比之前，唯一的区别就是alpha的范围改变了。

三、参数b的计算与图形分析

　　3.1 b的求解

　　之前得到了几个参数,还差b。b的表达和之前有所不同，这里特别分析。

　　

　　只有第二个等式C不等于alpha的时候才有确定的解，否则只能由kkt条件给出一个范围。

　　

　　3.2 C的影响

　　

　　3.3 alpha的物理意义

　　

　　

4. leave one out cross validation

　　还不太理解。

　　

　　

　　

SVM3 Soft Margin SVM的更多相关文章

Jordan Lecture Note-7: Soft Margin SVM
Soft Margin SVM (1)Recall 之前分析到SVM的模型为: \begin{align}\mathop{\min}&\quad \frac{1}{2}w^\prime w\ ...
机器学习：SVM（目标函数推导：Hard Margin SVM、Soft Margin SVM）
一.Hard Margin SVM SVM 的思想,最终用数学表达出来,就是在优化一个有条件的目标函数: 此为 Hard Margin SVM,一切的前提都是样本类型线性可分: 1)思想 SVM 算法 ...
机器学习——SVM详解（标准形式，对偶形式，Kernel及Soft Margin）
(写在前面:机器学习入行快2年了,多多少少用过一些算法,但由于敲公式太过浪费时间,所以一直搁置了开一个机器学习系列的博客.但是现在毕竟是电子化的时代,也不可能每时每刻都带着自己的记事本.如果可以掏出手 ...
Support Vector Machine(3)：Soft Margin 平衡之美
很多材料上面讲道“引入Soft Margin的原因是因为数据线性不可分”,个人认为有些错误,其实再难以被分解的数据,如果我们用很复杂的弯弯绕曲线去做,还是可以被分解,并且映射到高维空间后认为其线性可分 ...
<老古董>线性支持向量机中的硬间隔(hard margin)和软间隔(soft margin)是什么
_________________________________________________________________________________________________ Th ...
走过路过不要错过包你一文看懂支撑向量机SVM
假设我们要判断一个人是否得癌症,比如下图:红色得癌症,蓝色不得. 看一下上图,要把红色的点和蓝色的点分开,可以画出无数条直线.上图里黄色的分割更好还是绿色的分割更好呢?直觉上一看,就是绿色的线更好.对 ...
机器学习：SVM（scikit-learn 中的 SVM：LinearSVC）
一.基础理解 Hard Margin SVM 和 Soft Margin SVM 都是解决线性分类问题,无论是线性可分的问题,还是线性不可分的问题: 和 kNN 算法一样,使用 SVM 算法前,要对数 ...
机器学习：SVM（基础理解）
一.基础理解 1)简介 SVM(Support Vector Machine):支撑向量机,既可以解决分类问题,又可以解决回归问题: SVM 算法可分为:Hard Margin SVM.Soft Ma ...
tensorflow实现svm iris二分类——本质上在使用梯度下降法求解线性回归（loss是定制的而已）
iris二分类 # Linear Support Vector Machine: Soft Margin # ---------------------------------- # # This f ...

随机推荐

递归输出文件夹下的所有文件的名称（转自 MSDN）
问题:如何输出给定文件夹目录下面的所有文件的名称? C#代码: using System; using System.IO; namespace MyTest { public class Progr ...
Productivity Power Tools 的使用
免费的精品: Productivity Power Tools 动画演示 Productivity Power Tools 是微软官方推出的 Visual Studio 扩展,被用以提高开发人员生产率 ...
037. asp.netWeb用户控件之五使用用户控件实现文件上传功能
fileUpload.ascx代码: <%@ Control Language="C#" AutoEventWireup="true" CodeFile= ...
dbms_stats包更新、导出、导入、锁定统计信息
dbms_stats包问世以后,我们可通过一种新的方式来为CBO收集统计数据.目前,已经不再推荐使用老式的Analyze分析表和dbms_utility方法来生成CBO统计数据.dbms_stats能 ...
CSS 分组
选择器分组假设希望 h2 元素和段落都有灰色.为达到这个目的,最容易的做法是使用以下声明: h2, p {color:gray;} 将 h2 和 p 选择器放在规则左边,然后用逗号分隔,就定义了一个 ...
oracle控制文件丢失恢复
在学习群里有个同学误删除了控制文件,于是我也把自己数据库的控制文件删除了,看看能不能进行恢复,以下是整个实验的过程~~在做之前,先看看控制文件的备份方式:1.生成可以重建控制文件的脚本.2.备份二进制 ...
PHP上传大文件分割文件上传
最近遇到这么个情况,需要将一些大的文件上传到服务器,我现在拥有的权限是只能在一个网页版的文件管理系统来进行操作,可以解压,可以压缩,当然也可以用它来在线编辑.php文件. 文件有40M左右,但是服务器 ...
通过group by和having去除重复
$sql="SELECT peisonghao FROM ecs_order_info_ly GROUP BY peisonghao HAVING COUNT(*) >1"; ...
Windows下单机安装Spark开发环境
机器:windows 10 64位. 因Spark支持java.python等语言,所以尝试安装了两种语言环境下的spark开发环境. 1.Java下Spark开发环境搭建 1.1.jdk安装安装o ...
ORACLE 创建作业JOB例子
--1.plsql中学习job --学习job --建表 create table test_job(para_date date); commit; insert into test ...