支持向量机（SVM）算法分析——周志华的西瓜书学习

1.线性可分

对于一个数据集：

$\begin{array}{l}<br /> D = \{ ({x_1},{y_1}),...,({x_m},{y_m})\} \\<br /> {x_i} \in X \subseteq {R^d},{y_i} \in {\rm{Y = \{ - }}1,1{\rm{\} }}<br /> \end{array}$

如果存在一个超平面X能够将D中的正负样本精确地划分到S的两侧，超平面如下：

那么数据集D就是线性可分的，否则，不可分。

w称为法向量，决定了超平面的方向；b为位移量，决定了超平面与原点的距离。

样本空间中的任意点x到超平面X的距离（不太熟悉的可以复习高数中空间几何那一章的内容）可以写为：

使得下面两式成立的训练样本 ${x_i}$ 称为支持向量：

两个异类支持向量（一个等于+1，一个等于-1）到超平面的距离之和为:

它称之为“间隔”

想找到最大间隔的划分超平面，就是使 $\gamma$ 最大：

等价于：

这就是支持向量机的基本模型。

对偶问题：

上式的拉格朗日函数可写为：

其中， ${\alpha _i} \ge 0$

对参数w和b求导可得：

将上式带入到拉格朗日函数中，消去w和b,得到对偶表达式：

采用SMO算法完成对偶问题的求解：

原始论文地址：http://www-ai.cs.uni-dortmund.de/LEHRE/SEMINARE/SS09/AKTARBEITENDESDM/FOLIEN/Joerg_Nitschke_Sequential_minimal_optimization.pdf

核函数：

对于非线性可分的训练样本通过核函数将原始空间映射到更高维的特征空间来使得样本线性可分。

令 $\phi (x)$ 表示x映射后的特征向量，那么新的模型可以表示为：

可以得出：

对偶问题表示为：

这里涉及到 $\phi {({x_i})^T}\phi ({x_j})$ ，这是样本 ${x_i}$ 和 ${x_j}$ 映射到高维特征空间后的內积，我们不直接计算 $\phi {({x_i})^T}\phi ({x_j})$ ，设计一个函数：

重写为：

求解出 $\alpha$ ，即可求出模型：

我会在优化理论里面更仔细地分析核函数。

软间隔和正则化：

软间隔允许某些样本不满足 ${y_i}({w^T}{x_i} + b) \ge 1$ 约束，优化目标可以改写为：

${\ell _{0/1}}$ 是非凸、非连续的函数，采用其他函数来代替 ${\ell _{0/1}}$ ，称为surrogate loss。通常surrogate loss是凸的连续函数且是 ${\ell _{0/1}}$ 的上界。下面有三种常用的代理损失函数：

若采用hinge损失：

引入松弛变量 ${\xi _i}({\xi _i} \ge 0)$ ：

得到拉格朗日函数：

其中 ${\alpha _i} \ge 0,{\mu _i} \ge 0$ 是拉格朗日乘子。

对偶问题：

支持向量机（SVM）算法分析——周志华的西瓜书学习的更多相关文章

周志华-机器学习西瓜书-第三章习题3.5 LDA
本文为周志华机器学习西瓜书第三章课后习题3.5答案,编程实现线性判别分析LDA,数据集为书本第89页的数据首先介绍LDA算法流程: LDA的一个手工计算数学实例: 课后习题的代码: # coding ...
python实现简单决策树（信息增益）——基于周志华的西瓜书数据
数据集如下: 色泽根蒂敲声纹理脐部触感好瓜青绿蜷缩浊响清晰凹陷硬滑是乌黑蜷缩沉闷清晰凹陷硬滑是乌黑蜷缩浊响清晰凹陷硬滑是青绿蜷缩沉闷清晰 ...
【SVM】周志华
一.书籍(121-139)
（二）《机器学习》（周志华）第4章决策树笔记理论及实现——“西瓜树”——CART决策树
CART决策树 (一)<机器学习>(周志华)第4章决策树笔记理论及实现——“西瓜树” 参照上一篇ID3算法实现的决策树(点击上面链接直达),进一步实现CART决策树. 其实只需要改动 ...
【Todo】【读书笔记】机器学习-周志华
书籍位置: /Users/baidu/Documents/Data/Interview/机器学习-数据挖掘/<机器学习_周志华.pdf> 一共442页.能不能这个周末先囫囵吞枣看完呢.哈哈 ...
偶尔转帖：AI会议的总结（by南大周志华）
偶尔转帖:AI会议的总结(by南大周志华) 说明: 纯属个人看法, 仅供参考. tier-1的列得较全, tier-2的不太全, tier-3的很不全. 同分的按字母序排列. 不很严谨地说, tier ...
机器学习周志华 pdf统计学习人工智能资料下载
周志华-机器学习 pdf,下载地址: https://u12230716.pipipan.com/fs/12230716-239561959 统计学习方法-李航, 下载地址: https://u12 ...
【转载】 AI会议的总结（by南大周志华）
原文地址: https://blog.csdn.net/LiFeitengup/article/details/8441054 最近在查找期刊会议级别的时候发现这篇博客,应该是2012年之前的内容,现 ...
《AlphaGo世纪对决》与周志华《机器学习》观后感
这两天看了<AlphaGo世纪对决>纪录片与南大周志华老师的<机器学习>,想谈谈对人工智能的感想. 首先概述一下视频的内容吧,AlphaGo与李世石对战的过程大家都有基本的了解 ...

随机推荐

oracle完全之dbf文件出现问题， ORA-01219
alter database datafile '/data/app/oradata/ora237/users01.dbf' offline drop; 强制删除该故障文件
awesome-workflow-engines
转自:https://github.com/meirwah/awesome-workflow-engines awesome-workflow-engines A curated list of aw ...
egret学习
1.egret wing4.0不能创建egret游戏项目, 重置了引擎之后就可以了 2.入门介绍:http://developer.egret.com/cn/github/egret-docs/Eng ...
Jmeter的NON-GUI模式
一般来讲,Jmeter执行压测,都是用Jmeter的命令模式,脚本调试好, 测试脚本能够大大缩减所需要的系统资源. 1.1命令介绍: jmeter -n -t <testplan filenam ...
git与github建立仓库连接步骤
一.先对git 进行用户设置首先你得在网上下载git软件并且安装,一路默认安装就好了,然后就可以开始本地仓库的建立了.打开你安装好的git, 在开始菜单里面找到git文件夹里面的git bash端 ...
在linux环境下，php语法出错，怎样让php编译后提示编译错误，错误在哪？
如果不具备修改php.ini的权限,可以如下:ini_set("display_errors", "On"); error_reporting(E_ALL | ...
thinkphp5 列表页数据分页查询3-带搜索条件
先加载模板然后在前端HTML页面请求数据 /** * 加载列表页模板 * @author 冯广福 */ public function index() { LogWriteService::write ...
jmeter一些插件下载网址
JSONPathExtractor的插件下载 https://jmeter-plugins.org/wiki/JSONPathExtractor/
【java】for循环嵌套
循环嵌套:外循环控制行数,内循环控制每一行的列数,也就是每一行的元素个数需求:打印出9*9的乘法表 class Demo { public static void main(String[] arg ...
Row_number 详解
SQL Server数据库ROW_NUMBER()函数的使用是本文我们要介绍的内容,接下来我们就通过几个实例来一一介绍ROW_NUMBER()函数的使用. 实例如下: 1.使用row_number() ...

支持向量机（SVM）算法分析——周志华的西瓜书学习

支持向量机（SVM）算法分析——周志华的西瓜书学习的更多相关文章

随机推荐

热门专题