coursera机器学习-支持向量机SVM

#对coursera上Andrew Ng老师开的机器学习课程的笔记和心得；

#注:此笔记是我自己认为本节课里比较重要、难理解或容易忘记的内容并做了些补充，并非是课堂详细笔记和要点；

#标记为<补充>的是我自己加的内容而非课堂内容，参考文献列于文末。博主能力有限，若有错误，恳请指正；

#---------------------------------------------------------------------------------#

<补充>支持向量机方法的三要素(若不了解机器学习模型、策略、算法的具体意义，可参考机器学习三要素)

　　基本模型:间隔最大的线性分类器；若用上核技巧，成为实质上的非线性分类器；

　　学习策略:间隔最大化，可形式化为一个求解凸二次规划的问题；

　　学习算法:求解凸二次规划的最优化算法，如序列最小最优算法(SMO);

#---------------------------------------------------------------------------------#

由logistic regression引出SVM

logistic function(sigmoid function):g(z) = 1/(1 + e^-z)，z=Θ^Tx;

预测函数:;

logistic函数的图形：

;

当Θ^Tx 远大于0时，h_θ(x)接近于0；

logistic回归的cost function:

；

当y=1时，上式变为-log(1 + e^-z),见图形

;

SVM的cost function对logistic回归的cost function做了改变，当y=1时，SVM的cost function记为cost₁(θ^T x)，分为两部分(见下图紫线)，当z>1时cost₁(Θ^Tx)=0,当z<1时cost₁(Θ^Tx)是条直线。这样做有两个好处，一是计算更快(从计算logistic函数转变为计算直线函数)，二是更有利于后来的优化；

；

同理对y=0时做同样的处理，得到cost₀(θ^T x)，下图紫线。

；

由此我们得到cost₀(θ^T x)和cost₁(Θ^Tx)：

；

由此我们从最小化logistic回归的cost function：

，

得到下式：

；

再令C=1/λ，去掉1/m(m是常数，不影响计算优化结果)，得到最终SVM的cost function：

；

#---------------------------------------------------------------------------------#

Large margin intuition

再来看SVM的cost₀(θ^T x)和cost₁(Θ^Tx)：

；

注意:SVM wants a bit more than that - doesn't want to *just* get it right, but have the value be quite a bit bigger than zero

Throws in an extra safety margin factor

对于训练数据，SVM不仅要求是分的对，而且还有额外的间隔条件来保证分的“好”；

；

The green and magenta lines are functional decision boundaries which could be chosen by logistic regression
- But they probably don't generalize too well
The black line, by contrast is the the chosen by the SVM because of this safety net imposed by the optimization graphMathematically, that black line has a larger minimum distance (margin) from any of the training examples
- More robust separator

By separating with the largest margin，you incorporate robustness into your decision making process

<补充>什么是支持向量support vector？

　　下图中两个支撑着中间的 gap 的超平面，它们到中间的纯红线separating hyper plane 的距离相等，即我们所能得到的最大的 geometrical margin，而“支撑”这两个超平面的必定会有一些点，而这些“支撑”的点便叫做支持向量Support Vector。　　　　　　

C的选择对SVM的影响

C选的合适时，

；

C太大时造成过拟合(紫线)，

；

<补充>最大间隔分离超平面存在唯一性：若训练数据线性可分(这是前提)，则可将训练数据的样本点完全正确分开的最大间隔分离超平面存在且唯一；

#---------------------------------------------------------------------------------#

Kernels

<补充>当训练数据线性可分或近似线性可分时，通过间隔最大化，学习一个线性分类器；当训练数据线性不可分时，使用核技巧(kernel trick)，学习非线性分类器；

<补充>核函数(kernel function)表示将输入从输入空间映射到特征空间得到的特征向量之间的内积。通过使用核函数可以学习非线性支持向量机，等价于隐式地在高维空间的特征空间中学习线性支持向量机；也就是说，在核函数K(x,z)给定的条件下，可以利用解线性分类问题的方法去求解非线性分类问题的支持向量机。学习是隐式的在特征空间进行的，不需要显式地定义特征空间和映射函数。这样的技巧称作核技巧；

几个常用核函数

Gaussian kernel(使用最多的):Need to define σ (σ²)；

;

linear kernel:no kernel；

others：Polynomial Kernel,String kernel,Chi-squared kernel...

#---------------------------------------------------------------------------------#

Logistic regression vs. SVM

If n (features) is large vs. m (training set)

e.g. text classification problem

Feature vector dimension is 10 000
Training set is 10 - 1000
Then use logistic regression or SVM with a linear kernel

If n is small and m is intermediate

n = 1 - 1000
m = 10 - 10 000
Gaussian kernel is good

If n is small and m is large

n = 1 - 1000
m = 50 000+
- - SVM will be slow to run with Gaussian kernel
In that case
- - Manually create or add more features
  - Use logistic regression of SVM with a linear kernel

Logistic regression and SVM with a linear kernel are pretty similar

Do similar things
Get similar performance

A lot of SVM's power is using diferent kernels to learn complex non-linear functions

For all these regimes a well designed NN should work

But, for some of these problems a NN might be slower - SVM well implemented would be faster

SVM has a convex optimization problem - so you get a global minimum

#---------------------------------------------------------------------------------#

参考文献

《统计学习方法》，李航著

理解SVM的三层境界-支持向量机通俗导论，July、pluskid著

standford machine learning, by Andrew Ng

coursera机器学习-支持向量机SVM的更多相关文章

机器学习——支持向量机SVM
前言学习本章节前需要先学习: <机器学习--最优化问题:拉格朗日乘子法.KKT条件以及对偶问题> <机器学习--感知机> 1 摘要: 支持向量机(SVM)是一种二类分类模型, ...
吴裕雄 python 机器学习——支持向量机SVM非线性分类SVC模型
import numpy as np import matplotlib.pyplot as plt from sklearn import datasets, linear_model,svm fr ...
机器学习——支持向量机(SVM)之拉格朗日乘子法，KKT条件以及简化版SMO算法分析
SVM有很多实现,现在只关注其中最流行的一种实现,即序列最小优化(Sequential Minimal Optimization,SMO)算法,然后介绍如何使用一种核函数(kernel)的方式将SVM ...
机器学习-支持向量机SVM
简介: 支持向量机(SVM)是一种二分类的监督学习模型,他的基本模型是定义在特征空间上的间隔最大的线性模型.他与感知机的区别是,感知机只要找到可以将数据正确划分的超平面即可,而SVM需要找到间隔最大的 ...
机器学习——支持向量机(SVM)
支持向量机原理支持向量机要解决的问题其实就是寻求最优分类边界.且最大化支持向量间距,用直线或者平面,分隔分隔超平面. 基于核函数的升维变换通过名为核函数的特征变换,增加新的特征,使得低维度空间中的 ...
机器学习支持向量机SVM笔记
SVM简述: SVM是一个线性二类分类器,当然通过选取特定的核函数也可也建立一个非线性支持向量机.SVM也可以做一些回归任务,但是它预测的时效性不是太长,他通过训练只能预测比较近的数据变化,至于再往后 ...
机器学习——支持向量机(SVM)之核函数(kernel)
对于线性不可分的数据集,可以利用核函数(kernel)将数据转换成易于分类器理解的形式. 如下图,如果在x轴和y轴构成的坐标系中插入直线进行分类的话, 不能得到理想的结果,或许我们可以对圆中的数据进行 ...
机器学习——支持向量机(SVM)之Platt SMO算法
Platt SMO算法是通过一个外循环来选择第一个alpha值的,并且其选择过程会在两种方式之间进行交替: 一种方式是在所有数据集上进行单遍扫描,另一种方式则是在非边界alpha中实现单遍扫描. 所谓 ...
机器学习常见面试题—支持向量机SVM
前言总结了2017年找实习时,在头条.腾讯.小米.搜狐.阿里等公司常见的机器学习面试题. 支持向量机SVM 关于min和max交换位置满足的 d* <= p* 的条件并不是KKT条件 Ans: ...

随机推荐

11.20 CSS定位智博星网页制作
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv=&qu ...
研究base64_encode的算法
从网上看了一些资料,为了方便自己理解,于是把它的编码原理,自己放在excel表格中清晰列出来,方便以后查阅.做的图如下:
telnetlib/SNMP
telnetlib telnetlib 总体来讲还是很好理解的,因为已经耍过paramiko 关于 .read_very_eager(), 简单理解就是就是读尽量多,读到没有反馈了为止关键功能 1) ...
成为 Web 开发大师你必须知道的 7 件事情
曾经是这样的,懂点编码,并可以偶尔耍点酷,那么你就会被认为是一个Web开发大师.但是现在,情况再也不是这样的了.Web开发已经朝着主流方向发展,开发人员数量显著增加.这意味着,如果你想成为这个领域的大 ...
jQuery自定义漂亮的下拉框插件8种效果
jquery美化选择器实例有:边框.下划线. 伸缩 .滑动. 覆盖. 旋转. 弹出层选择 .环形效果. 在线预览实例代码 <body class="demo-1"> ...
苹果浏览器和uc浏览器在移动端的坑（日常积累，随时更新）
先mark 1 . 移动端uc浏览器不兼容css3 calc() 2 . ie8下a标签没有内容给宽高也不能触发点击跳转 3 . safari输入框加上readOnly="ture&qu ...
认识基本的mfc控件
几乎可以在每个windows程序中都看到按钮.复选框.文本框以及下拉列表等等,这些都是控件.而且很多常用的控件已经内置到操作系统当中了,在Visual C++中,这些常用控件已经简答到能用“拖放”这种 ...
Eclipse OSGi调试过程
当你在开发的插件直接运行的时候,看起来正常的.但导出放到eclipse时候,又发觉不对劲,插件运行有问题.这个时候需要去OSGi的控制台调试插件,这一篇文章将讲述怎么简单调试eclipse插件(插件已 ...
在android用Get方式发送http请求
烦人的日子终于过去啦,终于又可以写博客啦,对自己的android学习做个总结,方便以后查看...... 一.在android用Get方式发送http请求,使用的是java标准类,也比较简单. 主要分以 ...
监听SD卡状态
最近在做项目时遇到需要处理SD卡拔出时的监听,在网上找了很多资料.总结了一下, 用接收广播处理最有效率 sd卡拔插时会发送广播,具体如下(摘自一位大虾的博客来自:http://blog. ...

coursera机器学习-支持向量机SVM

coursera机器学习-支持向量机SVM的更多相关文章

随机推荐

热门专题