【基础知识六】支持向量机SVM
开发库:
SVM难点:核函数选择
一、基本问题
找到约束参数ω和b,支持向量到(分隔)超平面的距离最大;此时的分隔超平面称为“最优超平面”
距离表示为,

问题表示为,

#支持向量机名字的由来:由支持向量得到的分类器
二、问题的求解
上述问题为一个凸二次优化问题,可以由现成的优化计算包求解
高效方法:用拉格朗日乘子法求解其对偶问题,得到问题的解——
SMO算法:在参数初始化后,


SMO算法之所以高效,由于在固定其他参数后,仅优化两个参数(αi和αj)能做到非常高效。

b使用所有支持向量求解的平均值
三、核函数
问题:现实中,样本空间也许并不存在一个能正确划分两类样本的超平面。
如果原始空间是有限维(即属性有限),那么一定存在一个高维特征空间使样本可分。
#核函数:用来等效原始空间到高维空间的映射,为了实现两类样本线性可分
要求样本在特征空间线性可分,则特征空间的好坏对支持向量机的性能至关重要。

假设这样一个函数:

求解后可以得到

上式称为“支持向量展式”,κ(.,.)就是核函数
通常Φ(.)的具体形式是未知的
在不知道特征映射的形式时,我们并不知道什么样的核函数是合适的,而核函数也仅是隐式地定义了这个特征空间。
于是,“核函数选择”称为支持向量机的最大变数。

此外,还可以通过函数组合得到“核函数”。
四、软间隔与正则化
样本空间或者特征空间中一定线性可分?
1. 很难确定某个核函数使得训练样本在特征空间中线性可分
2. 线性可分的结果是不是由于过拟合造成的
问题的解决——
“软间隔”:允许支持向量机在一些样本上出错

优化目标改写为:

C称为正则化常数(惩罚因子),l0/1表示损失函数,C为有限值时上式允许一些样本不满足约束
正则化可理解为一种“罚函数法”,即对不希望得到的结果施以惩罚,从而使得优化过程趋向于希望目标。
“正则化”regularization问题:
推导发现“软间隔”问题,一方面与用户希望获得何种性质的模型有关;另一方面降低了最小化训练误差的过拟合风险;
五、支持向量回归SVR
SV Regression
f(x)与y之间差的绝对值小于等于ε,则认为被预测正确。
六、核方法
给定训练样本,学得的模型总能表示成核函数的线性组合。
那么,核方法指——引入核函数来将线性学习器拓展为非线性学习器。
“核线性判别分析”
补充阅读:
1. 支持向量机的求解通常借助于凸优化技术
2. 非线性核SVM的时间复杂度理论上不低于O(m^2),研究重点是设计快速近似算法
3. 线性核SVM常用于分析大规模数据
4. 多核学习使用多个核函数并通过学习获得最优凸组合作为最终的核函数,实际是一种集成学习机制
补充++
【基础知识六】支持向量机SVM的更多相关文章
- python基础知识六 文件的基本操作+菜中菜
基础知识六 文件操作 open():打开 file:文件的位置(路径) mode:操作文件模式 encoding:文件编码方式 f :文件句柄 f = open("1.t ...
- Python基础知识(六)------小数据池,集合,深浅拷贝
Python基础知识(六)------小数据池,集合,深浅拷贝 一丶小数据池 什么是小数据池: 小数据池就是python中一种提高效率的方式,固定数据类型使用同一个内存地址 代码块 : 一个文 ...
- oracle基础知识(六)----spfile与pfile
一, 认识参数文件 Oracle中的参数文件是一个包含一系列参数以及参数对应值的操作系统文件.它们是在数据库实例启动时候加载的,决定了数据库的物理 结构.内存.数据库的限制及系统大量的默认值 ...
- ASP.NET Core 2.2 基础知识(六) 配置(内含MySql+EF)
先上一段代码,了解一下 .NET Core 配置数据的结构. 新建一个 控制台项目,添加一个文件 json.json ,文件内容如下: { "country": "cn& ...
- Go语言核心36讲(Go语言基础知识六)--学习笔记
06 | 程序实体的那些事儿 (下) 在上一篇文章,我们一直都在围绕着可重名变量,也就是不同代码块中的重名变量,进行了讨论.还记得吗? 最后我强调,如果可重名变量的类型不同,那么就需要引起我们的特别关 ...
- C#基础知识六之委托(delegate、Action、Func、predicate)
1. 什么是委托 官方解释 委托是定义方法签名的类型,当实例化委托时,您可以将其实例化与任何具有兼容签名的方法想关联,可以通过委托实例调用方法. 个人理解 委托通俗一点说就是把一件事情交给别人来帮助完 ...
- python基础知识六
博客园的博文对每篇博文的长度似乎做了限制 面向对象编程, 在程序何种,根据操作数据的函数或语句块来设计程序.这被成为面向过程的编程.还有一种把数据和功能结合起来,用称为对象的东西包裹起来组织组织程序的 ...
- java 基础知识六 字符串2
java 基础知识六 字符串2 1.String类是final类,也即意味着String类不能被继承,并且它的成员方法都默认为final方法 . String 是不可变对象,也就是一旦创建,那么整 ...
- java 基础知识六 字符串1
java 基础知识六 字符串1 String 不是java的基本数据类型 String 不是java的基本数据类型 String 不是java的基本数据类型 字符串是是一个字符序列 1.创建 创建 ...
随机推荐
- PAT 数列求和-加强版 (20分)(简单模拟)
给定某数字A(1≤A≤9)以及非负整数N(0≤N≤100000),求数列之和S=A+AA+AAA+⋯+AA⋯A(N个A).例如A=1, N=3时,S=1+11+111=123 输入格式: 输入数字A与 ...
- Vue.js中用webpack合并打包多个组件并实现按需加载
对于现在前端插件的频繁更新,所以多多少少要对组件化有点了解,下面这篇文章主要给大家介绍了在Vue.js中用webpack合并打包多个组件并实现按需加载的相关资料,需要的朋友可以参考下. 前言 随着 ...
- 简单shell实现局域网IP扫描
#!/bin/bash network=$1 time=$(date +%H%M%S) for i in $(seq $2 $3) do ping -c 1 -w 2 $network.$i > ...
- HDU - 6311:Cover(欧拉回路,最少的一笔画覆盖无向图)
The Wall has down and the King in the north has to send his soldiers to sentinel. The North can be r ...
- 20155204 2016-2017-2 《Java程序设计》第7周学习总结
20155204 2016-2017-2 <Java程序设计>第7周学习总结 教材学习内容总结 在只有Lambda表达式的情况下,参数的类型必须写出来,如果有目标类型的话,在编译程序可推断 ...
- POJ 3069:Saruman's Army
Saruman's Army Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 13242 Accepted: 6636 D ...
- leetcode:Count and Say【Python版】
一次AC 字符串就是:count+char class Solution: # @return a string def countAndSay(self, n): str = " for ...
- dbt macro 说明
macro是SQL的片段,可以像模型中的函数一样调用.macro可以在模型之间重复使用SQL,以符合DRY(不要重复自己)的工程原理. 此外,共享包可以公开您可以在自己的dbt项目中使用的macro. ...
- 使用just-api 进行接口测试
just-api 是基于配置的测试,同时支持基于jsonpath jsonschema 的数据校验, 对于数据的请求只集成hook,支持测试失败重试.测试报告.graphql api 测试.... 使 ...
- 【转】每天一个linux命令(12):more命令
原文网址:http://www.cnblogs.com/peida/archive/2012/11/02/2750588.html more命令,功能类似 cat ,cat命令是整个文件的内容从上到下 ...