SVM流行库LIBSvm的使用和调参

简介：Libsvm is a simple, easy-to-use, and efficient software for SVM classification and regression. It solves C-SVM classification, nu-SVM classification, one-class-SVM, epsilon-SVM regression, and nu-SVM regression. It also provides an automatic model selection tool for C-SVM classification.

　　Libsvm是一个简单，易于使用和高效的SVM分类和回归软件。它解决了C-SVM分类，nu-SVM分类，一类SVM，ε-SVM回归和nu-SVM回归。它还提供了C-SVM分类的自动模型选择工具。

github :https://github.com/cjlin1/libsvm

一、安装

二、使用说明：

svm-train traning_set_file model_file

svm-predict test_file model_fileoutput_file

python平台使用:python svm_mode.py train_data test_data

--------LIBSVM常用参数的意义--------------

-s svm类型：SVM设置类型(默认0)

-t 核函数类型：核函数设置类型(默认2)

-d degree：核函数中的degree设置(针对多项式核函数)(默认3)

-g r(gama)：核函数中的gamma函数设置(针对多项式/rbf/sigmoid核函数) (默认类别数目的倒数)

-r coef0：核函数中的coef0设置(针对多项式/sigmoid核函数)((默认0)

-s SVM类型：默认（0）0--c-svm 1--nu-svm 2--one class-svm 3--e-svm 4--nu-svm

　　监督学习问题：

　　分类

　　C-svm:C-支持向量分类机；参数C为惩罚系数，C越大表示对错误分类的惩罚越大，适当的参数C对分类Accuracy很关键。

　　Nu-svm:v-支持向量分类机；由于C的选取比较困难，用另一个参数v代替C。C是“无意义”的，v是有意义的。（与C_SVC其实采用的模型相同，但是它们的参数C的范围不同,C_SVC采用的是0到正无穷，该类型是[0,1]。）

　　回归：　　

　　E-svm:ε-支持向量回归机，不敏感损失函数，对样本点来说，存在着一个不为目标函数提供任何损失值的区域。

　　Nu-svm:n-支持向量回归机，由于EPSILON_SVR需要事先确定参数，然而在某些情况下选择合适的参数却不是一件容易的事情。而NU_SVR能够自动计算参数。

　　非监督学习问题：

　　One-class-svm:单类别-支持向量机，不需要类标号,用于支持向量的密度估计和聚类

-t 核函数类型：核函数设置类型(默认2)

　　 LINEAR：线性核函数（linear kernel）

　　POLY:多项式核函数（ploynomial kernel）

　　RBF:径向机核函数(radical basis function)

　　SIGMOID: 神经元的非线性作用函数核函数(Sigmoid tanh)

　　PRECOMPUTED：用户自定义核函数

究竟用哪一种核函数取决对数据处理的要求，不过建议一般都是使用RBF核函数。因为RBF核函数具有良好的性态，在实际问题中表现出了良好的性能。另外使用线性核函数

理由：

　　1、个核函数将样本非线性地映射到一个更高维的空间，与线性核不同，它能够处理分类标注和属性的非线性关系。并且，线性核是RBF的一个特例（Keerthi and Lin 2003），因此，使用一个惩罚因子C的线性核与某些参数（C,γ）的RBF核具有相同的性能。同时，Sigmoid核的表现很像一定参数的RBF核（Lin and Link 2003）。

　　2、第二个原因，超参数（hyperparameter）的数量会影响到模型选择的复杂度（因为参数只能靠试验呀！）。多项式核比RBF核有更多的超参数。
最后，RBF核有更少的数值复杂度（numerical difficulties）。一个关键点0<Kij<=1对比多项式核，后者关键值需要 infinity(rxiTxj+r>1)或者zero(rxiTxj+r<1)，这是高阶运算。此外，我们必须指出sigmoid核在某些参数下不是合法的（例如，不是两个向量的内积）。（Vapnik 1995）
当然，也存在一些情形RBF核是不适用的。特别地，当特征维数非常大的时候，很可能只能适用线性核。

------------------------实际工程中SVM使用心得--------------------------

一、实际工程中SVM使用的全部流程：

　　1. 对数据做归一化（simple scaling）

　　2. 应用 RBF kernel

　　3. 用cross-validation和grid-search 得到最优的c和g

　　4. 用得到的最优c和g训练训练数据

　　5. 测试

二、一些的经验：

　　1、样本数目少于特征维度并不一定会导致过拟合，这可以参考余凯老师的这句评论：

“这不是原因啊，呵呵。用RBF kernel, 系统的dimension实际上不超过样本数，与特征维数没有一个trivial的关系。”

　　2、：RBF核应该可以得到与线性核相近的效果（按照理论，RBF核可以模拟线性核），可能好于线性核，也可能差于，但是，不应该相差太多。

当然，很多问题中，比如维度过高，或者样本海量的情况下，大家更倾向于用线性核，因为效果相当，但是在速度和模型大小方面，线性核会有更好的表现。

　　老师木还有一句评论，可以加深初学者对SVM的理解：

　　“须知rbf实际是记忆了若干样例，在sv中各维权重重要性等同。线性核学出的权重是feature weighting作用或特征选择。”

上述摘自：http://blog.sina.com.cn/s/blog_6ae183910101cxbv.html

SVM流行库LIBSvm的使用和调参的更多相关文章

机器学习：使用scikit-learn库中的网格搜索调参
一.scikit-learn库中的网格搜索调参 1)网格搜索的目的: 找到最佳分类器及其参数: 2)网格搜索的步骤: 得到原始数据切分原始数据创建/调用机器学习算法对象调用并实例化scikit- ...
sklearn中SVM调参说明
写在前面之前只停留在理论上,没有实际沉下心去调参,实际去做了后,发现调参是个大工程(玄学).于是这篇来总结一下sklearn中svm的参数说明以及调参经验.方便以后查询和回忆. 常用核函数 1.li ...
自动调参库hyperopt+lightgbm 调参demo
在此之前,调参要么网格调参,要么随机调参,要么肉眼调参.虽然调参到一定程度,进步有限,但仍然很耗精力. 自动调参库hyperopt可用tpe算法自动调参,实测强于随机调参. hyperopt 需要自己 ...
adam调参
微调 #阿尔法 "learning_rate": 3e-5, #学习率衰减 "weight_decay": 0.1,// "weight_decay& ...
基于pytorch的CNN、LSTM神经网络模型调参小结
(Demo) 这是最近两个月来的一个小总结,实现的demo已经上传github,里面包含了CNN.LSTM.BiLSTM.GRU以及CNN与LSTM.BiLSTM的结合还有多层多通道CNN.LSTM. ...
调参必备---GridSearch网格搜索
什么是Grid Search 网格搜索? Grid Search:一种调参手段:穷举搜索:在所有候选的参数选择中,通过循环遍历,尝试每一种可能性,表现最好的参数就是最终的结果.其原理就像是在数组里找最 ...
CatBoost算法和调参
欢迎关注博主主页,学习python视频资源 sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?co ...
xgboost使用调参
欢迎关注博主主页,学习python视频资源 https://blog.csdn.net/q383700092/article/details/53763328 调参后结果非常理想 from sklea ...
python 机器学习中模型评估和调参
在做数据处理时,需要用到不同的手法,如特征标准化,主成分分析,等等会重复用到某些参数,sklearn中提供了管道,可以一次性的解决该问题先展示先通常的做法 import pandas as pd f ...

随机推荐

WF学习思维导图
原文来自我的有道笔记-老文重发系列如果配置加载核心服务,那么需要将持久化服务和跟踪服务放在一个数据库中! 1.用工作流的优点 a.提供将复杂任务分解的途径,通过将每个操作分解到活动中更便于业务 ...
Freemaker配置文件详解
classic_compatible=true ##如果变量为null,转化为空字符串,比如做比较的时候按照空字符做比较 whitespace_stripping=true ...
搭建ftp服务器实现文件共享
FTP服务器(File Transfer Protocol Server)是在互联网上提供文件存储和访问服务的计算机,它们依照FTP协议提供服务. FTP(File Transfer Protocol ...
SQL基本编程，分支语句，循环语句，存储过程，触发器
基本编程: 定义变量 declare @变量名数据类型赋值 set @变量名 = 值 select @变量名 = 值取值打印 select @变量名 print @变量名映射到结果集打印到消 ...
百度推送-sitemap-使用playframework框架实现-java
主动推送的目的是能够把我们高质量内容推送给百度,但是首先你得有一个属于你自己的网站,在百度站长进行验证通过之后,才有资格推送百度sitemap. 百度站长平台为未使用百度统计的站点提供三种验证方式:文 ...
Apache网页的缓存时间
配置网页缓存时间概述通过mod_expires模块配置Apache,使网页能在客户端浏览器缓存一段时间,以避免重复请求,减轻服务端工作压力. 启用mod_expires模块后,会自动生成页面头部信息 ...
ORACLE 12C 基础
连接到PDB数据库 CMD窗口:sqlplus 用户名/密码@localhost:1521/PDB数据库名示例:sqlplus xiaozijie/Abc4681101@localhost:1 ...
Alamofire源码解读系列(八)之安全策略(ServerTrustPolicy)
本篇主要讲解Alamofire中安全验证代码前言作为开发人员,理解HTTPS的原理和应用算是一项基本技能.HTTPS目前来说是非常安全的,但仍然有大量的公司还在使用HTTP.其实HTTPS也并不是 ...
应不应该使用inline-block代替float
CSS布局创建网站,浮动绝对占据了很大的比例.大块区域如主内容及侧边栏,以及在其中的小块区域,都可以看到浮动的影子.这里浮动是唯一的解决方案吗? 浮动通常表现正常,但有时候搞起来会很纠结.特别是处理内 ...
ReentrantLock源码分析与理解
在上面一篇分析ThreadExecutedPool的文章中我们看到线程池实现源码中大量使用了ReentrantLock锁,那么ReentrantLock锁的优势是什么?它又是怎么实现的呢? Reent ...

SVM流行库LIBSvm的使用和调参

SVM流行库LIBSvm的使用和调参的更多相关文章

随机推荐

热门专题