Libsvm和Liblinear的使用经验谈

原文：http://blog.sina.com.cn/s/blog_5b29caf7010127vh.html

Libsvm和Liblinear都是国立台湾大学的Chih-Jen Lin博士开发的，Libsvm主要是用来进行非线性svm 分类器的生成，提出有一段时间了，而Liblinear则是去年才创建的，主要是应对large-scale的data classification，因为linear分类器的训练比非线性分类器的训练计算复杂度要低很多，时间也少很多，而且在large scale data上的性能和非线性的分类器性能相当，所以Liblinear是针对大数据而生的。

两者都是一个跨平台的通用工具库，支持windows/linux/mac os,代码本身是c++写的，同时也有matlab，python，java，c/c++扩展接口，方便不同语言环境使用，可以说是科研和企业人员的首选！像我这样在学校的一般用matlab/c++，而我同学在百度则主要用的是python/c++，所以只是各自侧重不一样，但所使用的核心还是其svm库。

以上Libsvm和Liblinear的主页上都有windows下的binary文件下载，zip,tar格式都有，解压后，找到matlab子文件目录，参看里面的readme文件，需要在matlab中进入此目录，运行make.m文件，matlab会根据本机默认的c/c++编译器将.c文件生成为.mexw32文件(由于我是32位操作系统，此处为mexw32,对于64位os，则对应为mexw64)，提供matlab下能使用的接口。之后生成了这些.mexw32文件复制到你自己的matlab工程根目录中，就可以在matlab文件中调用libsvm/liblinear库中的函数了~

http://blog.sina.com.cn/s/blog_5bd2cb260100ev25.html 这位网友对libsvm在matlab中的使用说明的很详细，可以参考下。

有关Liblinear和Libsvm各自的优势可以归纳如下：

1.libsvm用来就解决通用典型的分类问题

2.liblinear主要为大规模数据的线性模型设计

it can be able to handle large-scaled dataset 可以用来处理大规模的数据
it runs really faster than libsvm because it doesn't have to compute thekernel for any two points 由于采用线性核,所以不需要计算kernel value,速度更快
trust region method for optimization looks new for machine learning people

以下为一位网友采用liblinear进行数据分类的实验性能说明“

”今天试用了以下liblinear，速度很快（快到我没有想到），
我的实验数据：
训练集：21504 * 1500（1500是样本的数量，21504是维度）
测试集：21504 * 2985
速度用秒来衡量，20次实验总共不到2分钟。

同样的问题我用了libsvm实验速度上相差太大，libsvm实验5次，每次将近10分钟，时间是其次，发现一个问题就是，libsvm比liblinear的结果相差1个百分点，没有读liblinear的文章，不知道问题出在那个地方，libsvm我直接用的默认参数，线性模型。这样必然引起一个问题，如果我想评价线性模型和非线性模型的性能，我不可能一个用liblinear一个用libsvm,如果两个都用libsvm，报告的性能肯定有一些问题。

所以如果你的问题维度很大（线性模型就有非常好的性能），不妨考虑liblinear. “

大致看了一下libsvm和liblinear的说明文档，发现一个问题就是在线性问题上两者的目标函数就不一样，所以性能上的差异是正常的，应该说如果优化同一样的目标函数两者性能应该会差不多，但是速度很明显，liblinear快很多。

对于什么时候用线性模型的问题，我想上面的我举的例子用linear classifier就比较好，非线性分类不一定比线性分类器好，尤其是在样本及其有限，同时特征维度很高的情况下，因为样本有限的情况下，kernel map通常不准确，很有可能错误地划分类别空间，可能造成比线性模型更差的结果。

说到scale，我建议不要用libsvm里自带的scale，因为一旦使用这个工具，它就会把原来稀疏的数据，变成非稀疏的格式，这样不但会生成非常大的数据文件，而且liblinear对稀疏数据快速处理的优势就不能体现出来了。因此，要scale，就自己写一个，以保持原来稀疏的格式

liblinear的好处就是速度快，尤其是对稀疏的特征。缺点就是太吃内存了。10G的数据量需要接近50G的内存，数据量再大就没法做了。

另外，还有一个经常提到的svm库SVM-per：http://www.cs.cornell.edu/people/tj/svm_light/svm_perf.html 是康奈尔大学的人设计的。好像对计算机硬件的性能要求比liblinear要低...有做图像处理的人使用这个svm-per代替liblinear。

另外，对于多分类问题以及核函数的选取，以下经验规则可以借鉴：

如果如果特征数远远大于样本数的情况下,使用线性核就可以了.
如果特征数和样本数都很大,例如文档分类,一般使用线性核, LIBLINEAR比LIBSVM速度要快很多.
如果特征数远小于样本数,这种情况一般使用RBF.但是如果一定要用线性核,则选择LIBLINEAR较好,而且使用-s 2选项。

对于多分类问题：

对于15类场景来说，每类100幅训练图像，如果直接训练一个15类的multi-class classifier，则训练文件的Label值取1～15，wi标记不用指定（default 1）。如果对于每个类单独训练一个分类器，这样就把这个类的100幅图像作为正样本（假设Label=1），而其余所有的训练图像作为负样本（共1400幅，假设Label=-1），由此可以看出正负样本不平衡，因此应该制定wi选项，具体地可以指定-w1 14，-w-1 1( 1是缺省值），在cross validation的时候首先指定-wi，然后通过grid.py来确定(C,g)的最优值。实际做实验的时候，可以具体比较一下两种情况到底有多大差别。

Libsvm和Liblinear的使用经验谈的更多相关文章

LIBSVM与LIBLINEAR
对于多分类问题以及核函数的选取,以下经验规则可以借鉴: 如果如果特征数远远大于样本数的情况下,使用线性核就可以了. 如果特征数和样本数都很大,例如文档分类,一般使用线性核, LIBLINEAR比LIB ...
LibLinear（SVM包）使用说明之（一）README
转自:http://blog.csdn.net/zouxy09/article/details/10947323/ LibLinear(SVM包)使用说明之(一)README zouxy09@qq.c ...
LibLinear（SVM包）的MATLAB安装
LibLinear(SVM包)的MATLAB安装 1 LIBSVM介绍 LIBSVM是众所周知的支持向量机分类工具包(一些支持向量机(SVM)的开源代码库的链接及其简介),运用方便简单,其中的核函数( ...
Libsvm使用资料
原理: 1. pluskid(张弛原)的支持向量机教程(人家现在都是大牛了) http://blog.pluskid.org/?page_id=683 2. JerryLead机器学习教程 http: ...
在weka中添加libSVM或者HMM等新算法
转:http://kasy-13.blog.163.com/blog/static/8214691420143226365887/ Weka的全名是怀卡托智能分析环境(Waikato Environm ...
scikit-learn 支持向量机算法库使用小结
之前通过一个系列对支持向量机(以下简称SVM)算法的原理做了一个总结,本文从实践的角度对scikit-learn SVM算法库的使用做一个小结.scikit-learn SVM算法库封装了libsvm ...
Libliner 中的-s 参数选择：primal 和dual
Libliner 中的-s 参数选择:primal 和dual LIBLINEAR的优化算法主要分为两大类,即求解原问题(primal problem)和对偶问题(dual problem).求解原问 ...
改写libsvmread读取多标记数据集
在libsvm和liblinear软件包里有一个C函数叫libsvmread,这个函数的作用是把如下格式的文本文件\begin{align*} 1 & \ \ *:* \ \ *:* \\ - ...
Support Vector Machines for classification
Support Vector Machines for classification To whet your appetite for support vector machines, here’s ...

随机推荐

hihocoder 1500 EL SUENO
树上背包. 简单的树形$dp$,计算出摧毁每一个节点所需的最小费用,背包即可. #include<bits/stdc++.h> using namespace std; struct X ...
spring源码分析 contextConfigLocation属性的位置
<context-param> <param-name>contextConfigLocation</param-name> <param-value> ...
vmware12安装centos7系统详解
1.首先需要准备的工具有vmware12和contos7的系统. vmvare12下载地址: http://pan.baidu.com/s/1i5vH50D contos7我自己使用的为1511版本. ...
Test20171009 考试总结 NOIP模拟赛
题目难度合适,区分度适中,但是本人水平不佳,没有拿到满意的分数. T1(matrix) 一种比较容易想到的想法是枚举起点求出最长全1串做预处理,这是O(n^2)的. 接着枚举列起点,列终点,通过后缀和 ...
20162327WJH Android开发程序设计实验报告
学号 20162327 <程序设计与数据结结构>Android开发程序设计实验报告实验一:Android Stuidio的安装测试: 参考<Java和Android开发学习指南(第 ...
两个矩阵相加 Exercise08_05
import java.util.Scanner; /** * @author 冰樱梦 * 时间:2018年12月 * 题目:两个矩阵相加 * */ public class Exercise08_0 ...
Codeforces Beta Round #5 B. Center Alignment 模拟题
B. Center Alignment 题目连接: http://www.codeforces.com/contest/5/problem/B Description Almost every tex ...
PAT甲级1021. Deepest Root
PAT甲级1021. Deepest Root 题意: 连接和非循环的图可以被认为是一棵树.树的高度取决于所选的根.现在你应该找到导致最高树的根.这样的根称为最深根. 输入规格: 每个输入文件包含一个 ...
HTML导出Excel数据类型转换样式参考
mso-number-format:"0" NO Decimals mso-number-format:"0/.000" 3 Decimals mso-numb ...
mysql数据库文件简介和应用
存放目录: 用 whereis my.cnf 查看mysql配置文件的目录,查看my.cnf的datadir参数可找到mysql数据库文件的存放目录. 本机存放的目录为/var/lib/mysql,进 ...

Libsvm和Liblinear的使用经验谈

Libsvm和Liblinear的使用经验谈的更多相关文章

随机推荐

热门专题