SVM基本使用　　

　　SVM在解决分类问题具有良好的效果，出名的软件包有libsvm(支持多种核函数),liblinear。此外python机器学习库scikit-learn也有svm相关算法，sklearn.svm.SVC和

sklearn.svm.LinearSVC 分别由libsvm和liblinear发展而来。

　　推荐使用SVM的步骤为：

将原始数据转化为SVM算法软件或包所能识别的数据格式；
将数据标准化；(防止样本中不同特征数值大小相差较大影响分类器性能)
不知使用什么核函数，考虑使用RBF；
利用交叉验证网格搜索寻找最优参数(C, γ)；（交叉验证防止过拟合，网格搜索在指定范围内寻找最优参数）
使用最优参数来训练模型；
测试。

下面利用scikit-learn说明上述步骤：

 import numpy as np

 from sklearn.svm import SVC

 from sklearn.preprocessing import StandardScaler

 from sklearn.model_selection import GridSearchCV, train_test_split

 def load_data(filename)

     '''

     假设这是鸢尾花数据,csv数据格式为：

     0,5.1,3.5,1.4,0.2

     0,5.5,3.6,1.3,0.5

     1,2.5,3.4,1.0,0.5

     1,2.8,3.2,1.1,0.2

     每一行数据第一个数字(0,1...)是标签,也即数据的类别。

     '''

     data = np.genfromtxt(filename, delimiter=',')

     x = data[:, 1:]  # 数据特征

     y = data[:, 0].astype(int)  # 标签

     scaler = StandardScaler()

     x_std = scaler.fit_transform(x)  # 标准化

     # 将数据划分为训练集和测试集，test_size=.3表示30%的测试集

     x_train, x_test, y_train, y_test = train_test_split(x_std, y, test_size=.3)

     return x_train, x_test, y_train, y_test

 def svm_c(x_train, x_test, y_train, y_test):

     # rbf核函数，设置数据权重

     svc = SVC(kernel='rbf', class_weight='balanced',)

     c_range = np.logspace(-5, 15, 11, base=2)

     gamma_range = np.logspace(-9, 3, 13, base=2)

     # 网格搜索交叉验证的参数范围，cv=3,3折交叉

     param_grid = [{'kernel': ['rbf'], 'C': c_range, 'gamma': gamma_range}]

     grid = GridSearchCV(svc, param_grid, cv=3, n_jobs=-1)

     # 训练模型

     clf = grid.fit(x_train, y_train)

     # 计算测试集精度

     score = grid.score(x_test, y_test)

     print('精度为%s' % score)

 if __name__ == '__main__':
40 　　svm_c(*load_data('example.csv'))

其它内容

网格搜索小技巧

　　网格搜索法中寻找最优参数中为寻找最优参数，网格大小如果设置范围大且步长密集的话难免耗时，但是不这样的话又可能找到的参数不是很好，针对这解决方法是，先在大范围，大步长的粗糙网格内寻找参数。在找到的参数左右在设置精细步长找寻最优参数比如：

一开始寻找范围是 C = 2⁻⁵ , 2 ⁻³ , . . . , 2 ¹⁵ and γ = 2⁻¹⁵ , 2 ⁻¹³ , . . . , 2 ³ .由此找到的最优参数是(2³ , 2 ⁻⁵ )；
然后设置更小一点的步长，参数范围变为2¹ , 2 ^1.25 , . . . , 2 ⁵ and γ = 2⁻⁷ , 2 ^−6.75 , . . . , 2⁻³ 在这个参数范围再寻找最优参数。

　　这样既可以避免一开始就使用大范围，小步长而导致分类器进行过于多的计算而导致计算时间的增加。

线性核和RBF的选择

　　如果训练样本的特征数量过于巨大，也许就不需要通过RBF等非线性核函数将其映射到更高的维度空间上，利用非线性核函数也并不能提高分类器的性能。利用linear核函数也可以获得足够好的结果，此外，也只需寻找一个合适参数C，但是利用RBF核函数取得与线性核函数一样的效果的话需要寻找两个合适参数(C, γ)。

　　分三种情况讨论：

样本数量远小于特征数量：这种情况，利用情况利用linear核效果会高于RBF核。
样本数量和特征数量一样大：线性核合适，且速度也更快。liblinear更适合
样本数量远大于特征数量：非线性核RBF等合适。

本文主要参考这篇A Practical Guide to Support Vector Classification

libsvm：A Library for Support Vector Machines

liblinear : A Library for Large Linear Classification

sklearn : scikit-learn Machine Learning in Python

其它文章：

Python直接运行目录或者zip文件

通过生物学数据预测年龄-1

sklearn svm基本使用的更多相关文章

sklearn.svm.LinearSVC文档学习
https://scikit-learn.org/stable/modules/generated/sklearn.svm.LinearSVC.html#sklearn.svm.LinearSVC 1 ...
SVM的sklearn.svm.SVC实现与类参数
SVC继承了父类BaseSVC SVC类主要方法: ★__init__() 主要参数: C: float参数默认值为1.0 错误项的惩罚系数.C越大,即对分错样本的惩罚程度越大,因此在训练样本中准确 ...
sklearn.svm.SVC 参数说明
原文地址:sklearn.svm.SVC 参数说明 ============================== 资源: sklearn官网+DOC 库下载GitHub =============== ...
sklearn.svm.SVC参数说明
摘自:https://blog.csdn.net/szlcw1/article/details/52336824 本身这个函数也是基于libsvm实现的,所以在参数设置上有很多相似的地方.(PS: l ...
sklearn系列之 sklearn.svm.SVC详解
首先我们应该对SVM的参数有一个详细的认知: sklearn.svm.SVC 参数说明: 本身这个函数也是基于libsvm实现的,所以在参数设置上有很多相似的地方.(PS: libsvm中的二次规划问 ...
机器学习之sklearn——SVM
sklearn包对于SVM可输出支持向量,以及其系数和数目: print '支持向量的数目: ', clf.n_support_ print '支持向量的系数: ', clf.dual_coef_ p ...
[Example of Sklearn] - SVM usge
reference : http://www.csdn.net/article/2012-12-28/2813275-Support-Vector-Machine SVM是什么? SVM是一种训练机器 ...
针对sklearn.svm中的"dual_coef_"理解
1.决策函数的表达式公式: 其中: 2.SVM经过训练后,所得到的"dual_coef_" 其实"dual_coef_"就是"ai*yi" ...
sklearn.svm包中的SVC(kernel=”linear“)和LinearSVC的区别
参考:https://stackoverflow.com/questions/45384185/what-is-the-difference-between-linearsvc-and-svckern ...

随机推荐

ubuntu 外接显示器
xrandr --help xrandr # 列出显示器 sudo xrandr --output eDP-1 --off # 关闭eDP-1显示器 sudo xrandr --output ...
conda国内源的设置 by dwSun
conda国内源的设置 by dwSun anaconda是一个balabalabala... 知道这个软件的人肯定不用介绍,不知道的也不必介绍. conda是anaconda的包管理器,通过cond ...
UE4AI行为树笔记
左手是“Python”的身体，右手是“R”的灵魂，你爱哪个？
来源商业新知网,原标题:你爱 “Python”的身体,还是“R”的灵魂? 数据科学界有三大宝: Python.SAS和R,不过像SAS这种高端物种,不是我们这些平民能供养得起的啊. 根据 IEEE S ...
CancellationTokenSource 和 CancellationToken 取消线程
Main 程序[分别调用三个方法] static void Main(string[] args) { using (CancellationTokenSource cts = new Cancell ...
React中this.props的主要属性
this.props主要包含:history属性.location属性.match属性 ①history属性又包含 ②location属性又包含 ③match属性又包含
Unity3d项目入门之打Apk包
②结合Android Studio编译器打安卓包在安卓官网下载AS,按照步骤正常安装编译器完毕,运行AS,点击右下图的图标打开SDK Manager, 选择下载安装相关的“SDK Platform” ...
linux服务开机自动启动
zookeeper设置开机自动启动第一种:直接修改/etc/rc.d/rc.local文件在/etc/rc.d/rc.local文件中需要输入两行,其中export JAVA_HOME=/usr/ ...
Mac/Linux 常用命令
一 mkdir 创建文件夹 mkdir myApp 在当前目录下创建myApp文件夹. mkdir -p /a/b/c 创建/a/b/c文件夹,如果/a或/a/b不存在,则自动创建. 二 touch ...
通过ssh StrictHostKeyChecking解决自动化git项目问题
SSH 公钥检查是一个重要的安全机制,可以防范中间人劫持等黑客攻击.但是在特定情况下,严格的 SSH 公钥检查会破坏一些依赖 SSH 协议的自动化任务,就需要一种手段能够绕过 SSH 的公钥检查. 首 ...

sklearn svm基本使用

SVM基本使用

其它内容

网格搜索小技巧

线性核和RBF的选择

sklearn svm基本使用的更多相关文章

随机推荐

热门专题

SVM基本使用