更新、更全的《机器学习》的更新网站,更有python、go、数据结构与算法、爬虫、人工智能教学等着你:https://www.cnblogs.com/nickchen121/p/11686958.html

scikit-learn库之支持向量机

在scikit-learn库中针对数据是否线性可分,主要将支持向量机分为以下三种分类模型LinearSVCSVCNuSVC;还有三种回归模型LinearSVRSVRNuSVR

接下来将会讨论上述六者的区别,由于SVC应用场景较为广泛,主要细讲SVC,其他的只讲与SVC的区别。由于是从官方文档翻译而来,翻译会略有偏颇,有兴趣的也可以去scikit-learn官方文档查看https://scikit-learn.org/stable/modules/classes.html#module-sklearn.svm

一、SVC

1.1 使用场景

SVC模型基于较为灵活,既可以支持线性可分数据,又可以支持线性不可分数据的分类。

1.2 代码

import numpy as np
X = np.array([[-1, -1], [-2, -1], [1, 1], [2, 1]])
y = np.array([1, 1, 2, 2])
from sklearn.svm import SVC
clf = SVC(gamma='auto')
clf.fit(X, y)
SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
decision_function_shape='ovr', degree=3, gamma='auto', kernel='rbf',
max_iter=-1, probability=False, random_state=None, shrinking=True,
tol=0.001, verbose=False)
print(clf.predict([[-0.8, -1]]))
[1]
print(clf.fit_status_)
0

1.3 参数详解

  • C:惩罚系数,float类型。如果C越大,惩罚程度越大,模型泛化能力降低;如果C越小,则容许训练样本中有一些误分类错误样本,泛化能力强,一般噪声较多推荐C小点。默认为1。
  • kernel:核函数,str类型。默认为'rbf',可选核函数有
    • 'linear':线性核函数
    • 'poly':多项式核函数
    • 'rbf':径向核函数(高斯核)
    • 'sigmoid':Sigmoid核函数
    • 'precomputed':核矩阵,即自己不使用核函数的情况下已经计算了核函数矩阵
  • degree:核函数参数,int类型。只有当kernel='poly'时才有用,即表示多项式核函数的阶数,对应核函数中的\(d\)。默认为3。
  • gamma:核函数参数,float类型。只有当kernel={'rbr','poly','sigmoid'}时才有用,对应核函数中的\(\gamma\)。默认为'auto',即表示其值为样本特征数的倒数。
  • coef0:核函数参数,float类型。只有当kernel={'poly','sigmoid'}时才有用,对应核函数中的\(r\)。默认为0。
  • shrinking:启发式收缩,bool类型。是否采用启发式收缩方式。默认为True。
  • probability:概率估计,bool类型。是否启用概率估计,必须得在fit()之前设置为True,会使得fit()速度变慢。默认为False。
  • tol:误差精度,float类型。支持向量机停止训练的误差精度。默认为1e-3。
  • cache_size:缓存大小,float类型。指定训练所需要的内存大小。默认为200,单位为MB。
  • class_weight:样本类别权重,{dict类型,'balanced'}。给每个类别指定不同的权重,'balanced'将自动分配不同类别样本的权重。可选参数。
  • verbose:日志冗长度,int类型。verbose=0,不输出训练过程;verbose=1,输出部分训练过程;verbose>1,输出所有的训练过程。默认为0。
  • max_iter:迭代次数,int类型。算法迭代次数,算法迭代到一定次数会收敛。默认为-1,表示不限制。
  • decision_function_shape:决策函数,str类型。决可选参数'ovo'和'ovr','ovo'表示一对一,'ovr'表示一对多。默认为'ovr'。
  • random_state:随机数种子,int类型。使用后可以保证随机数不会随着时间的变化而变化。默认为None。

1.4 属性

  • support_:array-like类型。所有支持向量的索引。
  • support_vectors_:array-like类型。所有的支持向量。
  • n_support_:array-like类型。每个类有多少个支持向量。
  • dual_coef_:array类型。决策函数中支持向量的系数。
  • coef_:array类型。原始问题中特征的系数,只可用于线性核中。
  • intercept_:array类型。决策函数的截距。
  • fit_status_:int类型。如果训练模型成功返回0,失败返回1并报警。
  • probA_:array类型。
  • probB_:array类型。如果probability=True,则可以估计A和B类各自在决策函数中的概率大小;如果probability=False,则返回空数组。不支持多分类问题的输出打印。

1.5 方法

  • decision_functino(X):求出样本X的决策函数。
  • fit(X,y):把数据放入模型中训练模型。
  • get_params([deep]):返回模型的参数,可以用于Pipeline中。
  • predict(X):预测样本X的分类类别。
  • score(X,y[,sample_weight]):基于报告决定系数\(R^2\)评估模型。
  • set_prams(**params):创建模型参数。

二、LinearSVC

LinearSVC模型即普通的线性可分支持向量机,即对线性不可分的数据不能使用。因为该模型不需要调参,并且速度快,所以如果非常明确数据一定是线性可分的情况下可以使用该模型,否则模型准确度反倒会变得很低,。

三、NuSVC

NuSVC模型基于SVC模型,它增加了nu参数可以控制模型的错误率。

四、LinearSVR

LinearSVR限制了只能使用线性核函数,相比较于LinearSVM不同之处在于损失函数的度量,其中它的损失函数参数loss='epsilon_insensitive'时,为类似于线性支持向量机的有松弛因子的损失度量,损失度量满足

\[-\epsilon-\xi_i\geq{y_i}-\omega\phi(x_i)-b\leq\epsilon+\xi_i
\]

而loss='squared_epsilon_insensitive',为少了松弛因子的损失度量方式,即损失度量满足

\[({y_i}-\omega\phi(x_i)-b)^2\leq\epsilon+\xi_i
\]

一般情况下使用'epsilon_insensitive'足够了。

五、SVR

SVR模型相较于LinearSVR模型可以使用核函数,既可以对线性不可分数据做回归。

六、NuSVR

NuSVR模型相较于SVR模型,增加了nu参数可以控制模型的错误率。

02-35 scikit-learn库之支持向量机的更多相关文章

  1. Scikit Learn: 在python中机器学习

    转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...

  2. scikit learn 模块 调参 pipeline+girdsearch 数据举例:文档分类 (python代码)

    scikit learn 模块 调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...

  3. 【网络爬虫入门02】HTTP客户端库Requests的基本原理与基础应用

    [网络爬虫入门02]HTTP客户端库Requests的基本原理与基础应用 广东职业技术学院  欧浩源 1.引言 实现网络爬虫的第一步就是要建立网络连接并向服务器或网页等网络资源发起请求.urllib是 ...

  4. (原创)(三)机器学习笔记之Scikit Learn的线性回归模型初探

    一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价 模型训练好后,度量模型拟合效果的 ...

  5. (原创)(四)机器学习笔记之Scikit Learn的Logistic回归初探

    目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优 一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...

  6. Scikit Learn

    Scikit Learn Scikit-Learn简称sklearn,基于 Python 语言的,简单高效的数据挖掘和数据分析工具,建立在 NumPy,SciPy 和 matplotlib 上.

  7. Python第三方库(模块)"scikit learn"以及其他库的安装

    scikit-learn是一个用于机器学习的 Python 模块. 其主页:http://scikit-learn.org/stable/. GitHub地址: https://github.com/ ...

  8. 【python】版本35 正则-非库-爬虫-读写xlw文件

    #交代:代码凌乱,新手一个,论坛都是高手,我也是鼓了很大勇气,发出来就是被批评和进步的   #需求:需要对某网站的某id子标签批量爬取,每个网页的id在xlw里,爬取完,再批量存取到这xlw里的第6行 ...

  9. Query意图分析:记一次完整的机器学习过程(scikit learn library学习笔记)

    所谓学习问题,是指观察由n个样本组成的集合,并根据这些数据来预测未知数据的性质. 学习任务(一个二分类问题): 区分一个普通的互联网检索Query是否具有某个垂直领域的意图.假设现在有一个O2O领域的 ...

随机推荐

  1. Java面试-动态规划与组合数

    最近在刷力扣上的题目,刷到了65不同路径,当初上大学的时候,曾在hihocoder上刷到过这道题目,但是现在已经几乎全忘光了,大概的知识点是动态规划,如今就让我们一起来回顾一下. 从题目说起 题目原文 ...

  2. Python高效编程技巧实战 实战编程+面试典型问题 中高阶程序员过渡

    下载链接:https://www.yinxiangit.com/603.html 目录:   如果你想用python从事多个领域的开发工作,且有一些python基础, 想进一步提高python应用能力 ...

  3. MySQL Explain学习笔记

    目录 一.执行计划概念 二.Explain用法 三.Explain属性介绍 3.1 id属性 3.2 select_type属性 3.3 table属性 3.4 type属性 3.5 possible ...

  4. C++ 深入浅出工厂模式(初识篇)

    初识工厂模式 我们先看工厂模式的介绍 这种类型的设计模式属于创建型模式,它提供了一种创建对象的最佳方式. 在工厂模式中,我们在创建对象时不会对客户端暴露创建逻辑,并且是通过使用一个共同的接口来指向新创 ...

  5. [Vue 牛刀小试]:第十七章 - 优化 Vue CLI 3 构建的前端项目模板(1)- 基础项目模板介绍

    一.前言 在上一章中,我们开始通过 Vue CLI 去搭建属于自己的前端 Vue 项目模板,就像我们 .NET 程序员在使用 asp.net core 时一样,我们更多的会在框架基础上按照自己的开发习 ...

  6. NLP(十七)利用tensorflow-serving部署kashgari模型

      在文章NLP(十五)让模型来告诉你文本中的时间中,我们已经学会了如何利用kashgari模块来完成序列标注模型的训练与预测,在本文中,我们将会了解如何tensorflow-serving来部署模型 ...

  7. ASP.NET Core SignalR:集线器Hubs

    一.什么是集线器hubs 通过SignalR的集线器hubs中定义的方法,服务器可以调用连接中的客户端定义的方法,而客户端也可以调用服务器端集线器中定义的方法.SignalR负责实现了客户端和服务器之 ...

  8. MySQL什么时候适合建索引,什么时候不适合建索引

    1.什么事索引(本质:数据结构) 索引是帮助MySQL高效获取数据的数据结构. 2.优势: 1.提高数据检索的效率,降低数据库IO成本 2.通过索引对数据进行排序,降低数据排序的成本,降低了CPU的消 ...

  9. gemfire基本使用以及spring-data-gemfire的使用

    1.安装程序的使用 locator 启动locator gfsh>start locator --name=locator1 指定端口启动 gfsh>start locator --nam ...

  10. 简单的Socket通信(简单的在线聊天)---winform

    注:本博客适合刚开始学习winform程序的初学者,大牛请绕道(跪求大牛指导文中不足) .....10w字废话自动省略,直接开始正题. 首先从最基本的建立winform开始(本项目用的Vs2017) ...