在机器学习中，支持向量机（Support Vector Machine）算法既可以用于回归问题，也可以用于分类问题。

支持向量机（SVM）算法的历史可以追溯到1963年，当时前苏联统计学家弗拉基米尔·瓦普尼克（Vladimir N. Vapnik）和他的同事阿列克谢·切尔沃宁基斯（Alexey Ya. Chervonenkis）提出了支持向量机的概念。然而，由于当时的国际环境影响，他们用俄文发表的论文并没有受到国际学术界的关注。

直到20世纪90年代，瓦普尼克移民到美国，随后发表了SVM理论。
在此之后，SVM算法开始受到应有的重视。在1993年和1995年，Corinna Cortes和瓦普尼克提出了SVM的软间隔分类器，并对其进行了详细的研究和改进。随着机器学习领域的快速发展，SVM逐渐成为一种流行的监督学习算法，被广泛应用于分类和回归问题。

一般来说，支持向量机用于分类问题时，会简称 SVC；用于回归问题时，会简称SVR。

1. 概述

支持向量机回归（Support Vector Machine Regression，简称SVR）的基本思想是通过构建一个分类器，将输入数据映射到高维空间中，使得数据在高维空间中更加线性可分，从而得到一个最优的回归模型。

如上图所示，SVR的包括：

模型函数：$f(x) = w^Tx +b$
模型上下边缘分别为：$w^T+x+b+\epsilon$和 $w^T+x+b-\epsilon$

2. 创建样本数据

这次的回归样本数据，我们用 scikit-learn 自带的玩具数据集中的糖尿病数据集。
关于玩具数据集的内容，可以参考：TODO

from sklearn.datasets import load_diabetes

# 糖尿病数据集

diabetes = load_diabetes()

X = diabetes.data

y = diabetes.target

这个数据集中大约有400多条数据。

3. 模型训练

训练之前，为了减少算法误差，先对数据进行标准化处理。

from sklearn import preprocessing as pp

# 数据标准化

X = pp.scale(X)

y = pp.scale(y)

接下来分割训练集和测试集。

from sklearn.model_selection import train_test_split

# 分割训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1)

然后用scikit-learn中的SVR模型来训练：

from sklearn.svm import SVR

# 定义支持向量机回归模型

reg = SVR(kernel='linear')

# 训练模型

reg.fit(X_train, y_train)

SVR的主要参数包括：

kernel：核函数类型，可以选择线性（'linear'）、多项式（'poly'）、径向基（'rbf'）、sigmoid（'sigmoid'）等。
degree：多项式核函数的度，仅当kernel='poly'时有效。
C：惩罚参数，控制对超出间隔的样本的惩罚力度。C值越大，对超出间隔的样本的惩罚力度越大；C值越小，模型越有可能出现过度拟合。
epsilon：定义间隔的容忍度，epsilon越大，间隔越大。
gamma：定义了核函数的系数，gamma越大，核函数的形状越窄，对数据的影响越小。
tol：定义了优化算法的容忍度，tol越大，算法越容易接受较差的解。
max_iter：定义了优化算法的最大迭代次数。

最后验证模型的训练效果：

from sklearn import metrics

# 在测试集上进行预测

y_pred = reg.predict(X_test)

mse, r2, m_error = 0.0, 0.0, 0.0

y_pred = reg.predict(X_test)

mse = metrics.mean_squared_error(y_test, y_pred)

r2 = metrics.r2_score(y_test, y_pred)

m_error = metrics.median_absolute_error(y_test, y_pred)

print("均方误差：{}".format(mse))

print("复相关系数：{}".format(r2))

print("中位数绝对误差：{}".format(m_error))

# 运行结果

均方误差：0.6235345942607318

复相关系数：0.3106068096398569

中位数绝对误差：0.5861766809598691

从预测的误差来看，训练的效果还不错。

4. 总结

SVR算法的应用场景非常广泛，包括时间序列预测、金融市场分析、自然语言处理、图像识别等领域。
例如，在时间序列预测中，SVR算法可以用于预测股票价格、房价等连续变量的未来值。
在金融市场分析中，SVR算法可以用于预测股票指数的走势，帮助投资者做出更加明智的投资决策。
在自然语言处理中，SVR算法可以用于文本分类和情感分析等任务。
在图像识别中，SVM回归算法可以用于图像分割和目标检测等任务。

总之，SVR算法是一种非常有效的机器学习算法，可以用于解决各种回归问题。
它的优点包括泛化能力强、能够处理非线性问题、对数据规模和分布不敏感等。
然而，它的计算复杂度较高，需要使用高效的优化算法进行求解，同时也需要仔细地选择合适的参数以避免过拟合和欠拟合等问题。

【scikit-learn基础】--『监督学习』之支持向量机回归的更多相关文章

Python基础『一』
内置数据类型数据名称例子数字: Bool,Complex,Float,Integer True/False; z=a+bj; 1.23; 123 字符串: String '123456' 元组: ...
Python基础『二』
目录语句,表达式赋值语句打印语句分支语句循环语句函数函数的作用函数的三要素函数定义 DEF语句 RETURN语句函数调用作用域闭包递归函数匿名函数迭代语句,表达式赋值 ...
『cs231n』计算机视觉基础
线性分类器损失函数明细: 『cs231n』线性分类器损失函数最优化Optimiz部分代码: 1.随机搜索 bestloss = float('inf') # 无穷大 for num in range ...
Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
[原创] 【2014.12.02更新网盘链接】基于EasySysprep4.1的 Windows 7 x86/x64 『视频』封装
[原创] [2014.12.02更新网盘链接]基于EasySysprep4.1的 Windows 7 x86/x64 『视频』封装 joinlidong 发表于 2014-11-29 14:25:50 ...
『TensorFlow』专题汇总
TensorFlow:官方文档 TensorFlow:项目地址本篇列出文章对于全零新手不太合适,可以尝试TensorFlow入门系列博客,搭配其他资料进行学习. Keras使用tf.Session训 ...
『TensorFlow』批处理类
『教程』Batch Normalization 层介绍基础知识下面有莫凡的对于批处理的解释: fc_mean,fc_var = tf.nn.moments( Wx_plus_b, axes=[0] ...
『TensorFlow』梯度优化相关
tf.trainable_variables可以得到整个模型中所有trainable=True的Variable,也是自由处理梯度的基础基础梯度操作方法: tf.gradients 用来计算导数.该 ...
『TensorFlow』模型保存和载入方法汇总
『TensorFlow』第七弹_保存&载入会话_霸王回马一.TensorFlow常规模型加载方法保存模型 tf.train.Saver()类,.save(sess, ckpt文件目录)方法 ...
『计算机视觉』Mask-RCNN_从服装关键点检测看KeyPoints分支
下图Github地址:Mask_RCNN Mask_RCNN_KeyPoints『计算机视觉』Mask-RCNN_论文学习『计算机视觉』Mask-RCNN_项目文档翻译『计算机视觉』Mas ...

随机推荐

SpringBoot打成jar运行后无法读取resources里的文件
开发一个word替换功能时,因替换其中的内容功能需要 word 模版,就把 word_replace_tpl.docx 模版文件放到 resources 下在开发环境中通过下面方法能读取word_r ...
Kruskal重构树学习笔记
Kruskal 重构树最大生成树将部分内容倒置即可回顾:Kruskal 基本信息求解最小生成树时间复杂度:$O(m \log m)$ 更适合稀疏图算法思想按照边权从小到大排序依次枚举 ...
Teamcener AWC Solr链接被拒
1.检查安装Solr安装情况 2.在tem上勾选添加安装完成后,总共有2个文件夹需要注意,一个 solr-版本的文件夹,一个 TcFTSindexer 的文件夹如果是solr安装的是服务,则不需 ...
ElasticSearch系列——查询、Python使用、Django/Flask集成、集群搭建，数据分片、位置坐标实现附近的人搜索
@ 目录 Elasticsearch之-查询一基本查询 1.1 match查询 1.2 term查询 1.3 terms查询 1.4 控制查询的返回数量(分页) 1.5 match_all 查询 ...
Flask框架——请求扩展、flask中间件、蓝图、分析线程和协程
文章目录 01 请求扩展 01 before_first_request :项目启动后第一次请求的时候执行 02 before_request:每次请求之前执行 03 after_request:每次 ...
go语言包依赖管理-构建完整的依赖项目：目录结构及包的调用
目录结构: <home>/ |-- greetings/ |-- hello/1.分别进入对应目录创建以上目录结构 //bash切换到用户主目录 cd $HOMEPAHT$ //bash新 ...
使用Eclipse生成CHM帮助文档(图解)
使用Eclipse生成CHM帮助文档(图解) 博客分类: System Operate javadoc生成chm文档java生成api帮助文档api帮助文档生成工具 Eclipse JavaDoc和j ...
如何基于three.js(webgl)引擎架构，研发一套通过配置就能自动生成的3D机房系统
序: 这几年观察下来,大部分做物联网三维可视化解决方案的企业或个人, 基本都绕不开3D机房.包括前面也讲过这样的案例<使用webgl(three.js)创建自动化抽象化3D机房,3D机房模块详细 ...
记Halo1.5版本迁移Halo2.10.0版本
原文地址: 记Halo1.5版本迁移Halo2.10.0版本 - Stars-One的杂货小窝上一篇Window10安装linux子系统及子系统安装1Panel面板 - Stars-One的杂货小窝 ...
Go反射终极指南：从基础到高级全方位解析
在本文中,我们将全面深入地探讨Go语言的反射机制.从反射的基础概念.为什么需要反射,到如何在Go中实现反射,以及在高级编程场景如泛型编程和插件架构中的应用,本文为您提供一站式的学习指南. 关注[Tec ...

【scikit-learn基础】--『监督学习』之 支持向量机回归

1. 概述

2. 创建样本数据

3. 模型训练

4. 总结

【scikit-learn基础】--『监督学习』之 支持向量机回归的更多相关文章

随机推荐

热门专题

【scikit-learn基础】--『监督学习』之支持向量机回归

【scikit-learn基础】--『监督学习』之支持向量机回归的更多相关文章