1. 算法概述

支持向量机的主要思想是找到一个超平面，将不同类别的样本最大化地分隔开。
超平面的位置由支持向量决定，它们是离分隔边界最近的数据点。
对于二分类问题，SVM寻找一个超平面，使得正例和支持向量到超平面的距离之和等于反例和支持向量到超平面的距离之和。
如果这个等式不成立，SVM将寻找一个更远离等式中不利样本的超平面。

下面的示例，演示了支持向量机分类算法在图像识别上的应用。

2. 创建样本数据

这次的样本使用的是scikit-learn自带的手写数字数据集。

import matplotlib.pyplot as plt

from sklearn import datasets

# 加载手写数据集

data = datasets.load_digits()

_, axes = plt.subplots(nrows=2, ncols=4, figsize=(10, 6))

for ax, image, label in zip(np.append(axes[0], axes[1]), data.images, data.target):

    ax.set_axis_off()

    ax.imshow(image, cmap=plt.cm.gray_r, interpolation="nearest")

    ax.set_title("目标值: {}".format(label))

这里显示了其中的几个手写数字，这个数据集总共有大约1700多个手写数字。

3. 模型训练

样本数据中，手写数字的图片存储为一个 8x8 的二维数组。
比如：

data.images[0]

# 运行结果

array([[ 0.,  0.,  5., 13.,  9.,  1.,  0.,  0.],

       [ 0.,  0., 13., 15., 10., 15.,  5.,  0.],

       [ 0.,  3., 15.,  2.,  0., 11.,  8.,  0.],

       [ 0.,  4., 12.,  0.,  0.,  8.,  8.,  0.],

       [ 0.,  5.,  8.,  0.,  0.,  9.,  8.,  0.],

       [ 0.,  4., 11.,  0.,  1., 12.,  7.,  0.],

       [ 0.,  2., 14.,  5., 10., 12.,  0.,  0.],

       [ 0.,  0.,  6., 13., 10.,  0.,  0.,  0.]])

所以，在分割训练集和测试集之前，我们需要先将手写数字的的存储格式从 8x8 的二维数组转换为 64x1 的一维数组。

from sklearn.model_selection import train_test_split

n_samples = len(data.images)

X = data.images.reshape((n_samples, -1))

y = data.target

# 分割训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1)

按照9:1的比例来划分训练集和测试集。

然后用scikit-learn中的SVC模型来训练样本：

from sklearn.svm import SVC

# 定义

reg = SVC()

# 训练模型

reg.fit(X_train, y_train)

模型的训练效果：

# 在测试集上进行预测

y_pred = reg.predict(X_test)

correct_pred = np.sum(y_pred == y_test)

print("预测正确率：{:.2f}%".format(correct_pred / len(y_pred) * 100))

# 运行效果

预测正确率：98.89%

正确率非常高，下面我们看看没识别出来的手写数字是哪些。

wrong_pred = []

for i in range(len(y_pred)):

    if y_pred[i] != y_test[i]:

        wrong_pred.append(i)

print(wrong_pred)

# 运行效果

[156, 158]

在测试集中，只有两个手写数字识别错了。

我面看看识别错的2个手写数字是什么样的：

_, axes = plt.subplots(nrows=1, ncols=2, figsize=(8, 3))

for i in range(2):

    idx = wrong_pred[i]

    image = X_test[idx].reshape(8, 8)

    axes[i].set_axis_off()

    axes[i].imshow(image, cmap=plt.cm.gray_r, interpolation="nearest")

    axes[i].set_title("预测值({})  目标值({})".format(y_pred[idx], y_test[idx]))

可以看出，即使人眼去识别，这两个手写数字也不太容易识别。

4. 总结

支持向量机分类算法的优势有：

有效处理高维数据：对高维数据非常有效，即使在数据维度超过样本数量的情况下也能工作得很好。
高效：只使用一部分训练数据（即支持向量）来做决策，这使得算法更加内存高效。
稳定性较好：由于其决策边界取决于支持向量而不是所有的数据点，因此模型的稳定性较好，对噪声和异常值的敏感度较低。

它的劣势主要有：

对参数和核函数敏感：性能高度依赖于参数设置（如惩罚参数C和核函数的选择）。如果参数选择不当，可能会导致过拟合或欠拟合。
难以解释：不像决策树那样直观，难以理解和解释。
处理大规模数据时速度较慢：训练过程涉及到二次规划问题，需要使用复杂的优化算法，因此在处理大规模数据时可能较慢。

【scikit-learn基础】--『监督学习』之支持向量机分类的更多相关文章

Python基础『一』
内置数据类型数据名称例子数字: Bool,Complex,Float,Integer True/False; z=a+bj; 1.23; 123 字符串: String '123456' 元组: ...
Python基础『二』
目录语句,表达式赋值语句打印语句分支语句循环语句函数函数的作用函数的三要素函数定义 DEF语句 RETURN语句函数调用作用域闭包递归函数匿名函数迭代语句,表达式赋值 ...
『cs231n』计算机视觉基础
线性分类器损失函数明细: 『cs231n』线性分类器损失函数最优化Optimiz部分代码: 1.随机搜索 bestloss = float('inf') # 无穷大 for num in range ...
Python机器学习（基础篇---监督学习（支持向量机））
支持向量机(分类) 支持向量机分类器根据训练样本的分布,搜索所有可能的线性分类器中最佳的那个.我们会发现决定其直线位置的样本并不是所有训练数据,而是其中的两个空间间隔最小的两个不同类别的数据点,而我们 ...
Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
[原创] 【2014.12.02更新网盘链接】基于EasySysprep4.1的 Windows 7 x86/x64 『视频』封装
[原创] [2014.12.02更新网盘链接]基于EasySysprep4.1的 Windows 7 x86/x64 『视频』封装 joinlidong 发表于 2014-11-29 14:25:50 ...
『TensorFlow』专题汇总
TensorFlow:官方文档 TensorFlow:项目地址本篇列出文章对于全零新手不太合适,可以尝试TensorFlow入门系列博客,搭配其他资料进行学习. Keras使用tf.Session训 ...
『TensorFlow』批处理类
『教程』Batch Normalization 层介绍基础知识下面有莫凡的对于批处理的解释: fc_mean,fc_var = tf.nn.moments( Wx_plus_b, axes=[0] ...
『TensorFlow』梯度优化相关
tf.trainable_variables可以得到整个模型中所有trainable=True的Variable,也是自由处理梯度的基础基础梯度操作方法: tf.gradients 用来计算导数.该 ...
『TensorFlow』模型保存和载入方法汇总
『TensorFlow』第七弹_保存&载入会话_霸王回马一.TensorFlow常规模型加载方法保存模型 tf.train.Saver()类,.save(sess, ckpt文件目录)方法 ...

随机推荐

再谈http请求调用(Post与Get)，项目研发的核心一环
支持.Net Core(2.0及以上)与.Net Framework(4.0及以上) [目录] 前言 Post请求 Get请求与其它工具的比较 1[前言] http请求调用是开发中经常会用到的功能. ...
hadoop集群搭建及编程实践
Hadoop集群搭建前期准备及JDK,hadoop安装设置主机名和添加主机映射验证连通性 SSH无密码登录配置集群/分布式环境修改workers 修改文件core-site.xml 修改hd ...
linux日常维护(二)
linux启动流程 BIOS自检启动GRUB 2 加载内核执行systemd进程初始化系统环境执行/bin/login程序 (一)BIOS自检加电POST自检(对硬件进行检测) 进行本地设备 ...
PPT图片处理教程5大抠图方法：堪比PS！
PPT图片处理教程5大抠图方法:堪比PS! .如何在制作PPT的过程中提取图片.比如,当你准备给妹子做一份PPT的时候,妹子想要把N多图片放在里面,但又不想做的太LOW,这要怎么解(gai)咯?如果你 ...
chatgpt 非常不稳定
写一个飞机大战游戏很抱歉,作为一名语言模型,我没有具体的编程功能,无法直接为您编写一个飞机大战游戏.不过,我可以为您提供一些创建飞机大战游戏的一般步骤和建议. 设计游戏元素首先,您 ...
《最新出炉》系列初窥篇-Python+Playwright自动化测试-19-处理鼠标拖拽-中篇
1.简介上一篇中,主要是介绍了拖拽的各种方法的理论知识以及实践,今天宏哥讲解和分享一下划取字段操作.例如:需要在一堆log字符中随机划取一段文字,然后右键选择摘取功能. 2.划取字段操作划取字段操 ...
每天5分钟复习OpenStack（四） virsh 常用命令
在上一章节中,我们拉起了第一台虚拟机,但是执行virsh shutdown 关机是无法关机的,需要使用virsh destroy 强制断电的命令来关机.为什么会这样了? 这里我们介绍下 QGA的概念 ...
Noi-Linux 2.0 装机+使用整合
写在前面网上的东西比较多,也比较杂乱,不是很方便,所以我整合了一些关于 Noi-Linux2.0 虚拟机装机方法+代码编辑环境+实地编程的介绍,看完至少能用起来打代码了. NOI 官网公告(JS 开 ...
webwork学习
学习了H5中的webworker 主机 > 程序 > 进程 > 线程 > 纤程多进程(重) 多线程(轻) 开销创建.销毁开销大创建.销毁开销小安全性进程之间是隔离线 ...
2023平台工程崭露头角，AI 带来新机遇与挑战
在今年,平台工程正在迅速在 IT 企业中崭露头角,成为软件开发团队的必要实践.根据 CloudBees 发布的最新报告<2023年平台工程:快速采纳和影响>,83%的受访者已经完全实施了平 ...

【scikit-learn基础】--『监督学习』之 支持向量机分类

1. 算法概述

2. 创建样本数据

3. 模型训练

4. 总结

【scikit-learn基础】--『监督学习』之 支持向量机分类的更多相关文章

随机推荐

热门专题

【scikit-learn基础】--『监督学习』之支持向量机分类

【scikit-learn基础】--『监督学习』之支持向量机分类的更多相关文章