【scikit-learn基础】--『监督学习』之 贝叶斯分类
贝叶斯分类是一种统计学分类方法,基于贝叶斯定理,对给定的数据集进行分类。
它的历史可以追溯到18世纪,当时英国统计学家托马斯·贝叶斯发展了贝叶斯定理,这个定理为统计决策提供了理论基础。
不过,贝叶斯分类在实际应用中的广泛使用是在20世纪80年代,当时计算机技术的进步使得大规模数据处理成为可能。
1. 算法概述
贝叶斯分类基于贝叶斯公式,通过已知样本信息来计算未知样本属于各个类别的概率,然后选择概率最大的类别作为未知样本的分类结果。
贝叶斯公式的简化公式:\(P(A|B) = \frac{P(B|A)P(A)}{P(B)}\)
其中:
- \(P(A)\):事件A发生的概率
- \(P(B)\):事件A发生的概率
- \(P(A|B)\):在事件B出现的前提下,A发生的概率
- \(P(B|A)\):在事件A出现的前提下,B发生的概率
贝叶斯分类就是基于这个公式扩展而来。
比如,一个具有\(n\)个特征的样本\(x = (x_1, x_2, ..., x_n)\),该样本属于K个可能的类别\(y_1,y_2,...,y_k\)。
那么,任一个样本\(x\)属于某个类别\(y_k\)的概率为:\(P(y_k|x) = \frac{P(X|y_k)P(y_k)}{P(x)}\)
根据这个模型,训练样本之后,就可以根据模型来预测某个样本属于哪个类别的概率最大。
这里讨论的贝叶斯分类算法,并没有考虑特征之间的关联关系,我们假设每个特征之间是相互独立的。
所以,这个算法也叫做朴素贝叶斯分类。
2. 创建样本数据
贝叶斯分类可以
这次用scikit-learn中的样本生成器make_classification来生成分类用的样本数据。
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
# 分类数据的样本生成器
X, y= make_classification(n_samples=1000, n_classes=4, n_informative=3)
plt.scatter(X[:, 0], X[:, 1], marker="o", c=y, s=25)
plt.show()

关于样本生成器的详细内容,请参考:TODO
3. 模型训练
训练之前,为了减少算法误差,先对数据进行标准化处理(将数据缩放到0~100之间)。
from sklearn import preprocessing as pp
# 数据标准化
X = pp.minmax_scale(X, feature_range=(1, 100))
y = pp.minmax_scale(y, feature_range=(1, 100))
然后,分割训练集和测试集。
from sklearn.model_selection import train_test_split
# 分割训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
按照8:2的比例来划分训练集和测试集。
scikit-learn中的朴素贝叶斯算法支持多种不同的分类器,
这些分类器基于不同的先验概率分布,适用于不同的数据类型和问题场景。
我们训练模型的时候要根据数据情况选择合适的分类器。
from sklearn.naive_bayes import (
GaussianNB,
MultinomialNB,
ComplementNB,
BernoulliNB,
CategoricalNB,
)
reg_names = [
"高斯朴素贝叶斯",
"多项式朴素贝叶斯",
"补码朴素贝叶斯",
"伯努利朴素贝叶斯",
"分类朴素贝叶斯",
]
# 定义
regs = [
GaussianNB(),
MultinomialNB(),
ComplementNB(),
BernoulliNB(),
CategoricalNB(min_categories=101),
]
# 训练模型
for reg in regs:
reg.fit(X_train, y_train)
各个分类器的简要说明:
- GaussianNB:基于高斯分布的朴素贝叶斯分类器。它假设每个特征服从高斯分布,即正态分布。这种分类器适用于连续型数据,特别是对于数值型特征。
- MultinomialNB:基于多项式分布的朴素贝叶斯分类器。它假设每个特征服从多项式分布,适用于离散型数据,特别是对于类别型特征。
- ComplementNB:基于互补分布的朴素贝叶斯分类器。它适用于离散型数据,特别是对于二元分类问题。
- BernoulliNB:基于伯努利分布的朴素贝叶斯分类器。它适用于二元分类问题,特别是对于二元特征或者二元输出。
- CategoricalNB:基于分类分布的朴素贝叶斯分类器。它适用于离散型数据,特别是对于类别型特征。
最后验证各个分类器的模型的训练效果:
# 在测试集上进行预测
y_preds = []
for reg in regs:
y_pred = reg.predict(X_test)
y_preds.append(y_pred)
for i in range(len(y_preds)):
correct_pred = np.sum(y_preds[i] == y_test)
print("【{}】 预测正确率:{:.2f}%".format(reg_names[i],
correct_pred / len(y_pred) * 100))
# 运行结果
【高斯朴素贝叶斯】 预测正确率:82.50%
【多项式朴素贝叶斯】 预测正确率:75.00%
【补码朴素贝叶斯】 预测正确率:72.50%
【伯努利朴素贝叶斯】 预测正确率:22.00%
【分类朴素贝叶斯】 预测正确率:50.50%
这里虽然高斯朴素贝叶斯分类器的正确率最高,但不能就认为这种分类器是最好的。
只能说明高斯朴素贝叶斯分类器最适合分类上面随机生成的样本数据。
换成其他的样本数据,高斯朴素贝叶斯分类器的正确率就不一定是最高的了。
4. 总结
总的来说,贝叶斯分类是一种有效的分类方法,适用于对未知样本进行分类的问题。
它的应用范围广泛,可以处理多分类问题,也可以用于连续变量的分类。
贝叶斯分类算法的主要优势在于:
- 是一种概率模型,可以给出分类结果的概率,因此更加可靠和稳定。
- 可以处理多分类问题,也可以用于连续变量的分类。
- 实现相对简单,可以在较短的时间内训练出模型并进行预测。
贝叶斯分类算法也有其不足之处:
- 假设所有特征之间相互独立,但在实际应用中这个假设往往不成立,因此会影响分类结果的准确性。
- 对于大规模的数据集,训练时间和预测时间可能会较长。
- 对于数据的缺失和异常值处理不够鲁棒,可能会对分类结果产生影响。
【scikit-learn基础】--『监督学习』之 贝叶斯分类的更多相关文章
- Python基础『一』
内置数据类型 数据名称 例子 数字: Bool,Complex,Float,Integer True/False; z=a+bj; 1.23; 123 字符串: String '123456' 元组: ...
- Python基础『二』
目录 语句,表达式 赋值语句 打印语句 分支语句 循环语句 函数 函数的作用 函数的三要素 函数定义 DEF语句 RETURN语句 函数调用 作用域 闭包 递归函数 匿名函数 迭代 语句,表达式 赋值 ...
- 『cs231n』计算机视觉基础
线性分类器损失函数明细: 『cs231n』线性分类器损失函数 最优化Optimiz部分代码: 1.随机搜索 bestloss = float('inf') # 无穷大 for num in range ...
- Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
- [原创] 【2014.12.02更新网盘链接】基于EasySysprep4.1的 Windows 7 x86/x64 『视频』封装
[原创] [2014.12.02更新网盘链接]基于EasySysprep4.1的 Windows 7 x86/x64 『视频』封装 joinlidong 发表于 2014-11-29 14:25:50 ...
- 『TensorFlow』专题汇总
TensorFlow:官方文档 TensorFlow:项目地址 本篇列出文章对于全零新手不太合适,可以尝试TensorFlow入门系列博客,搭配其他资料进行学习. Keras使用tf.Session训 ...
- 『TensorFlow』批处理类
『教程』Batch Normalization 层介绍 基础知识 下面有莫凡的对于批处理的解释: fc_mean,fc_var = tf.nn.moments( Wx_plus_b, axes=[0] ...
- 『TensorFlow』梯度优化相关
tf.trainable_variables可以得到整个模型中所有trainable=True的Variable,也是自由处理梯度的基础 基础梯度操作方法: tf.gradients 用来计算导数.该 ...
- 『TensorFlow』模型保存和载入方法汇总
『TensorFlow』第七弹_保存&载入会话_霸王回马 一.TensorFlow常规模型加载方法 保存模型 tf.train.Saver()类,.save(sess, ckpt文件目录)方法 ...
- 『计算机视觉』Mask-RCNN_从服装关键点检测看KeyPoints分支
下图Github地址:Mask_RCNN Mask_RCNN_KeyPoints『计算机视觉』Mask-RCNN_论文学习『计算机视觉』Mask-RCNN_项目文档翻译『计算机视觉』Mas ...
随机推荐
- RK3568开发笔记(十一):开发版buildroot固件移植一个ffmpeg播放rtsp的播放器Demo
前言 目标开发任务还有个功能,就是播放rtsp摄像头,当然为了更好的坐这个个,我们必须支持rtsp播放失败之后重新尝试,比如5s重新尝试打开一次,从而保障联网后重新打开,然后达成这个功能. D ...
- mpi转以太网连接300PLC在气动系统中的应用
mpi转以太网连接300PLC在气动系统中的应用 某企业装备有限公司 摘要 工业通讯迅速发展的今天,MPI转以太网通讯已经发展为成熟,稳定,高效通讯 方式,兴达易控自主研发的MPI转以太网模块MPI- ...
- 简化 Go 开发:使用强大的工具提高生产力
作为 Go 开发人员,应该都知道维持简洁高效开发工作流程的重要性.为了提高工作效率和代码质量,简化开发流程并自动执行重复性任务至关重要.在本文中,我们将探讨一些强大的工具和技术,它们将简化 Go 开发 ...
- .NET应用如何防止被反编译
前言 前段时间分享了两篇关于.NET反编译相关的文章,然后文章留言区就有小伙伴提问:如何防止被反编译?因此本篇文章我们就来讲讲.NET应用如何防止被反编译..NET反编译相关的文章可以看如下文章: 4 ...
- 洛谷题解 | P1051 谁拿了最多奖学金
目录 题目描述 输入格式 输出格式 输入输出样例 提示 题目思路 AC代码 题目描述 某校的惯例是在每学期的期末考试之后发放奖学金.发放的奖学金共有五种,获取的条件各自不同: 1. 院士奖学金,每人 ...
- 【算法】国庆加班,火锅与Linq.AddRange的奇妙螺旋
在国庆假期的一个傍晚,小悦正在家中享受火锅美食.她嘴里咀嚼着鲜嫩的牛肉,脸上洋溢着满足的微笑.突然,手机铃声响起,打破了这温馨的氛围.她拿起手机一看,是公司打来的电话. "小悦,有个紧急的项 ...
- 2006年piner的面试题
数据库切换日志的时候,为什么一定要发生检查点?这个检查点有什么意义?表空间管理方式有哪几种,各有什么优劣.本地索引与全局索引的差别与适用情况.一个表a varchar2(1),b number(1), ...
- 14.11 Socket 基于时间加密通信
在之前的代码中我们并没有对套接字进行加密,在未加密状态下我们所有的通信内容都是明文传输的,这种方式在学习时可以使用但在真正的开发环境中必须要对数据包进行加密,此处笔者将演示一种基于时间的加密方法,该加 ...
- 【虹科干货】谈谈Redis Enterprise实时搜索的过人之处
我们都知道,用户在使用应用程序时候,对于速度有着越来越高的要求,真可谓是"一秒也等不及".而开发团队又该怎样来满足这种对于实时性的期望呢? 文章速览: Redis Enterpri ...
- .NET6发布项目到腾讯云Windows2012R全网最详细教程
注意:本次使用腾讯云作为本次的演示 1.创建服务器及连接 1.1 请先在腾讯云.阿里云等创建实例 1.2 打开远程连接工具输入在腾讯云获取的公网iP输入计算机 1.3 根据图片点击连接 1.4 输入服 ...