随机森林分类算法是一种基于集成学习(ensemble learning)的机器学习算法,
它的基本原理是通过对多个决策树的预测结果进行平均或投票,以产生最终的分类结果。

随机森林算法可用于回归分类问题。
关于随机森林算法在回归问题上的应用可参考:TODO

随机森林分类算法可以应用于各种需要进行分类或预测的问题,如垃圾邮件识别信用卡欺诈检测疾病预测等,
它也可以与其他机器学习算法进行结合,以进一步提高预测准确率。

1. 算法概述

随机森林的基本原理是构建多棵决策树,每棵树都是基于原始训练数据的一个随机子集进行训练。在构建每棵树时,算法会随机选择一部分特征进行考虑,而不是考虑所有的特征。

然后,对于一个新的输入样本,每棵树都会进行分类预测,并将预测结果提交给“森林”进行最终的分类决策。
一般来说,森林会选择出现次数最多的类别作为最终的分类结果。

理论上来看,随机森林分类应该比决策树分类有更加好的准确度,特别是在高维度的数据情况下。

2. 创建样本数据

为了后面比较随机森林分类算法和决策树算法的准确性,创建分类多一些(8个分类标签)的样本数据。

import matplotlib.pyplot as plt
from sklearn.datasets import make_classification # 分类数据的样本生成器
X, y = make_classification(
n_samples=1000, n_classes=8, n_clusters_per_class=2, n_informative=6
)
plt.scatter(X[:, 0], X[:, 1], marker="o", c=y, s=25) plt.show()

3. 模型训练

首先,分割训练集测试集

from sklearn.model_selection import train_test_split

# 分割训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1)

这次按照9:1的比例来划分训练集和测试集。

决策树分类模型来训练数据:

from sklearn.tree import DecisionTreeClassifier

reg_names = [
"ID3算法",
"C4.5算法",
"CART算法",
] # 定义
regs = [
DecisionTreeClassifier(criterion="entropy"),
DecisionTreeClassifier(criterion="log_loss"),
DecisionTreeClassifier(criterion="gini"),
] # 训练模型
for reg in regs:
reg.fit(X_train, y_train) # 在测试集上进行预测
y_preds = []
for reg in regs:
y_pred = reg.predict(X_test)
y_preds.append(y_pred) for i in range(len(y_preds)):
correct_pred = np.sum(y_preds[i] == y_test)
print("决策树【{}】 预测正确率:{:.2f}%".format(reg_names[i], correct_pred / len(y_pred) * 100)) # 运行结果
决策树【ID3算法】 预测正确率:43.00%
决策树【C4.5算法】 预测正确率:42.00%
决策树【CART算法】 预测正确率:42.00%

随机森林分类模型来训练数据:

from sklearn.ensemble import RandomForestClassifier

reg_names = [
"ID3算法",
"C4.5算法",
"CART算法",
] # 定义
regs = [
RandomForestClassifier(criterion="entropy"),
RandomForestClassifier(criterion="log_loss"),
RandomForestClassifier(criterion="gini"),
] # 训练模型
for reg in regs:
reg.fit(X_train, y_train) # 在测试集上进行预测
y_preds = []
for reg in regs:
y_pred = reg.predict(X_test)
y_preds.append(y_pred) for i in range(len(y_preds)):
correct_pred = np.sum(y_preds[i] == y_test)
print("随机森林【{}】 预测正确率:{:.2f}%".format(reg_names[i], correct_pred / len(y_pred) * 100)) # 运行结果
随机森林【ID3算法】 预测正确率:64.00%
随机森林【C4.5算法】 预测正确率:63.00%
随机森林【CART算法】 预测正确率:69.00%

可以看出,随机森林分类的准确性确实比决策树分类提高了。
不过,运行过程中也可以发现,随机森林的训练时间会比决策树长一些。

4. 总结

随机森林分类算法的优势在于:

  1. 抗过拟合能力强:由于采用随机选择特征的方式,可以有效地避免过拟合问题。
  2. 泛化能力强:通过对多个决策树的结果进行投票或平均,可以获得更好的泛化性能。
  3. 对数据特征的选取具有指导性:在构建决策树时会对特征进行选择,这可以为后续的特征选择提供指导。
  4. 适用于大规模数据集:可以有效地处理大规模数据集,并且训练速度相对较快。

当然,随机森林分类算法也存在一些劣势:

  1. 需要大量的内存和计算资源:由于需要构建多个决策树,因此需要更多的内存和计算资源。
  2. 需要调整参数:性能很大程度上取决于参数的设置,如树的数量、每个节点的最小样本数等,这些参数的设置需要一定的经验和实验。
  3. 对新样本的预测性能不稳定:由于是通过投票或平均多个决策树的结果来进行预测,因此对新样本的预测性能可能会受到影响。

【scikit-learn基础】--『监督学习』之 随机森林分类的更多相关文章

  1. 随机森林分类(Random Forest Classification)

    其实,之前就接触过随机森林,但仅仅是用来做分类和回归.最近,因为要实现一个idea,想到用随机森林做ensemble learning才具体的来看其理论知识.随机森林主要是用到决策树的理论,也就是用决 ...

  2. 机器学习之路:python 集成分类器 随机森林分类RandomForestClassifier 梯度提升决策树分类GradientBoostingClassifier 预测泰坦尼克号幸存者

    python3 学习使用随机森林分类器 梯度提升决策树分类 的api,并将他们和单一决策树预测结果做出对比 附上我的git,欢迎大家来参考我其他分类器的代码: https://github.com/l ...

  3. Python基础『一』

    内置数据类型 数据名称 例子 数字: Bool,Complex,Float,Integer True/False; z=a+bj; 1.23; 123 字符串: String '123456' 元组: ...

  4. Python基础『二』

    目录 语句,表达式 赋值语句 打印语句 分支语句 循环语句 函数 函数的作用 函数的三要素 函数定义 DEF语句 RETURN语句 函数调用 作用域 闭包 递归函数 匿名函数 迭代 语句,表达式 赋值 ...

  5. 机器学习实战基础(三十六):随机森林 (三)之 RandomForestClassifier 之 重要属性和接口

    重要属性和接口 至此,我们已经讲完了所有随机森林中的重要参数,为大家复习了一下决策树的参数,并通过n_estimators,random_state,boostrap和oob_score这四个参数帮助 ...

  6. [Machine Learning & Algorithm] 随机森林(Random Forest)

    1 什么是随机森林? 作为新兴起的.高度灵活的一种机器学习算法,随机森林(Random Forest,简称RF)拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来 ...

  7. Python机器学习笔记——随机森林算法

    随机森林算法的理论知识 随机森林是一种有监督学习算法,是以决策树为基学习器的集成学习算法.随机森林非常简单,易于实现,计算开销也很小,但是它在分类和回归上表现出非常惊人的性能,因此,随机森林被誉为“代 ...

  8. 随机森林(Random Forest)

    阅读目录 1 什么是随机森林? 2 随机森林的特点 3 随机森林的相关基础知识 4 随机森林的生成 5 袋外错误率(oob error) 6 随机森林工作原理解释的一个简单例子 7 随机森林的Pyth ...

  9. 随机森林(Random Forest),决策树,bagging, boosting(Adaptive Boosting,GBDT)

    http://www.cnblogs.com/maybe2030/p/4585705.html 阅读目录 1 什么是随机森林? 2 随机森林的特点 3 随机森林的相关基础知识 4 随机森林的生成 5 ...

  10. [Machine Learning & Algorithm] 随机森林(Random Forest)-转载

    作者:Poll的笔记 博客出处:http://www.cnblogs.com/maybe2030/  阅读目录 1 什么是随机森林? 2 随机森林的特点 3 随机森林的相关基础知识 4 随机森林的生成 ...

随机推荐

  1. 聊聊JDK19特性之虚拟线程

    1.前言 在读<深入理解JVM虚拟机>这本书前两章的时候整理了JDK从1.0到最新版本发展史,其中记录了JDK这么多年来演进过程中的一些趣闻及引人注目的一些特性,在调研JDK19新增特性的 ...

  2. win10系统单独编译和使用WebRTC的回声消除(AEC)、音频增益(AGC)、去噪(NS)模块

    一.简介 本人想单独编译并使用WebRTC的音频回声消除模块,奈何技术有限,于是在百度的海洋里大海捞针,发现了https://www.cnblogs.com/mod109/p/5827918.html ...

  3. 8.13 分治&二分&倍增&快速幂模拟赛总结

    今天太悲惨了qaq 考试概况: 总之疯狂挂分((( 根据题目说的四个算法,猜想每个算法按顺序对应一道题. \(T1\) 看起来不难,数据范围小,感觉应该就是把地图拆成四块来递归计算答案,不过分类讨论属 ...

  4. spring-boot集成hikari多数据源

    maven依赖 <dependency> <groupId>com.zaxxer</groupId> <artifactId>HikariCP</ ...

  5. JUC并发编程学习笔记(九)阻塞队列

    阻塞队列 阻塞 队列 队列的特性:FIFO(fist inpupt fist output)先进先出 不得不阻塞的情况 什么情况下会使用阻塞队列:多线程并发处理.线程池 学会使用队列 添加.移除 四组 ...

  6. 手记系列之七 ----- 分享Linux使用经验

    前言 本篇文章主要介绍的关于本人在使用Linux记录笔记的一些使用方法和经验,温馨提示,本文有点长,约1.7w字,几十张图片,建议收藏查看. 一.Linux基础使用 1,服务器查看及时日志 tail ...

  7. JavaScript 语法:流程控制语句

    作者:WangMin 格言:努力做好自己喜欢的每一件事 JavaScript流程控制语句的三种基本结构:顺序结构,选择结构,循环结构 顺序结构 从上到下执行的代码就是顺序结构,程序默认就是由上到下顺序 ...

  8. "拍牌神器"是怎样炼成的(三)---注册全局热键

    要想在上海拍牌的超低中标率中把握机会.占得先机,您不仅需要事先准备好最优的竞拍策略,还要制定若干套应急预案,应对不时之需.既定策略交给计算机自动执行,没有问题.可是谁来召唤应急预案呢?使用全局热键应该 ...

  9. 实现MyBatisPlus自定义sql注入器

    目标:新增mysql下的 插入更新的语法 INSERT INTO %s %s VALUES %s ON DUPLICATE KEY UPDATE %s 新增方法类,新增的方法名称为insertOrUp ...

  10. [WPF]动手写一个简单的消息对话框

    消息对话框是UI界面中不可或缺的组成部分,用于给用户一些提示,警告或者询问的窗口.在WPF中,消息对话框是系统原生(user32.dll)的MessageBox,无法通过Style或者Template ...