机器学习：集成学习（OOB 和关于 Bagging 的更多讨论）

一、oob（Out - of - Bag）

定义：放回取样导致一部分样本很有可能没有取到，这部分样本平均大约有 37% ，把这部分没有取到的样本称为 oob 数据集；

根据这种情况，不对数据集进行 train_test_split，也就是不适用测试数据集，而使用这部分没有取到的样本做测试 / 验证；

　2）oob_score 参数

Bagging 取样方式的集成学习算法，可以不对数据集进行 train_test_split ，而是使用 oob 数据集作为验证数据集；
oob_score 是 Bagging 取样方式的集成学习算法 BaggingClassifier() 的一个参数：

oob_score = True：表示使用 oob 数据集作为验证数据集；
oob_score 默认为 False，不使用 oob 数据集作为验证数据集；
可以直接使用 oob_score_ 变量，查看模型在 oob 数据集上的准确率；

　3）并行化处理

Bagging 取样方式，使得计算机极易进行并行化处理；
原因：对于每一个子模型都是独立的随机抽取训练数据集，而且每个子模型的训练也都是独立的，所有系统可以对所有的子模型并行处理；

在机器学习中，对于所有可以并行处理的算法，都需要对参数 n_jobs 进行确认：

n_jobs = n：程序就会使用服务器的 n 个核，同时进行处理；
n_jobs = -1：使用电脑所有的核；

二、子模型产生差异化的方式

　1）对样本进行随机取样

　2）对特征进行随机取样（Random Subspaces）

也就是 n 维的数据集，每次只取 k 维作为样本的特征，形成一个新的数据集；新的数据集的特征空间是原始数据集的特征空间的子空间；（k < n）

　3）即针对样本数量，又针对特征进行随机取样（Random Patches）

相当于即随机抽取矩阵每行的数据，又随机抽取矩阵每列的数据，如下图：

一般在图像识别领域，采用特征取样的方式；

三、scikit-learn 中使用特征取样方式

在 scikit-learn 的集成学习算法 BaggingClassifier 中封装了变量，来使用不同的取样方式：

模拟数据集

import numpy as np

import matplotlib.pyplot as plt

from sklearn import datasets

X, y = datasets.make_moons(n_samples=500, noise=0.3, random_state=42)

使用 oob
bootstrap = True：使用 Bagging 取样方式按样本取样；

from sklearn.tree import DecisionTreeClassifier

from sklearn.ensemble import BaggingClassifier

bagging_clf = BaggingClassifier(DecisionTreeClassifier(),

                               n_estimators=500, max_samples=100,

                               bootstrap=True, oob_score=True)

bagging_clf.fit(X, y)

bagging_clf.oob_score_

# 准确率：0.916

设置并行处理：n_jobs

%%time

bagging_clf2 = BaggingClassifier(DecisionTreeClassifier(),

                               n_estimators=500, max_samples=100,

                               bootstrap=True, oob_score=True,

                               n_jobs=-1)

bagging_clf2.fit(X, y)

# Wall time：2.26 s

Random Patches 方式：即针对样本数量，又针对特征进行取样；

BaggingClassifier() 的参数：

bootstrap = True：表示采用放回的方式对样本进行取样；
max_samples=100：表示每次取 100 个样本；
bootstrap_features=True：表示采用放回取样的方式对特征进行取样；

max_features=1：每次给样本取 1 个特征；

random_subspaces_clf = BaggingClassifier(DecisionTreeClassifier(),

                               n_estimators=500, max_samples=100,

                               bootstrap=True, oob_score=True,

                               n_jobs=-1, max_features=1, bootstrap_features=True)

random_subspaces_clf.fit(X, y)

random_subspaces_clf.oob_score_

# 准确率：0.862

这种使用决策树算法集成学习得到的子模型，称为随机森林；

机器学习：集成学习（OOB 和关于 Bagging 的更多讨论）的更多相关文章

[机器学习]集成学习--bagging、boosting、stacking
集成学习简介集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务. 如何产生"好而不同"的个体学习器,是集成学习研究的核心. 集成学习的思路是通过 ...
机器学习——集成学习(Bagging、Boosting、Stacking)
1 前言集成学习的思想是将若干个学习器(分类器&回归器)组合之后产生一个新学习器.弱分类器(weak learner)指那些分类准确率只稍微好于随机猜测的分类器(errorrate < ...
机器学习--集成学习（Ensemble Learning）
一.集成学习法在机器学习的有监督学习算法中,我们的目标是学习出一个稳定的且在各个方面表现都较好的模型,但实际情况往往不这么理想,有时我们只能得到多个有偏好的模型(弱监督模型,在某些方面表现的比较好) ...
机器学习:集成学习:随机森林.GBDT
集成学习(Ensemble Learning) 集成学习的思想是将若干个学习器(分类器&回归器)组合之后产生一个新学习器.弱分类器(weak learner)指那些分类准确率只稍微好于随机猜测 ...
python大战机器学习——集成学习
集成学习是通过构建并结合多个学习器来完成学习任务.其工作流程为: 1)先产生一组“个体学习器”.在分类问题中,个体学习器也称为基类分类器 2)再使用某种策略将它们结合起来. 通常使用一种或者多种已有的 ...
吴裕雄 python 机器学习——集成学习随机森林RandomForestRegressor回归模型
import numpy as np import matplotlib.pyplot as plt from sklearn import datasets,ensemble from sklear ...
吴裕雄 python 机器学习——集成学习随机森林RandomForestClassifier分类模型
import numpy as np import matplotlib.pyplot as plt from sklearn import datasets,ensemble from sklear ...
吴裕雄 python 机器学习——集成学习梯度提升决策树GradientBoostingRegressor回归模型
import numpy as np import matplotlib.pyplot as plt from sklearn import datasets,ensemble from sklear ...
吴裕雄 python 机器学习——集成学习AdaBoost算法回归模型
import numpy as np import matplotlib.pyplot as plt from sklearn import datasets,ensemble from sklear ...

随机推荐

linux crontab使用
1.查看.编辑和删除 cron把命令行保存在crontab(cron table)文件里,这个文件通常在 /etc 目录下. 每个系统用户都可以有自己的crontab(在 /var/spool/cro ...
spring security在spring mvc的action中获取登录人信息
@RequestMapping("/index") public ModelAndView login( @RequestParam(value = "error&quo ...
【转载】IntelliJ IDEA WEB项目的部署配置
最近使用了一下IDEA,确实强大.在部署时出现了些问题.看了这篇文章,对ieda的一些部署配置有了些许了解,在此感谢原博.原文链接:http://blog.csdn.net/z69183787/art ...
Java中finally关键字的使用（转）
与其他语言的模型相比,finally 关键字是对 Java 异常处理模型的最佳补充.finally 结构使代码总会执行,而不管有无异常发生.使用 finally 可以维护对象的内部状态,并可以清理非内 ...
iOS音频掌柜-- AVAudioSession
音频输出作为硬件资源,对于iOS系统来说是唯一的,那么要如何协调和各个App之间对这个稀缺的硬件持有关系呢? iOS给出的解决方案是"AVAudioSession" ,通过它可以实 ...
Spring Boot入门——json数据处理
1.引入fastJson插件  <dependency> <groupId>com.alibaba</groupId ...
addslashes及其反函数 stripslashes
addslashes() 函数返回在预定义字符之前添加反斜杠的字符串. stripslashes() 去掉addslashes 所添加的反斜杠预定义字符是: 单引号(') 双引号(") 反 ...
javascript 跨域问题解决办法总结
跨域的意思就是不同域名之间的页面默认是无法通信的.因为浏览器默认是禁止跨域的: 图所示:chrome浏览器尝试获取mainFrame失败,提示DomException 1).假如你有个网站 a.com ...
hdu 5242 Game（树链剖分，贪心￥）
Game Time Limit: 3000/1500 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Submis ...
插入排序—希尔排序（Shell`s Sort）原理以及Java实现
希尔排序是1959 年由D.L.Shell 提出来的,相对直接排序有较大的改进.希尔排序又叫缩小增量排序基本思想: 先将整个待排序的记录序列分割成为若干子序列分别进行直接插入排序,待整个序列中的记录 ...

机器学习：集成学习（OOB 和 关于 Bagging 的更多讨论）

一、oob（Out - of - Bag）

2）oob_score 参数

3）并行化处理

Bagging 取样方式，使得计算机极易进行并行化处理；

二、子模型产生差异化的方式

1）对样本进行随机取样

2）对特征进行随机取样（Random Subspaces）

3）即针对样本数量，又针对特征进行随机取样（Random Patches）

三、scikit-learn 中使用特征取样方式

模拟数据集

使用 oob

设置并行处理：n_jobs

Random Patches 方式：即针对样本数量，又针对特征进行取样；

机器学习：集成学习（OOB 和 关于 Bagging 的更多讨论）的更多相关文章

随机推荐

热门专题

机器学习：集成学习（OOB 和关于 Bagging 的更多讨论）

　2）oob_score 参数

　3）并行化处理

　1）对样本进行随机取样

　2）对特征进行随机取样（Random Subspaces）

　3）即针对样本数量，又针对特征进行随机取样（Random Patches）

机器学习：集成学习（OOB 和关于 Bagging 的更多讨论）的更多相关文章