1. 集成学习(Ensemble Learning)原理

2. 集成学习(Ensemble Learning)Bagging

3. 集成学习(Ensemble Learning)随机森林(Random Forest)

4. 集成学习(Ensemble Learning)Adaboost

5. 集成学习(Ensemble Learning)GBDT

6. 集成学习(Ensemble Learning)算法比较

7. 集成学习(Ensemble Learning)Stacking

1. 前言

前面从整体的角度介绍了集成学习算法,集成学习算法分为Bagging、Boosting、Stacking。Bagging的特点是各个弱学习器之间没有依赖关系,Boosting的特点是各个弱学习器之间有依赖关系,Stacking的特点是在多个学习器的基础上再加一个机器学习算法进行预测。

2. Bagging原理

Bagging的原理可以通过下图清楚的看到。

Bagging的原理是随机采样,就是在我们的训练集里面采集固定个数的样本,但是每采集一个样本后,都将样本放回。所以之前采集到的样本在放回后有可能继续被采集到。对于我们的Bagging算法,得到的采样集和训练集样本的个数相同,但是样本内容不同。如果我们对有\(m\)个样本训练集做\(T\)次的随机采样,,则由于随机性,\(T\)个采样集各不相同。

这里还有一个有意思的地方,由于是随机采样,我们的所有样本中,有一些样本会一直没有采样到,这个样本的数量大约是所有样本的36.8%。我们称这部分数据为袋外数据(Out Of Bag,简称OOB)。这些数据没有参与训练集模型的拟合,因此可以用来检测模型的泛化能力。有了OOB我们就不需要重新分离test集合,后面用OOB代替test集合进行验证。这样训练集的采样空间就是整个数据集,这样训练集的数据分布就更加接近真实的数据分布

Bagging的集合策略也比较简单,对于分类问题,使用简单投票法,得到最多票数的类别或者类别之一为最终的模型输出。对于回归问题,使用简单平均法,对T个弱学习器得到的回归结果进行算术平均得到最终的模型输出。

由于Bagging算法每次都进行采样来训练模型,因此泛化能力很强,对于降低模型的方差很有作用,即降低过拟合程度。当然对于训练集的拟合程度就会差一些,也就是模型的偏倚会大一些

3. Bagging算法流程

本节就对Bagging算法的流程做一个总结。相对于Boosting系列的Adaboost和GBDT,Bagging算法要简单的多。

输入为样本集\(D={(x_1,y_1),(x_2,y_2),...(x_m,y_m)}\),弱学习器算法, 弱分类器迭代次数T。

输出为最终的强分类器f(x)

  1. 对于\(t=1,2...,T\):

    1. 对训练集进行第t次随机采样,共采集\(m\)次,得到包含\(m\)个样本的采样集\(D_t\)
    2. 用采样集\(D_t\)训练第\(t\)个弱学习器\(G_t(x)\)
  2. 如果是分类算法预测,则\(T\)个弱学习器投出最多票数的类别或者类别之一为最终类别。如果是回归算法,\(T\)个弱学习器得到的回归结果进行算术平均得到的值为最终的模型输出。

4. 总结

本文详细的介绍了下Bagging的一些细节,Bagging的思想是比较简单的,但是里面蕴含这巨大的力量,用了Bagging的算法能够有效的减少过拟合的程度,因为弱学习器之间没有依赖关系,所以可以并行训练,大幅度提升训练速度。下文介绍Bagging的优秀算法随机森林(Random Forest)。

2. 集成学习(Ensemble Learning)Bagging的更多相关文章

  1. 笔记︱集成学习Ensemble Learning与树模型、Bagging 和 Boosting

    本杂记摘录自文章<开发 | 为什么说集成学习模型是金融风控新的杀手锏?> 基本内容与分类见上述思维导图. . . 一.机器学习元算法 随机森林:决策树+bagging=随机森林 梯度提升树 ...

  2. 【Supervised Learning】 集成学习Ensemble Learning & Boosting 算法(python实现)

    零. Introduction 1.learn over a subset of data choose the subset uniformally randomly (均匀随机地选择子集) app ...

  3. 集成学习的不二法门bagging、boosting和三大法宝<结合策略>平均法,投票法和学习法(stacking)

    单个学习器要么容易欠拟合要么容易过拟合,为了获得泛化性能优良的学习器,可以训练多个个体学习器,通过一定的结合策略,最终形成一个强学习器.这种集成多个个体学习器的方法称为集成学习(ensemble le ...

  4. 集成学习(Ensembling Learning)

    集成学习(Ensembling Learning) 标签(空格分隔): 机器学习 Adabost 对于一些弱分类器来说,如何通过组合方法构成一个强分类器.一般的思路是:改变训练数据的概率分布(权值分布 ...

  5. 集成学习—boosting和bagging

    集成~bagging~权值~组合~抽样~样例~基本~并行 一.简介 集成学习通过构建并结合多个学习器来完成学习任务,常可获得比单一学习器显著优越的泛化性能 根据个体学习器的生成方式,目前的集成学习方法 ...

  6. 集成学习:以Bagging、Adaboosting为例

    集成学习是一大类模型融合策略和方法的统称,以下以bagging和boosting为例进行说明: 1.boosting boosting方法训练分类器采用串行的方式,每个弱分类器之间是相互依赖的,尤其后 ...

  7. 集成学习ensemble

    集成学习里面在不知道g的情况下边学习边融合有两大派:Bagging和Boosting,每一派都有其代表性算法,这里给出一个大纲. 先来说下Bagging和Boosting之间的相同点:都是不知道g,和 ...

  8. 集成学习—boosting和bagging异同

    集成学习 集成学习通过构建并结合多个学习器来完成学习任务.只包含同种类型的个体学习器,这样的集成是“同质”的:包含不同类型的个体学习器,这样的集成是“异质”的.集成学习通过将多个学习器进行结合,常可获 ...

  9. 集成学习(ensemble method)--基于树模型

    bagging方法(自举汇聚法 bootstrap aggregating) boosting分类:最流行的是AdaBoost(adaptive boosting) 随机森林(random fores ...

  10. 集成算法——Ensemble learning

    目的:让机器学习效果更好,单个不行,群殴啊! Bagging:训练多个分类器取平均 Boosting:从弱学习器开始加强,通过加权来进行训练 (加入一棵树,比原来要强) Stacking:聚合多个分类 ...

随机推荐

  1. kubernetes架构之二

    一.概述 IaaS:即基础设施即服务,通过虚拟化和分布式存储等技术,实现对包括服务器.存储设备.网络设备等各种物理资源的抽象:从而形成了一个可扩展.可按需分配的虚拟资源池.最具代表性的IaaS产品有A ...

  2. iOS 图标

    iOS icon是一件很头疼的事情 大致多少张呢,忘记了,下面开发者中心给的一个文档,自己捋捋有多少张 180934.jpg 幸亏不是自己画的,不然要骂姥姥,但是多数的UI是妹子啊,让人家做人家会说: ...

  3. 如何取消或定制当点击GridView 的时候出现的那个黄色背景

    初始化的时候在代码里面设置setSelector颜色为透明色 gridView.setSelector(new ColorDrawable(Color.TRANSPARENT));

  4. Javscript调用iframe框架页面中函数的方法

    Javscript调用iframe框架页面中函数的方法,可以实现iframe之间传值或修改值了, 访问iframe里面的函数: window.frames['CallCenter_iframe'].h ...

  5. Oracle 12C -- truncate的级联操作

    在之前的版本中,存在外键约束时,无法直接truncate父表.在12C中,对truncate操作添加了级联操作特性. 前提是创建外键约束时,使用了"on delete casacde&quo ...

  6. (LeetCode)用两个栈实现一个队列

    LeetCode上面的一道题目.原文例如以下: Implement the following operations of a queue using stacks. push(x) -- Push ...

  7. URL中#号的含义

    一.#的涵义 #代表网页中的一个位置.其右面的字符,就是该位置的标识符.比如, http://www.example.com/index.html#print 就代表网页index.html的prin ...

  8. Knockout: 实践CSS绑定和jQuery的blur失去焦点事件, 给未通过校验的输入框添加红色边框突出显示.

    目的: 实践一下Knockout提供的CSS绑定功能和JQuery的blur失去焦点事件, 这次不使用Knockout的afterkeydown事件了. 步骤: 先在htm中添加.error的css样 ...

  9. ThinkPHP在Apache和Nginx下去除index.php方法

    由于项目需要,用ThinkPHP开发的程序链接要去除index.php下面说下如何解决.一.Nginx方法 由于nginx不支持PATH_INFO,所以需要进入linux终端找到nginx 的配置文件 ...

  10. 如何在PHP项目中使用phinx进行数据迁移和建表

    建表 phinx\bin\phinx.bat migrate -e production 建设 phinx.yml文件 paths: migrations: %%PHINX_CONFIG_DIR%%\ ...