1. 前言

我们之前介绍了很多的机器学习的算法，大家有没想过一个问题用所有的方法都试一遍，然后拿结果一起再来判断。其实这种思路在机器学习中完全是可以的，并且有了自己的一个阵营，就是集成学习。集成学习顾名思义是结合了好多的算法一起来进行预测。就像我们想看一部电影前，问问身边看过的几个朋友对这部电影的评价，然后作出一个综合的判断，要不要看这部电影。

2. 集成学习原理

我们之所以要把多个学习器组合在一起，是因为单个学习器往往可能效果不那么好，而多个学习器可以互相帮助，各取所长，就有可能一起决策，把一个学习任务完成得比较漂亮。单个学习器我们称为弱学习器，相对的集成学习则是强学习器。

弱学习器：常指泛化性能略优于随机猜测的学习器：例如在二分类问题桑精度略高于50%的分类器。
强学习器：通过一定的方式集成一些弱学习器，达到了超过所有弱学习器的准确度的分类器。

根据个体学习器的种类的个数，我们可以分为两种集成学习。

所有的个体学习器都是一个种类的，或者说是同质的。比如都是决策树个体学习器，或者都是神经网络个体学习器。
所有的个体学习器不全是一个种类的，或者说是异质的。比如我们有一个分类问题，对训练集采用支持向量机个体学习器，逻辑回归个体学习器和朴素贝叶斯个体学习器来学习，再通过某种结合策略来确定最终的分类强学习器，这种集成学习成为Stacking。

同质个体学习器按照个体学习器之间是否存在依赖关系可以分为两类：

个体学习器之间存在强依赖关系，一系列个体学习器基本都需要串行生成，代表算法是Boosting系列算法。
个体学习器之间不存在强依赖关系，一系列个体学习器可以并行生成，代表算法是Bagging和随机森林（Random Forest）系列算法。下面就分别对这两类算法做一个概括总结。

3. Bagging介绍

Bagging的个体弱学习器的训练集是通过随机采样得到的。通过\(T\)次的随机采样，我们就可以得到\(T\)个采样集，对于这\(T\)个采样集，我们可以分别独立的训练出\(T\)个弱学习器，再对这\(T\)个弱学习器通过集合策略来得到最终的强学习器。

下图是决策树的Bagging和KNN的Bagging决策边界：

4. Boosting介绍

Boosting的主要的过程如下图：

Boosting算法的工作机制:

首先从训练集用初始权重训练出一个弱学习器1.
根据学习器1的学习误差率来更新训练样本的权重，使得之前弱学习器1学习误差率高的训练样本点的权重变高，使得这些误差率高的点在后面的弱学习器2中得到更多的重视。
然后基于调整权重后的训练集来训练弱学习器2。
如此重复进行，直到弱学习器数达到事先指定的数目\(T\)。
最终将这\(T\)个弱学习器通过集合策略进行整合，得到最终的强学习器。

Boosting系列算法里最著名算法主要有AdaBoost算法和提升树（GBDT）系列算法。

下图是AdaBoost不同弱学习器个数的决策边界：

5. Stacking介绍

当使用Stacking的结合策略时，我们不是对弱学习器的结果做简单的逻辑处理，而是再加上一层学习器，也就是说，我们将训练集弱学习器的学习结果作为输入，将训练集的输出作为输出，重新训练一个学习器来得到最终结果。

6. 结合策略

6.1 平均法

简单平均法
加权平均法

6.2 投票法

绝对多数投票法：得票过半数的标记，否则拒绝预测（可靠性要求较高的学习任务）
相对多数投票法：得票最多的标记（学习任务要求必须提供预测结果）
加权投票法

1. 集成学习（Ensemble Learning）原理的更多相关文章

【Supervised Learning】集成学习Ensemble Learning & Boosting 算法（python实现）
零. Introduction 1.learn over a subset of data choose the subset uniformally randomly (均匀随机地选择子集) app ...
笔记︱集成学习Ensemble Learning与树模型、Bagging 和 Boosting
本杂记摘录自文章<开发 | 为什么说集成学习模型是金融风控新的杀手锏?> 基本内容与分类见上述思维导图. . . 一.机器学习元算法随机森林:决策树+bagging=随机森林梯度提升树 ...
集成学习(Ensembling Learning)
集成学习(Ensembling Learning) 标签(空格分隔): 机器学习 Adabost 对于一些弱分类器来说,如何通过组合方法构成一个强分类器.一般的思路是:改变训练数据的概率分布(权值分布 ...
集成学习ensemble
集成学习里面在不知道g的情况下边学习边融合有两大派:Bagging和Boosting,每一派都有其代表性算法,这里给出一个大纲. 先来说下Bagging和Boosting之间的相同点:都是不知道g,和 ...
集成学习(ensemble method)--基于树模型
bagging方法(自举汇聚法 bootstrap aggregating) boosting分类:最流行的是AdaBoost(adaptive boosting) 随机森林(random fores ...
集成算法——Ensemble learning
目的:让机器学习效果更好,单个不行,群殴啊! Bagging:训练多个分类器取平均 Boosting:从弱学习器开始加强,通过加权来进行训练 (加入一棵树,比原来要强) Stacking:聚合多个分类 ...
【集成学习】 lightgbm原理
# lightgbm和xgboost对比: 模型精度:lightgbm≈xgboost 收敛速度:lightgbm>xgboost #
集成学习的不二法门bagging、boosting和三大法宝<结合策略>平均法，投票法和学习法（stacking）
单个学习器要么容易欠拟合要么容易过拟合,为了获得泛化性能优良的学习器,可以训练多个个体学习器,通过一定的结合策略,最终形成一个强学习器.这种集成多个个体学习器的方法称为集成学习(ensemble le ...
[白话解析] 通俗解析集成学习之bagging，boosting & 随机森林
[白话解析] 通俗解析集成学习之bagging,boosting & 随机森林 0x00 摘要本文将尽量使用通俗易懂的方式,尽可能不涉及数学公式,而是从整体的思路上来看,运用感性直觉的思考来 ...
机器学习:集成学习:随机森林.GBDT
集成学习(Ensemble Learning) 集成学习的思想是将若干个学习器(分类器&回归器)组合之后产生一个新学习器.弱分类器(weak learner)指那些分类准确率只稍微好于随机猜测 ...

随机推荐

如何打开Intellij IDEA的代码提示功能/联想/自动联想
1.默认情况下,我们输入代码时IDEA会自动弹出代码提示框,这时候是不用按快捷键的,直接使用方向键选择我们需要的条目就可以了. 2:如果我们想主动使用代码提示时,默认的快捷键是CTRL+空格,但是中 ...
【Struts2】剖析Struts2中的反射技术 ValueStack（值栈）
1,Struts2框架主要组件的处理流程在说ValueStack之前,笔者先说一说Struts2中常用的组件,struts2中常用组件有strutsPrepareAndExecuteExceptio ...
【HTML】前端性能优化之CDN和WPO的比较
CDN通过将资源存储在更接近用户的位置,缩短到服务器的往返行程,加快页面加载时间来解决性能问题.WPO解决方案,如Radware的FastView,则在前端进行性能提升处理,使页面更有效地呈现在浏览器 ...
Swift 基本运算符
前言 Swift 语言支持大部分标准 C 语言的运算符,并且改进了许多特性来使我们的代码更加规范,其中主要包含算数运算符.区间运算符.逻辑运算符.关系运算符.赋值运算符.自增自减运算符.溢出运算符等. ...
【struts2】名为chain的ResultType
1)基本使用名称为“chain”的ResultType,在struts-default.xml里的配置如下: <result-type name="chain" class ...
FCEUX金手指加强版 - 使用Lua脚本语言编写FC/NES金手指脚本
一直觉得大部分的FC/NES模拟器的作弊码金手指不是那么方便使用, 比如魂斗罗1代, 玩家的武器可以通过修改0xAA的值来改变: 0x11为M弹(重机枪),0x12为F弹(圈圈),0x13为S弹(散弹 ...
手把手带你画一个时尚仪表盘 Android 自己定义View
拿到美工效果图.咱们程序猿就得画得一模一样. 为了不被老板喷,仅仅能多练啊. 听说你认为前面几篇都so easy,那今天就带你做个相对照较复杂的. 转载请注明出处:http://blog.csdn.n ...
近期对招聘Android开发者的一些思考
公司要招聘Android开发者,故面试了大概十来个人.由于是小公司,所以来的人大多是90后,比較年轻.90后大概二十三四岁吧,从简历上看都写了一到两年的工作经验. 也由于是小公司,所以对工作经验这些没 ...
JVM 入门三板斧
一个JVM实例只存在一个堆内存,堆内存的大小是可以调节的.类加载器读取了类文件后,需要把类.方法.常变量放到堆内存中,保存所有引用类型的真实信息,以方便执行器执行,堆内存分为三部分: Young Ge ...
golang包time用法详解
在我们编程过程中,经常会用到与时间相关的各种务需求,下面来介绍 golang 中有关时间的一些基本用法,我们从 time 的几种 type 来开始介绍. 时间可分为时间点与时间段,golang 也不例 ...

1. 集成学习（Ensemble Learning）原理

1. 集成学习（Ensemble Learning）原理

2. 集成学习（Ensemble Learning）Bagging

3. 集成学习（Ensemble Learning）随机森林（Random Forest）

4. 集成学习（Ensemble Learning）Adaboost

5. 集成学习（Ensemble Learning）GBDT

6. 集成学习（Ensemble Learning）算法比较

7. 集成学习（Ensemble Learning）Stacking