Bagging vs Boosting vs Stacking

原文地址：https://www.jianshu.com/p/9dacdc88d3ec

Bagging
用于减小方差。
使用训练数据的不同随机子集（大小常等于训练数据，采用不放回的方式进行抽取）来训练每个base model，最后对每个base model进行权重相同的vote。分类问题取众数，回归问题取均值。
并行。
希望每个base model训练得要足够好，overfit也可以。
Boosting
用于减小偏差。
迭代地训练base model，每一次会根据上一次迭代中预测错误的情况修改训练样本的权重。
串行。
希望每个base model训练得比随机猜好就行。

	bagging	boosting
样本选择	训练集是在原始集中有放回地进行选取的，选出的各个训练集之间被认为是相互独立的（其实不是）。	每一轮的训练集保持不变，只是训练集中的每个样本在分类器中的权重发生了变化。权重是根据上一轮的结果进行调整的。
样例权重	均匀取样，每个样例权重相等。	根据错误率不断地调整样例权重，错误率越大则对应的权重越高。
预测函数	所有预测函数权重相等。	每个弱分类器都有相应的权重，分类误差小的分类器会有更大的权重。
并行计算	各个预测函数可以并行生成。	各个预测函数只能顺序生成。因为后一个模型的参数更新需要前一个模型的预测结果。

Stacking
用于提升预测结果。
输入level-2的是level-1的预测结果。
还有一种是将level-1输出的prob的1~N列与原始数据组成新的特征向量，向量维度变为原始数据特征维度+N，再训练level-2模型。

Bagging vs Boosting vs Stacking的更多相关文章

弱分类器的进化--Bagging、Boosting、Stacking
一般来说集成学习可以分为三大类: 用于减少方差的bagging 用于减少偏差的boosting 用于提升预测结果的stacking 一.Bagging(1996) 1.随机森林(1996) RF = ...
常用的模型集成方法介绍：bagging、boosting 、stacking
本文介绍了集成学习的各种概念,并给出了一些必要的关键信息,以便读者能很好地理解和使用相关方法,并且能够在有需要的时候设计出合适的解决方案. 本文将讨论一些众所周知的概念,如自助法.自助聚合(baggi ...
机器学习——集成学习(Bagging、Boosting、Stacking)
1 前言集成学习的思想是将若干个学习器(分类器&回归器)组合之后产生一个新学习器.弱分类器(weak learner)指那些分类准确率只稍微好于随机猜测的分类器(errorrate < ...
[机器学习]集成学习--bagging、boosting、stacking
集成学习简介集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务. 如何产生"好而不同"的个体学习器,是集成学习研究的核心. 集成学习的思路是通过 ...
[白话解析] 通俗解析集成学习之bagging，boosting & 随机森林
[白话解析] 通俗解析集成学习之bagging,boosting & 随机森林 0x00 摘要本文将尽量使用通俗易懂的方式,尽可能不涉及数学公式,而是从整体的思路上来看,运用感性直觉的思考来 ...
[Mechine Learning & Algorithm] 集成学习方法——Bagging和 Boosting
使用机器学习方法解决问题时,有较多模型可供选择. 一般的思路是先根据数据的特点,快速尝试某种模型,选定某种模型后, 再进行模型参数的选择(当然时间允许的话,可以对模型和参数进行双向选择) 因为不同的模 ...
集成学习---bagging and boosting
作为集成学习的二个方法,其实bagging和boosting的实现比较容易理解,但是理论证明比较费力.下面首先介绍这两种方法. 所谓的集成学习,就是用多重或多个弱分类器结合为一个强分类器,从而达到提升 ...
Bagging和Boosting 概念及区别
Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来,形成一个性能更加强大的分类器,更准确的说这是一种分类算法的组装方法.即将弱分类器组装成强分类器的方法. 首先介绍Boot ...
模式识别与机器学习—bagging与boosting
声明:本文用到的代码均来自于PRTools(http://www.prtools.org)模式识别工具箱,并以matlab软件进行实验. (1)在介绍Bagging和Boosting算法之前,首先要简 ...

随机推荐

Linux命令 touch
1.简介改变文件或者目录的时间,可以更新文件的存取时间(atime,文件内容被读取的时候就会更改的时间)和更改时间(mtime,文件内容被更改是会变更的时间) 2.语法和参数 touch [参数] ...
PHP 代码编写注意事项总结归纳
1- 编写模块化代码良好的PHP代码应该是模块化代码.PHP的面向对象的编程功能是一些特别强大的工具,可以把你的应用程序分解成函数或方法.你应该尽可能多的从你的应用程序的服务器端分开前端的HTML ...
Jmeter beanshell断言 org.json.jar包下载
链接:https://pan.baidu.com/s/1O01ODjlKyqmz2NyDT0MCww 提取码:a5va 欢迎关注微信公众号:软件测试汪,qq技术交流群:809111560
Django框架（十四）—— Django分页组件
目录 Django分页组件一.分页器二.分页器的使用三.案例 1.模板层 2.视图层 Django分页组件一.分页器数据量大的话,可以分页获取,查看例如:图书管理中,如果有成千上万本书,要 ...
Fedora LVM磁盘大小调整
umount /dev/fedora/swap e2fsck -f /dev/fedora/swap
Android组件内核之Service内核原理（三）
阿里P7Android高级架构进阶视频免费学习请点击:https://space.bilibili.com/474380680本篇文章将先从以下三个内容来介绍Service内核原理: [startSe ...
loj6626 幼儿园唱歌题
题目不难想到把\(S\)的反串\(S^R\)接到\(S\)后面,这样就可以把\(S[l_1,r_1]\)的前缀转化为\(S^R[n-r_1+1,n-l_1+1]\)的后缀回文树上两节点的lca就是 ...
一、最新Kafka单节点部署+测试完整
每次学一个东西从基础的开始,循序渐进. 不急不躁,路还很长. 所有教程都是学习汪文君大神的kafka教程的. 一.部署这里选的kafka版本是 0.10.2.1 下载连接 https://dow ...
spring 中各个配置文件的说明
(1)pom.xml pom.xml文件是在整个项目下面,该xml的主要作用是:导入框架的jar包及其所依赖的jar包,导入的jar包是写在<dependencies></depen ...
psql 命令
(1)使用命令行连接数据库 psql -U postgres -h localhost -p 5433 (2)列出所有的数据库 \l -- 查看所有数据库 (3)进入某个数据库 \c name -- ...

Bagging vs Boosting vs Stacking

Bagging vs Boosting vs Stacking的更多相关文章

随机推荐

热门专题