bagging方法（自举汇聚法 bootstrap aggregating）
boosting分类：最流行的是AdaBoost(adaptive boosting)
随机森林（random forest）
GBDT-Gradient Boost Decision Tree（MART）迭代决策树入门
统计学习方法——CART, Bagging, Random Forest, Boosting
[Machine Learning & Algorithm] 随机森林（Random Forest）

机器学习系列(12)_XGBoost参数调优完全指南（附Python代码）(机器学习系列)

一、Boosting算法

Boosting集成分类器包含多个非常简单的成员分类器，这些成员分类器的性能仅好于随机猜想，常被称为弱学习机。典型的弱学习机的例子就是单层决策树。Boosting算法主要针对难以区分的样本，弱学习机通过在分类错误的样本上进行学习来提高继承分类器的分类性能。Boosting与Bagging不同，在Boosting的初始化阶段采用的是无返回抽样从训练样本中随机抽取一个子集，而Bagging采用的是有放回的抽取。Boosting的过程由四个步骤组成：

1、从训练集D中以无放回抽样方式随机抽取一个训练子集d1，用于弱学习机C1的训练。

2、从训练集D中以无放回抽样方式随机抽取一个训练子集d2，并将C1中误误分类样本的50%加入到训练集中，训练得到弱学习机C2。

3、从训练集D中抽取C1和C2分类结果不一致的训练样本生成训练样本集d3，用d3来训练第三个弱学习机C3。

4、通过多数投票来组合弱学习机C1、C2和C3。

Boosting与Bagging模型相比，Boosting可以同时降低偏差也方差，Bagging只能降低模型的方差。在实际应用中，Boosting算法也还是存在明显的高方差问题，也就是过拟合。

二、AdaBoost算法

AdaBoost算法与Boosting算法不同，它是使用整个训练集来训练弱学习机，其中训练样本在每次迭代的过程中都会重新被赋予一个权重，在上一个弱学习机错误的基础上进行学习来构建一个更加强大的分类器。

实例：一文搞懂AdaBoost集成算法

参数调节的一般方法

之前说过，我们要调节的参数有两种：树参数和boosting参数。learning rate没有什么特别的调节方法，因为只要我们训练的树足够多learning rate总是小值来得好。

虽然随着决定树的增多GBM并不会明显得过度拟合，高learing rate还是会导致这个问题，但如果我们一味地减小learning rate、增多树,计算就会非常昂贵而且需要运行很长时间。了解了这些问题，我们决定采取以下方法调参：

选择一个相对来说稍微高一点的learning rate。一般默认的值是0.1，不过针对不同的问题，0.05到0.2之间都可以
决定当前learning rate下最优的决定树数量。它的值应该在40-70之间。记得选择一个你的电脑还能快速运行的值，因为之后这些树会用来做很多测试和调参。
接着调节树参数来调整learning rate和树的数量。我们可以选择不同的参数来定义一个决定树，后面会有这方面的例子
降低learning rate，同时会增加相应的决定树数量使得模型更加稳健

控制变量法进行调参，需要注意一下调参顺序，对结果影响最大的参数应该优先调节

Reference：

集成学习(ensemble method)--基于树模型的更多相关文章

笔记︱集成学习Ensemble Learning与树模型、Bagging 和 Boosting
本杂记摘录自文章<开发 | 为什么说集成学习模型是金融风控新的杀手锏?> 基本内容与分类见上述思维导图. . . 一.机器学习元算法随机森林:决策树+bagging=随机森林梯度提升树 ...
【机器学习实战】第7章集成方法 ensemble method
第7章集成方法 ensemble method 集成方法: ensemble method(元算法: meta algorithm) 概述概念:是对其他算法进行组合的一种形式. 通俗来说: 当做重 ...
【Supervised Learning】集成学习Ensemble Learning & Boosting 算法（python实现）
零. Introduction 1.learn over a subset of data choose the subset uniformally randomly (均匀随机地选择子集) app ...
吴裕雄 python 机器学习——集成学习随机森林RandomForestRegressor回归模型
import numpy as np import matplotlib.pyplot as plt from sklearn import datasets,ensemble from sklear ...
吴裕雄 python 机器学习——集成学习随机森林RandomForestClassifier分类模型
import numpy as np import matplotlib.pyplot as plt from sklearn import datasets,ensemble from sklear ...
集成学习ensemble
集成学习里面在不知道g的情况下边学习边融合有两大派:Bagging和Boosting,每一派都有其代表性算法,这里给出一个大纲. 先来说下Bagging和Boosting之间的相同点:都是不知道g,和 ...
浅谈树模型与集成学习-从决策树到GBDT
引言神经网络模型,特别是深度神经网络模型,自AlexNet在Imagenet Challenge 2012上的一鸣惊人,无疑是Machine Learning Research上最靓的仔,各种进 ...
机器学习--集成学习（Ensemble Learning）
一.集成学习法在机器学习的有监督学习算法中,我们的目标是学习出一个稳定的且在各个方面表现都较好的模型,但实际情况往往不这么理想,有时我们只能得到多个有偏好的模型(弱监督模型,在某些方面表现的比较好) ...
谈谈模型融合之一 —— 集成学习与 AdaBoost
前言前面的文章中介绍了决策树以及其它一些算法,但是,会发现,有时候使用使用这些算法并不能达到特别好的效果.于是乎就有了集成学习(Ensemble Learning),通过构建多个学习器一起结合来完成 ...

随机推荐

一台机器运行多个JBoss多实例
JBossXMLJVMTomcat应用服务器我们经常会遇到这种情况,有时候希望在同一台机器上部署若干个JBoss实例,上面运行不同的应用程序,这样的话无论由于什么原因需要对某个JBoss实例进行关 ...
谈谈如何学习Linux操作系统
献给初学者:为了能把这篇不错的文章分享给大家.所以请允许我暂时用原创的形式展现给大家. @hcy 更多资源:http://blog.sina.com.cn/iihcy 一. 选择适合自己的linux ...
date - 打印或设置系统日期和时间
总览 date [选项]... [+格式] date [选项] [MMDDhhmm[[CC]YY][.ss]] 描述根据指定格式显示当前时间或设置系统时间. -d, --date=STRING 显示 ...
CREATE DOMAIN - 定义一个新域
SYNOPSIS CREATE DOMAIN name [AS] data_type [ DEFAULT expression ] [ constraint [ ... ] ] where const ...
引入msword
找到解决方法了:不是直接引入mswork.tlh文件的,该文件是#import "C:\\Program Files\\Microsoft Office\\Office12\\MSWORD. ...
了解Java密码扩展的基础
了解Java密码扩展的基础 Java密码扩展(The Java Cryptography Extension),是JDK1.4的一个重要部分,基本上,他是由一些包构成的,这些包形成了一个框 ...
B5. Concurrent JVM 锁优化
[概述] 高效并发是从 JDK1.5 到 JDK 1.6 的一个重要改进,HotSpot 虚拟机开发团队在这个版本上花费了大量的精力去实现各种锁优化技术,如适应性自旋(Adaptive Spining ...
并发2-Synchronized
一.Synchronized的概念是利用锁的机制来实现同步的. 锁机制有如下两种特性: 互斥性:即在同一时间只允许一个线程持有某个对象锁,通过这种特性来实现多线程中的协调机制,这样在同一时间只有一个 ...
离线缓存 application cache
1. 什么是离线缓存: 离线缓存可以将站点的一些文件缓存到本地,它是浏览器自己的一种机制,将需要的文件缓存下来,以便后期即使没有连接网络,被缓存的页面也可以展示. 例子:比如我们在手机或电脑上访问一个 ...
python清除字符串中无用字符
将列表val_list中包含的非法字符去掉,illegal_char是非法字符列表 def clear(): illegal_char = [' ','#','%','_','@'] tmp_list ...

集成学习(ensemble method)--基于树模型

机器学习系列(12)_XGBoost参数调优完全指南（附Python代码）(机器学习系列)

一、Boosting算法

二、AdaBoost算法

参数调节的一般方法

集成学习(ensemble method)--基于树模型的更多相关文章

随机推荐

热门专题