boosting、adaboost

1、boosting

Boosting方法是一种用来提高弱分类算法准确度的方法，这种方法通过构造一个预测函数系列，然后以一定的方式将他们组合成一个预测函数。他是一种框架算法，主要是通过对样本集的操作获得样本子集，然后用弱分类算法在样本子集上训练生成一系列的基分类器。

在boosting算法产生之前，还出现过两种比较重要的将多个分类器整合为一个分类器的方法，即boostrapping方法和bagging方法。

1.1 bootstrapping方法的主要过程

i)重复地从一个样本集合D中采样n个样本

ii)针对每次采样的子样本集，进行统计学习，获得假设H_i

iii)将若干个假设进行组合，形成最终的假设H_final

iv)将最终的假设用于具体的分类任务

1.2 bagging方法的主要过程

i)训练分类器从整体样本集合中，抽样n^* < N个样本针对抽样的集合训练分类器C_i

ii)分类器进行投票，最终的结果是分类器投票的优胜结果

但是，上述这两种方法，都只是将分类器进行简单的组合，实际上，并没有发挥出分类器组合的威力来。直到1989年，Yoav Freund与 Robert Schapire提出了一种可行的将弱分类器组合为强分类器的方法。

Schapire还提出了一种早期的boosting算法，其主要过程如下：

i)从样本整体集合D中，不放回的随机抽样n₁< n个样本，得到集合 D₁训练弱分类器C₁

ii)从样本整体集合D中，抽取 n₂< n个样本，其中合并进一半被C₁ 分类错误的样本。得到样本集合 D₂训练弱分类器C₂

iii)抽取D样本集合中，C₁ 和 C₂ 分类不一致样本，组成D₃训练弱分类器C₃

iv)用三个分类器做投票，得到最后分类结果

到了1995年，Freund and schapire提出了现在的adaboost算法。

2、adaboost

主要框架可以描述为：

i)循环迭代多次，更新样本分布，寻找当前分布下的最优弱分类器，计算弱分类器误差率

ii)聚合多次训练的弱分类器

现在，boost算法有了很大的发展，出现了很多的其他boost算法，例如：logitboost算法，gentleboost算法等。

3、adaboost的收敛性证明

整个证明的核心是：

$\frac{1}{m}|i:H(x_{i})\neq{y_{i}}|\leq\prod_{t=1}^{T}Z_{t}$ ，其中 $m$ 表示样本总数， $T$ 表示弱分类器的总数， $Z_{t}$ 为每一级弱分类器的错误率。

证明过程：

$\frac{\frac{1}{m}|i:H(x_{i})\neq{y_{i}}|}{\prod_{t=1}^{T}Z_{t}} \leq\frac{exp(-\sum_{t=1}^{T}\alpha_{t}y_{i}h_{t}(x_{i}))}{m\prod_{t=1}^{T}Z_{t}} =\frac{exp(-y_{i}f(x_{i}))}{m\prod_{t=1}^{T}Z_{t}} =D_{T+1}(i)$

如果 $H(x_{i})\neq{y_{i}}$ 则 $y_{i}f(x_{i})\leq0$ ，故 $exp(y_{i}f(x_{i}))\geq1$ 。所以得到上式子。

至此，看到AdaBoost的错误率上限，接下来的目标就是使这个上限尽可能小！

在原始AdaBoost算法中h值域是{-1，1}，问题是怎么找到最佳的 $\alpha_{t}$

对于原始的AdaBoost，前文讨论过其h是“定死”的，失去了“讨价还价”的余地，而在Real AdaBoost不在“定死”。

推导过程ppt下载。

参考：http://blog.163.com/f_rock/blog/static/1947961312011102810164354/

4、gentle adaboost

参考：http://blog.csdn.net/wsj998689aa/article/details/42652827

boosting、adaboost的更多相关文章

[机器学习]集成学习--bagging、boosting、stacking
集成学习简介集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务. 如何产生"好而不同"的个体学习器,是集成学习研究的核心. 集成学习的思路是通过 ...
浅析人脸检测之Haar分类器方法：Haar特征、积分图、 AdaBoost 、级联
浅析人脸检测之Haar分类器方法一.Haar分类器的前世今生人脸检测属于计算机视觉的范畴,早期人们的主要研究方向是人脸识别,即根据人脸来识别人物的身份,后来在复杂背景下的人脸检测需求越来越大,人脸 ...
决策树(中)-集成学习、RF、AdaBoost、Boost Tree、GBDT
参考资料(要是对于本文的理解不够透彻,必须将以下博客认知阅读): 1. https://zhuanlan.zhihu.com/p/86263786 2.https://blog.csdn.net/li ...
Stacking：Catboost、Xgboost、LightGBM、Adaboost、RF etc
python风控评分卡建模和风控常识(博客主亲自录制视频教程) https://study.163.com/course/introduction.htm?courseId=1005214003&am ...
【SVM、决策树、adaboost、LR对比】
一.SVM 1.应用场景: 文本和图像分类. 2.优点: 分类效果好:有效处理高维空间的数据:无局部最小值问题:不易过拟合(模型中含有L2正则项): 3.缺点: 样本数据量较大需要较长训练时间:噪声不 ...
Boosting and AdaBoost
Boosting是一种从一些弱分类器中创建一个强分类器的集成技术(提升算法). 它先由训练数据构建一个模型,然后创建第二个模型来尝试纠正第一个模型的错误.不断添加模型,直到训练集完美预测或已经添加到数 ...
bagging，random forest，boosting（adaboost、GBDT），XGBoost小结
Bagging 从原始样本集中抽取训练集.每轮从原始样本集中使用Bootstraping(有放回)的方法抽取n个训练样本(在训练集中,有些样本可能被多次抽取到,而有些样本可能一次都没有被抽中).共进行 ...
弱分类器的进化--Bagging、Boosting、Stacking
一般来说集成学习可以分为三大类: 用于减少方差的bagging 用于减少偏差的boosting 用于提升预测结果的stacking 一.Bagging(1996) 1.随机森林(1996) RF = ...
机器学习算法( 七、AdaBoost元算法)
一.概述当做重要决定时,大家可能都会考虑吸取多个专家而不只是一个人的意见.机器学习处理问题时又何尝不是如此?这就是元算法(meta-algorithm)背后的思路.元算法是对其他算法进行组合的一种方 ...

随机推荐

【.net 深呼吸】细说CodeDom（5）：类型成员
前文中,老周已经厚着脸皮介绍了类型的声明,类型里面包含的自然就是类型成员了,故,顺着这个思路,今天咱们就了解一下如何向类型添加成员. 咱们都知道,常见的类型成员,比如字段.属性.方法.事件.表示代码成 ...
Linux中进行单文件内容的复制
文件内容复制的常规方法: 开辟一段空间,不断读取文件的内容并写入另一文件当中,这种方法好在安全,一般在类型允许的最大范围内是安全的,缺点就是复制内容的时间长一次性复制文件的内容,这种方法必须首先获取 ...
html5标签canvas函数drawImage使用方法
html5中标签canvas,函数drawImage(): 使用drawImage()方法绘制图像.绘图环境提供了该方法的三个不同版本.参数传递三种形式: drawImage(image,x,y):在 ...
spring源码分析之@ImportSelector、@Import、ImportResource工作原理分析
1. @importSelector定义: /** * Interface to be implemented by types that determine which @{@link Config ...
continue break 区别
在循环中有两种循环方式 continue , break continue 只是跳出本次循环, 不在继续往下走, 还是开始下一次循环 break 将会跳出整个循环, 此循环将会被终止 count = ...
安装angular-cli
最近在学习angular2,并尝试用这个框架来做公司的一个新项目. 终于要开始开发了,等了1个多月. 因为第一次用这个新框架做项目,不太熟悉,就找了angular-cli这个脚手架来搭建项目. 安装了 ...
[转载]SQL语句中的日期计算
1. 本月的第一天SELECT DATEADD(mm, DATEDIFF(mm,0,getdate()), 0) 2. 本月的最后一天SELECT dateadd(ms,-3,DATEADD( ...
Node.js入门（一）
一.Node.js本质上是js的运行环境. 二.可以解析js代码(没有浏览器安全级的限制): 提供系统级的API:1.文件的读写 2.进程的管理 3.网络通信三.可以关注的四个网站: 1.https ...
keepalive的不足，如何处理
MySQL(或者其它服务)的keepalived高可用监控脚本开发脚本需求:我们知道,keepalive是基于虚拟ip的存活来判断是否抢占master的机制的,但是如果我们做了MySQL的keepa ...
RTP与RTCP协议介绍（转载）
RTSP发起/终结流媒体.RTP传输流媒体数据 .RTCP对RTP进行控制,同步.RTP中没有连接的概念,本身并不能为按序传输数据包提供可靠的保证,也不提供流量控制和拥塞控制,这些都由RTCP来负责完 ...

boosting、adaboost

boosting、adaboost的更多相关文章

随机推荐

热门专题