6.集成算法boosting----AdaBoost算法
1.提升算法
提升算法实为将一系列单一算法(如决策树,SVM等)单一算法组合在一起使得模型的准确率更高。这里先介绍两种Bagging(代表算法随机森林),Boosting(代表算法AdaBoost-即本篇核心)
Bagging思想:以随机森林为例
假设样本集的总样本量为100个,每个样本有10个特征(也就是维度是10);随机取样的比例一般为(60%-80%)
步骤1 :我们随机从中拿出60个数据(注意这里是有放回的取样)用于建立决策树,这样随机取50次,最终将会形成60棵决策树。
步骤2: 我们在构建决策树时对于每个决策树的特征也采用随机取样(有放回),随机选6个特征。
步骤3:利用上述步骤1,步骤2构建的60个不同的决策树模型,最终结果用这60棵综合区评判,如下图(图片来此网络):

Boosting思想:在分类问题中,通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类的性能(后文以AdaBoost进行说明)。
Bagging与Boosting的异同点:
同:两者都是集成算法,即综合考虑更过的分类器,提高分类的准确性
异:分类器层面:比如一个20人的工作小组,现在要对某一问题达成一项决议。现在开会讨论,Bagging是一视同仁的,即不论工作经验多少,能力怎样,我看多数,后者取平均。而Boosting会根据能力或者说经验的多少综合评定给每个工程师一个权重,也就说能力强的,有经验的权重就大一些,他们的意见就重要一些。在这个基础上再去决策(注意这此示例只针对分类器层面)。
样本层面:Boosting也会给予样本一定的权重。如果从结构层面。
模型结构层面:Bagging是并行决策的(可类比并联电路),而Boosting是串行决策的。
2.AdaBoost算法
2.1 AdaBoost原理以及形成过程
AdaBoost算法的感悟,我在整理时,想采用一种倒立的方式去记录和解读,因为我自己在学习的过程中直接从数学表达式去学习,总是感觉有诸多的疑问,以至于接受此算法所用的时间稍微长了一些,下面正式开始整理自己理解AdaBoost的过程
AdaBoost算法是boosting算法中的一种,它的作用就是将一系列弱分类器线性组合在一起形成一个强分类器,可以这样理解AdaBoost就像一个领导,那些弱分类器算法(如:单层决策树等)就像员工,每个员工均有自己的特征,而AdaBoost做为老板的作用就是将这些员工通过某种方式组合在一起将事情做得更好,放在机器学习中就是将分类任务或者说回归任务能做得更好,也就是所说的提升方法。AdaBoost是通过什么样的方式来完成这个任务的呢?
在《李航-统计学习方法中》关于提升方法提出两个问题,而AdaBoost的原理就是如何解决这两个问题
问题1:每一轮如何改变训练数据的权值或概率分布?
AdaBoost:提高那些被前一轮分类器错误分类样本的权值,而降低那些被分类正确样本的权值。这样一来,那些没有得到正确分类的的数据,由于其权值加大而受到后一轮若分类器更大的关注。
问题2:如何将若分类器组合成一个强分类器?
AdaBoost:采用加权多数表决的方法,即加大分类误差小的弱分类器的权值,使其在表决中起较大的作用,减小分类吴超率大的弱分类器的权值,使其在表决中起较小的作用
理解AdaBoost即就是理解上述两个问题的数学表达:
AdaBoost最终的数学表达式为:

其中m表示:第m个分类器,M表示总共有M个分类器
x:表示样本集合
上式(1)的形成过程如下:
输入:训练数据集
,其中
;弱学习算法;
输出:最终分类器G(x)

2.2 分步骤理解上述AdaBoost算法
m = 1 时,即利用第一个分类器开始学习训练数据集时
*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-
第一步:对于第一个分类器,我们假设每个样本的权值是相同的。引用《李航-统计学习方法》中的案例来理解第一步:
例:对于如下数据集,假设弱分类器由x<ν或想x>v产生,其中阀值ν使得该分类器在训练数据集上分类误差率最低,试用AdaBoost算法学习一个强分类器;



第二步:确定基本分类器G

此处样本量并不大,我们可以手动计算一下,例如阀值分别取1.5,2.5,3.5,...,9.5时的分类误差率,就能得到当v=2.5是分类误差率最小即:

第三步:计算在
分类器上的训练误差率

第四步:计算分类器
的权值(注意这里是以e为底进行计算的)

第六步:确定最终分类器

利用上述G(x)对训练数据集进行分类,仍有3个数据被分类错误
第七步:计算下一次循环的样本集的权重


D2=(0.0715, 0.0715, 0.0715, 0.0715, 0.0715, 0.0715,0.1666, 0.1666, 0.1666, 0.0715)
m = 2 ,组合第二个弱分类器
*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-
重复上述第二步到第七步

分类误差率最小的阀值为8.5




此时利用上述G(x)对训练数据集进行分类,仍有3个点被误分类
m = 3 ,组合第三个弱分类器
*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-
再次重复上述第二步到第七步

分类误差最小的阀值为5.5




此时利用上述的G(x)在对样本集进行分类,上述训练数据集上有0个误分类点,即误分率为0,此时即可停止,上述G(x)即可作此数据的强分类器
1.3 总结
通过对上述案例的认识,我们可量化的指标所表现的规律再从定性的角度理解
(1)被前一个分类器分错得样本,下一个分类器再对其进行分类时一定不会被分错,为什么?
我们通过数值观察,被分错的样本,在下一次分类时样本权值被增大如(m=2时样本权值为0.1666的样本),而我们在流程图中第二步提到,在选择分类器时,要求选择分类误差率最低的分类器(为甚要这么选的原理见下文式(11)),显然如果将权值大的样本分类错时根本达不到第二步的要求。
(2)m=3时为什么误分率为0,从定性的角度如何理解?
m=3时的组合分类器的权值alpha逐渐增大,即我们给予分类误差率低的样本给予了高的权值,而从数值上去判断,最终f(x)>0亦或是f(x)<0是由三个分类器所共同决定的,假如说第一个分类器
将某一样本原本是1类别,分成了-1类别,那么其对最终分类器来说,会提供一个负的贡献,而后边的分类器总会将这个负的贡献抵消掉,使得最终结果还是1类别。
3.AdaBoost算法的理解
《李航-统计学习方法》中提到,AdaBoost算法是模型为加法模型,损失函数为指数函数,学习算法为前向分步算法时的二分类学习方法,此解释实际解释了上述我们的AdaBoost算法的原理的由来;
3.1 加法模型的一般表达式如下:


3.2 前向分步算法:
选定模型后,我们的目标就是通过训练数据集去训练模型(本质是训练模型中的参数),用什么来衡量模型训练的好坏呢?常常通过经验风险极小化即损失函数极小化,此处在给定训练数据集及损失函数L(y,f(x))的条件下,我们的目标极小化此损失函数,形式如下:

由于f(x)为加法模型,现在我们的任务是优化模型参数
,使得损失函数
最小,我们可以采用优化加法模型中的每一项,让每一项的结果最小,这样问题将转化为如下形式:

上述(3)到(4)转化过程即为前向分步算法的核心。
3.3 利用上述加法模型以及前向分步算法的原理推导AdaBoost模型
AdaBoost模型为:

损失函数为:

设已经优化了m-1轮,即已经得到了
,如式(7),在第m轮我们通过迭代可得如下式(8)


我们可通过使上述式(8)对对应的损失函数最小,损失函数如下式(9)

通过优化式(9)使得式(9)最小即可得到

即不依赖于alpha,也不依赖于G,故以G为自变量求解损失函数的极小值即等价于下述式(11):

式(11)解释了再上述流程图的第二步,我们每次找分类器的时候,要找误差率最小的分类器的原因,即要使得损失函数最小。
而对于alpha,式(9)关于alpha求导,并令倒数等于0,即可得到
,过程如下:
,令其为0即得

由上述(9)已知
,所以

此处与AdaBoost算法的不同之处在于,AdaBoost对w进行了归一化
2.实例
3.算法推导
4.注意点
6.集成算法boosting----AdaBoost算法的更多相关文章
- 集成学习值Adaboost算法原理和代码小结(转载)
在集成学习原理小结中,我们讲到了集成学习按照个体学习器之间是否存在依赖关系可以分为两类: 第一个是个体学习器之间存在强依赖关系: 另一类是个体学习器之间不存在强依赖关系. 前者的代表算法就是提升(bo ...
- 集成学习之Adaboost算法原理小结
在集成学习原理小结中,我们讲到了集成学习按照个体学习器之间是否存在依赖关系可以分为两类,第一个是个体学习器之间存在强依赖关系,另一类是个体学习器之间不存在强依赖关系.前者的代表算法就是是boostin ...
- 集成学习之Adaboost算法原理
在boosting系列算法中,Adaboost是最著名的算法之一.Adaboost既可以用作分类,也可以用作回归. 1. boosting算法基本原理 集成学习原理中,boosting系列算法的思想:
- Python实现机器学习算法:AdaBoost算法
Python程序 ''' 数据集:Mnist 训练集数量:60000(实际使用:10000) 测试集数量:10000(实际使用:1000) 层数:40 ------------------------ ...
- adaboost算法
三 Adaboost 算法 AdaBoost 是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器,即弱分类器,然后把这些弱分类器集合起来,构造一个更强的最终分类器.(很多博客里说的三个臭皮匠 ...
- 【机器学习笔记之四】Adaboost 算法
本文结构: 什么是集成学习? 为什么集成的效果就会好于单个学习器? 如何生成个体学习器? 什么是 Boosting? Adaboost 算法? 什么是集成学习 集成学习就是将多个弱的学习器结合起来组成 ...
- 04-02 AdaBoost算法
目录 AdaBoost算法 一.AdaBoost算法学习目标 二.AdaBoost算法详解 2.1 Boosting算法回顾 2.2 AdaBoost算法 2.3 AdaBoost算法目标函数优化 三 ...
- SIGAI机器学习第二十集 AdaBoost算法1
讲授Boosting算法的原理,AdaBoost算法的基本概念,训练算法,与随机森林的比较,训练误差分析,广义加法模型,指数损失函数,训练算法的推导,弱分类器的选择,样本权重削减,实际应用 AdaBo ...
- AdaBoost 算法-分析波士顿房价数据集
公号:码农充电站pro 主页:https://codeshellme.github.io 在机器学习算法中,有一种算法叫做集成算法,AdaBoost 算法是集成算法的一种.我们先来看下什么是集成算法. ...
- Adaboost 算法
一 Boosting 算法的起源 boost 算法系列的起源来自于PAC Learnability(PAC 可学习性).这套理论主要研究的是什么时候一个问题是可被学习的,当然也会探讨针对可学习的问题的 ...
随机推荐
- Map以及HashMap
本文主要介绍java集合框架的Map集合,在日常生活中Map的运用也十分广泛. 与List集合.Set集合隶属于Collection不同,Map是一个独立的接口,与Collection相同级别的接口. ...
- H.Holy Grail ( floyd )(The Preliminary Contest for ICPC Asia Nanjing 2019)
题意: 给出一个有向图,再给出6条原来不存在的路径,让你在这6条路径上添加一个最小的数,使图不存在负环. 思路: 直接6遍 floyd 输出就行了. #include <bits/stdc++. ...
- Linux中使用curl命令发送带参数的get请求和post请求
GET 请求 curl命令 + 请求接口的地址 curl http://**.**.***.**/SeedAgile/SeedApi/querySprintByRequirementNo?parame ...
- 1,全局变量;2,图形验证码;3,解决bug的毅力
通过这一整天的学习,主要解决了这三个: 1,全局变量 在函数外部定义: var gloabl: function test(){ global = " ": //不能写成va ...
- 在web项目中配置log4j
在web.xml中添加如下代码 <context-param> <param-name>contextConfigLocation</param-name> < ...
- arcgis 地图如何转到supermap平台
场景:客户使用arcmap配置好的地图数据,由于项目需要转换到超图平台.有如下几种思路供参考. 1. 使用arcmap生成地图缓存,supermap-iServer支持发布arcgis的地图缓存以及t ...
- 什么是RTTI
参考: http://www.cnblogs.com/vamei/archive/2013/04/14/3013985.html 运行时类型识别(RTTI, Run-Time Type Identi ...
- 免费使用Google
这里需要借助一下`梯子`,这里有教程 点击进入 如果没有谷歌浏览器,进入下载最新版谷歌浏览器,进入下载,不要移动它的安装位置,选择默认位置, 如果已经安装了谷歌浏览器,打开赛风之后,选择设置 进行安装 ...
- SSD源码解读——网络搭建
之前,对SSD的论文进行了解读,可以回顾之前的博客:https://www.cnblogs.com/dengshunge/p/11665929.html. 为了加深对SSD的理解,因此对SSD的源码进 ...
- [CF 1238F] The Maximum Subtree 树DP
题意 给定一颗树,求这个树的最大子树,且这个子树是一个good-tree. good-tree的定义是:每个节点可以表示成一个数值区间,而树上的边表示两个点表示的数值区间相交. 题解 通过分析可以发现 ...