AdaBoost（自适应boosting，adaptive boosting）算法

算法优缺点：

优点：泛化错误率低，易编码，可用在绝大部分分类器上，无参数调整
缺点：对离群点敏感
适用数据类型：数值型和标称型

元算法（meta algorithm）

在分类问题中，我们可能不会只想用一个分类器，我们会考虑将分类器组合起来使用，这种方法称为集成方法（ensemble method）或元算法。元算法有多种形式，既可以是不同算法集成也可以是一种算法不同设置的集成。

两种集成方式（bagging & boosting）

bagging方法也称自举汇聚法（bootstrap aggregating）。思路相当于是从数据集中随机抽样得到新的数据集，然后用新的数据集进行训练，最后的结果是新的数据集形成的分类器中的最多的类别。如从1000个样本组成的数据集中进行有放回的抽样5000次，得到5个新的训练集，将算法分别用到这五个训练集上从而得到五个分类器。
boosting则是一种通过串行训练得到结果的方法，在bagging中每个分类器的权重一样，而boosting中分类器的权重则与上一轮的成功度有关。

AdaBoost

是一种用的最多的boosting，想法就是下一次的迭代中，将上一次成功的样本的权重降低，失败的权重升高。权重变化方式：

alpha（分类器权重）的变化：

数据权重变化：

正确分类的话：

错误分类的话

实现思路：

AdaBoost算法实现的是将弱分类器提升成为强分类器，所以这里我们首先要有一个弱分类器，代码中使用的是单层决策树，这也是使用的最多的弱分类器，然后我们就可以根据弱分类器构造出强分类器

函数：

stumpClassify(dataMatrix,dimen,threshVal,threshIneq)
单层决策树的分类器，根据输入的值与阀值进行比较得到输出结果，因为是单层决策树，所以只能比较数据一个dimen的值
buildStump(dataArr,classLabels,D)
构造单层决策树，这部分的构造的思路和前面的决策树是一样的，只是这里的评价体系不是熵而是加权的错误率，这里的加权是通过数据的权重D来实现的，每一次build权重都会因上一次分类结果不同而不同。返回的单层决策树的相关信息存在字典结构中方便接下来的使用
adaBoostTrainDS(dataArr,classLabels,numIt=40)
AdaBoost的训练函数，用来将一堆的单层决策树组合起来形成结果。通过不断调整alpha和D来使得错误率不断趋近0，甚至最终达到0
adaClassify(datToClass,classifierArr)
分类函数，datToClass是要分类的数据，根据生成的一堆单层决策树的分类结果，加权得到最终结果。

#coding=utf-8

from numpy import *

def loadSimpleData():

    dataMat = matrix([[1. , 2.1],

        [2. , 1.1],

        [1.3 , 1.],

        [1. , 1.],

        [2. , 1.]])

    classLabels = [1.0,1.0,-1.0,-1.0,1.0]

    return dataMat, classLabels

def stumpClassify(dataMatrix,dimen,threshVal,threshIneq):

    retArry = ones((shape(dataMatrix)[0],1))

    if threshIneq == 'lt':

        retArry[dataMatrix[:,dimen] <= threshVal] = -1.0

    else:

        retArry[dataMatrix[:,dimen] > threshVal] = -1.0

    return retArry

#D是权重向量

def buildStump(dataArr,classLabels,D):

    dataMatrix = mat(dataArr)

    labelMat = mat(classLabels).T

    m,n = shape(dataMatrix)

    numSteps = 10.0#在特征所有可能值上遍历

    bestStump = {}#用于存储单层决策树的信息

    bestClasEst = mat(zeros((m,1)))

    minError = inf

    for i in range(n):#遍历所有特征

        rangeMin = dataMatrix[:,i].min()

        rangeMax = dataMatrix[:,i].max()

        stepSize = (rangeMax - rangeMin) / numSteps

        for j in range(-1,int(numSteps)+1):

            for inequal in ['lt','gt']:

                threshVal = (rangeMin + float(j) * stepSize)#得到阀值

                #根据阀值分类

                predictedVals = stumpClassify(dataMatrix,i,threshVal,inequal)

                errArr = mat(ones((m,1)))

                errArr[predictedVals == labelMat] = 0

                weightedError = D.T * errArr#不同样本的权重是不一样的

                #print "split: dim %d, thresh %.2f, thresh ineqal: %s, the weighted error is %.3f" % (i, threshVal, inequal, weightedError)

                if weightedError < minError:

                    minError = weightedError

                    bestClasEst = predictedVals.copy()

                    bestStump['dim'] = i

                    bestStump['thresh'] = threshVal

                    bestStump['ineq'] = inequal

    return bestStump,minError,bestClasEst

def adaBoostTrainDS(dataArr,classLabels,numIt=40):

    weakClassArr = []

    m =shape(dataArr)[0]

    D = mat(ones((m,1))/m)#初始化所有样本的权值一样

    aggClassEst = mat(zeros((m,1)))#每个数据点的估计值

    for i in range(numIt):

        bestStump,error,classEst = buildStump(dataArr,classLabels,D)

        #计算alpha，max(error,1e-16)保证没有错误的时候不出现除零溢出

        #alpha表示的是这个分类器的权重，错误率越低分类器权重越高

        alpha = float(0.5*log((1.0-error)/max(error,1e-16)))

        bestStump['alpha'] = alpha

        weakClassArr.append(bestStump)

        expon = multiply(-1*alpha*mat(classLabels).T,classEst) #exponent for D calc, getting messy

        D = multiply(D,exp(expon))                              #Calc New D for next iteration

        D = D/D.sum()

        #calc training error of all classifiers, if this is 0 quit for loop early (use break)

        aggClassEst += alpha*classEst

        #print "aggClassEst: ",aggClassEst.T

        aggErrors = multiply(sign(aggClassEst) != mat(classLabels).T,ones((m,1)))

        errorRate = aggErrors.sum()/m

        print "total error: ",errorRate

        if errorRate == 0.0:

            break

    return weakClassArr

#dataToClass 表示要分类的点或点集

def adaClassify(datToClass,classifierArr):

    dataMatrix = mat(datToClass)#do stuff similar to last aggClassEst in adaBoostTrainDS

    m = shape(dataMatrix)[0]

    aggClassEst = mat(zeros((m,1)))

    for i in range(len(classifierArr)):

        classEst = stumpClassify(dataMatrix,classifierArr[i]['dim'],\

                                 classifierArr[i]['thresh'],\

                                 classifierArr[i]['ineq'])#call stump classify

        aggClassEst += classifierArr[i]['alpha']*classEst

        print aggClassEst

    return sign(aggClassEst)

def main():

    dataMat,classLabels = loadSimpleData()

    D = mat(ones((5,1))/5)

    classifierArr = adaBoostTrainDS(dataMat,classLabels,30)

    t = adaClassify([0,0],classifierArr)

    print t 

if __name__ == '__main__':

    main()

机器学习笔记索引

来自为知笔记(Wiz)

AdaBoost算法分析与实现的更多相关文章

AdaBoost 算法-分析波士顿房价数据集
公号:码农充电站pro 主页:https://codeshellme.github.io 在机器学习算法中,有一种算法叫做集成算法,AdaBoost 算法是集成算法的一种.我们先来看下什么是集成算法. ...
AdaBoost中利用Haar特征进行人脸识别算法分析与总结1——Haar特征与积分图
原地址:http://blog.csdn.net/watkinsong/article/details/7631241 目前因为做人脸识别的一个小项目,用到了AdaBoost的人脸识别算法,因为在网上 ...
Adaboost的几个人脸检测网站
[1]基础学习笔记之opencv(1):opencv中facedetect例子浅析 http://www.cnblogs.com/tornadomeet/archive/2012/03/22/2411 ...
Adaboost 算法实例解析
Adaboost 算法实例解析 1 Adaboost的原理 1.1 Adaboost基本介绍 AdaBoost,是英文"Adaptive Boosting"(自适应增强)的缩写,由 ...
boosting、adaboost
1.boosting Boosting方法是一种用来提高弱分类算法准确度的方法,这种方法通过构造一个预测函数系列,然后以一定的方式将他们组合成一个预测函数.他是一种框架算法,主要是通过对样本集的操作获 ...
Adaboost提升算法从原理到实践
1.基本思想: 综合某些专家的判断,往往要比一个专家单独的判断要好.在"强可学习"和"弱科学习"的概念上来说就是我们通过对多个弱可学习的算法进行"组合 ...
scikit-learn Adaboost类库使用小结
在集成学习之Adaboost算法原理小结中,我们对Adaboost的算法原理做了一个总结.这里我们就从实用的角度对scikit-learn中Adaboost类库的使用做一个小结,重点对调参的注意事项做 ...
集成学习之Adaboost算法原理小结
在集成学习原理小结中,我们讲到了集成学习按照个体学习器之间是否存在依赖关系可以分为两类,第一个是个体学习器之间存在强依赖关系,另一类是个体学习器之间不存在强依赖关系.前者的代表算法就是是boostin ...
【十大经典数据挖掘算法】AdaBoost
[十大经典数据挖掘算法]系列 C4.5 K-Means SVM Apriori EM PageRank AdaBoost kNN Naïve Bayes CART 1. 集成学习集成学习(ensem ...

随机推荐

jQuery 选择同时包含两个class的元素的实现方法
Jquery选择器多个 class属性参照以下案例 <element class="a b good list card"> 1. 交集选择: $(".a. ...
江太公：javascript count(a)(b)(c)(d)运行过程思考
昨天,我弟抛给我一个js的题,使用类似标题那样的调用方法计算a*b*c*d以致无穷的实现方法.思考了半天,终于理清了它的运行过程,记录于下: 函数体: <!DOCTYPE html> &l ...
入手了[云梯的VPN]--水文
之前写的文章 http://www.cnblogs.com/rollenholt/p/3783084.html 结果很多朋友都说访问不了了,现在重新发一下: 各位看官,这是一篇水文: 在用了一段时间s ...
python模块（六）
模块,用一砣代码实现了某个功能的代码集合. 类似于函数式编程和面向过程编程,函数式编程则完成一个功能,其他代码用来调用即可,提供了代码的重用性和代码间的耦合.而对于一个复杂的功能来,可能需要多个函数才 ...
POJ1091跳蚤（容斥 + 唯一分解 + 快速幂）
题意:规定每次跳的单位 a1, a2, a3 …… , an, M,次数可以为b1, b2, b3 …… bn, bn + 1, 正好表示往左,负号表示往右, 求能否调到左边一位,即 a1* b1 ...
【原】理解javascript中的this
最近的文章基本都是总结javascript基础内容的,因为我觉得这些东西很重要.而且很多时候你觉得你理解了,其实并没有你自认为的那么理解.十月份没怎么写文章,因为国庆出去玩的比较久,心变野了,现在是时 ...
red hat关于桥接模式连不上外网或者没有IP
很多人·在启动虚拟机后连接不上外网,即ifconfig没有ip地址,我总结了一下需要注意的地方: 以下全是在桥接模式. 1.在windows中打开任务管理器-->服务中找到一下几个服务,确保它们 ...
WPF面试准备
1.wpf中有两类模板,控件模板controltemplate和datatemplate都派生自Frameworktemplate. 总共有三大模板 ControlTemplate,ItemsPane ...
TCP/IP——基本知识
TCP / IP通常被认为是一个四层协议系统: 1) 链路层,有时也称作数据链路层或网络接口层,通常包括操作系统中的设备驱动程序和计算机中对应的网络接口卡.它们一起处理与电缆(或其他任何传输媒介)的物 ...
RDBMS DML DDL
RDBMS RDBMS 指的是关系型数据库管理系统. RDBMS 是 SQL 的基础,同样也是所有现代数据库系统的基础,比如 MS SQL Server, IBM DB2, Oracle, MySQL ...

AdaBoost算法分析与实现