Machine Learning in Action(6) AdaBoost算法

Adaboost也是一种原理简单，但很实用的有监督机器学习算法，它是daptive boosting的简称。说到boosting算法，就不得提一提bagging算法，他们两个都是把一些弱分类器组合起来来进行分类的方法，统称为集成方法（ensemble method）,类似于投资，“不把鸡蛋放在一个篮子”，虽然每个弱分类器分类的不那么准确，但是如果把多个弱分类器组合起来可以得到相当不错的结果，另外要说的是集成方法还可以组合不同的分类器，而Adaboost和boosting算法的每个弱分类器的类型都一样的。他们两个不同的地方是：boosting的每个弱分类器组合起来的权重不一样，本节的Adaboost就是一个例子，而bagging的每个弱分类器的组合权重是相等，代表的例子就是random forest。Random forest的每个弱分类器是决策树，输出的类别有多个决策树分类的类别的众数决定。今天的主题是Adaboost,下面来看看Adaboost的工作原理：

既然Adaboost的每个弱分类器的类型都一样，那么怎么组织安排每个分类器呢？如（图一）所示：

（图一）

（图一）是Adaboost的原理示意图，左边矩形表示数据集，中间表示根据特征阈值来做分类，这样每一个弱分类器都类似于一个单节点的决策树，其实就是阈值判断而已，右边的三角形对每个弱分类器赋予一个权重，最后根据每个弱分类器的加权组合来判断总体类别。要注意一下数据集从上到下三个矩形内的直方图不一样，这表示每个样本的权重也发生了变化，样本权重的一开始初始化成相等的权重，然后根据弱分类器的错误率来调整每个弱分类器的全总alpha,如（图一）中的三角形所示，alpha 的计算如（公式一）所示：

（公式一）

从（公式一）中也能感觉出来，弱分类器权重alpha和弱分类器分类错误率epsilon成反比，如果不能看出反比关系，分子分母同时除以epsilon就可以了，而ln是单调函数。这很make sense,当然分类器的错误率越高，越不能器重它，它的权重就应该低。同样的道理，样本也要区分对待，样本的权重要用弱分类器权重来计算，其实也是间接靠分类错误率，如（公式二）所示：

(公式二)

其中D表示样本权重向量，有多少个样本就有多少个权重，下标i表示样本索引，而上标t表示上一次分类器训练迭代次数。这样一直更新迭代，一直到最大迭代次数或者整个分类器错误率为0或者不变时停止迭代，就完成了Adaboost的训练。但是这样就可以把样本分开了吗？下面从一组图解答这个问题，如（图二）所示：

（图二）

由（图二）所示，每个弱分类器Hi可以要求不高的准确率，哪怕错误率是50%也可以接受，但是最后通过线性加权组合就可以得到一个很好的分类器，这点也可以通过错误率分析验证，有兴趣的可以看看：http://math.mit.edu/~rothvoss/18.304.3PM/Presentations/1-Eric-Boosting304FinalRpdf.pdf，想了解为什么alpha的计算如（公式一）的样子，可以看看：http://math.mit.edu/~rothvoss/18.304.3PM/Presentations/1-Eric-Boosting304FinalRpdf.pdf。

这样Adaboost的原理基本分析完毕，下面进入代码实战阶段：

首先来准备个简单数据集：

 from numpy import *

 def loadSimpData():

     datMat = matrix([[ 1. ,  2.1],

         [ 2. ,  1.1],

         [ 1.3,  1. ],

         [ 1. ,  1. ],

         [ 2. ,  1. ]])

     classLabels = [1.0, 1.0, -1.0, -1.0, 1.0]

     return datMat,classLabels

上面有5个样本，接下来就是初始化每个样本的权重，刚开始相等的：

 D = mat(ones((5,1))/5)

有了样本和初始化权重，接下来的任务就是构建一个弱分类器，其实就是一个单节点决策树，找到决策树每个特征维度上对应的最佳阈值以及表示是大于阈值还是小于阈值为正样本的标识符。代码如下：

 def buildStump(dataArr,classLabels,D):

     dataMatrix = mat(dataArr); labelMat = mat(classLabels).T

     m,n = shape(dataMatrix)

     numSteps = 10.0; bestStump = {}; bestClasEst = mat(zeros((m,1)))

     minError = inf #init error sum, to +infinity

     for i in range(n):#loop over all dimensions

         rangeMin = dataMatrix[:,i].min(); rangeMax = dataMatrix[:,i].max();

         stepSize = (rangeMax-rangeMin)/numSteps

         for j in range(-1,int(numSteps)+1):#loop over all range in current dimension

             for inequal in ['lt', 'gt']: #go over less than and greater than

                 threshVal = (rangeMin + float(j) * stepSize)

                 predictedVals = stumpClassify(dataMatrix,i,threshVal,inequal)#call stump classify with i, j, lessThan

                 errArr = mat(ones((m,1)))

                 errArr[predictedVals == labelMat] = 0

                 weightedError = D.T*errArr  #calc total error multiplied by D

                 #print "split: dim %d, thresh %.2f, thresh ineqal: %s, the weighted error is %.3f" % (i, threshVal, inequal, weightedError)

                 if weightedError < minError:

                     minError = weightedError

                     bestClasEst = predictedVals.copy()

                     bestStump['dim'] = i

                     bestStump['thresh'] = threshVal

                     bestStump['ineq'] = inequal

     return bestStump,minError,bestClasEst

注意代码中有三个for循环，这三个for循环其实就是为了完成决策树的每个特征维度上对应的最佳阈值以及表示是大于阈值还是小于阈值为正样本的标识符，这三个要素。其中it,gt分别表示大于和小于，阈值的选择是靠增加步长来需找，最终三者的确定是靠决策树分类错误率最小者决定，每个决策树的分类代码如下，很简单，就是靠阈值判断：

 def stumpClassify(dataMatrix,dimen,threshVal,threshIneq):#just classify the data

     retArray = ones((shape(dataMatrix)[0],1))

     if threshIneq == 'lt':

         retArray[dataMatrix[:,dimen] <= threshVal] = -1.0

     else:

         retArray[dataMatrix[:,dimen] > threshVal] = -1.0

     return retArray

有了弱分类器的构造代码，下面来看Adaboost的训练代码：

 def adaBoostTrainDS(dataArr,classLabels,numIt=40):

     weakClassArr = []

     m = shape(dataArr)[0]

     D = mat(ones((m,1))/m)   #init D to all equal

     aggClassEst = mat(zeros((m,1)))

     for i in range(numIt):

         bestStump,error,classEst = buildStump(dataArr,classLabels,D)#build Stump

         #print "D:",D.T

         alpha = float(0.5*log((1.0-error)/max(error,1e-16)))#calc alpha, throw in max(error,eps) to account for error=0

         bestStump['alpha'] = alpha

         weakClassArr.append(bestStump)                  #store Stump Params in Array

         #print "classEst: ",classEst.T

         expon = multiply(-1*alpha*mat(classLabels).T,classEst) #exponent for D calc, getting messy

         D = multiply(D,exp(expon))                              #Calc New D for next iteration

         D = D/D.sum()

         #calc training error of all classifiers, if this is 0 quit for loop early (use break)

         aggClassEst += alpha*classEst

         #print "aggClassEst: ",aggClassEst.T

         aggErrors = multiply(sign(aggClassEst) != mat(classLabels).T,ones((m,1)))

         errorRate = aggErrors.sum()/m

         print "total error: ",errorRate

         if errorRate == 0.0: break

     return weakClassArr,aggClassEst

上面的代码中训练过程主要任务就是完成（公式二）中的样本权重D和弱分类器权重alpha的更新，另外还要注意一下，代码中迭代了40次，每次都调用了buildStump，这就意味着创建了40个弱分类器。当模型收敛后，有了样本权重和弱弱弱分类器权重，最后就是对测试样本进行分类，分类代码如下：

 def adaClassify(datToClass,classifierArr):

     dataMatrix = mat(datToClass)#do stuff similar to last aggClassEst in adaBoostTrainDS

     m = shape(dataMatrix)[0]

     aggClassEst = mat(zeros((m,1)))

     for i in range(len(classifierArr)):

         classEst = stumpClassify(dataMatrix,classifierArr[i]['dim'],\

                                  classifierArr[i]['thresh'],\

                                  classifierArr[i]['ineq'])#call stump classify

         aggClassEst += classifierArr[i]['alpha']*classEst

         print aggClassEst

     return sign(aggClassEst)

考虑到有些做学术的为了比较不同机器学习算法的好坏，常常需要画ROC曲线，这里也给出画ROC的代码：

 def plotROC(predStrengths, classLabels):

     import matplotlib.pyplot as plt

     cur = (1.0,1.0) #cursor

     ySum = 0.0 #variable to calculate AUC

     numPosClas = sum(array(classLabels)==1.0)

     yStep = 1/float(numPosClas); xStep = 1/float(len(classLabels)-numPosClas)

     sortedIndicies = predStrengths.argsort()#get sorted index, it's reverse

     fig = plt.figure()

     fig.clf()

     ax = plt.subplot(111)

     #loop through all the values, drawing a line segment at each point

     for index in sortedIndicies.tolist()[0]:

         if classLabels[index] == 1.0:

             delX = 0; delY = yStep;

         else:

             delX = xStep; delY = 0;

             ySum += cur[1]

         #draw line from cur to (cur[0]-delX,cur[1]-delY)

         ax.plot([cur[0],cur[0]-delX],[cur[1],cur[1]-delY], c='b')

         cur = (cur[0]-delX,cur[1]-delY)

     ax.plot([0,1],[0,1],'b--')

     plt.xlabel('False positive rate'); plt.ylabel('True positive rate')

     plt.title('ROC curve for AdaBoost horse colic detection system')

     ax.axis([0,1,0,1])

     plt.show()

     print "the Area Under the Curve is: ",ySum*xStep

到此位置，Adaboost的代码也介绍完了，最终程序的运行结果如（图三）所示：

（图三）

而Adaboost的模型ROC运行曲线如（图四）所示：

（图四）

最近MIT的几个人证明了Adaboost可以用一阶梯度的角度来解释，详见链接

上面内容转载至朋友博客:http://blog.csdn.net/marvin521/article/details/9319459

Ps: 大爱AdaBoost算法，是一个神奇的算法，我当年的论文就是研究这个算法在噪声和非平衡场景下的性能，AdaBoost在工业界也应用广泛，人脸识别的芯片貌似就嵌入了该算法，关于该算法有了各种各样的解释，如从游戏理论，最大间隔，统计学角度等等，当年关于该算法间隔解释的学术争论也是闹得沸沸扬扬，不过这个问题貌似被我们中国学者王立威给解决了。

Machine Learning in Action(6) AdaBoost算法的更多相关文章

Machine Learning in Action(5) SVM算法
做机器学习的一定对支持向量机(support vector machine-SVM)颇为熟悉,因为在深度学习出现之前,SVM一直霸占着机器学习老大哥的位子.他的理论很优美,各种变种改进版本也很多,比如 ...
Machine Learning in Action(7) 回归算法
按照<机器学习实战>的主线,结束有监督学习中关于分类的机器学习方法,进入回归部分.所谓回归就是数据进行曲线拟合,回归一般用来做预测,涵盖线性回归(经典最小二乘法).局部加权线性回归.岭回归 ...
机器学习实战（Machine Learning in Action）学习笔记————08.使用FPgrowth算法来高效发现频繁项集
机器学习实战(Machine Learning in Action)学习笔记————08.使用FPgrowth算法来高效发现频繁项集关键字:FPgrowth.频繁项集.条件FP树.非监督学习作者:米 ...
机器学习实战（Machine Learning in Action）学习笔记————07.使用Apriori算法进行关联分析
机器学习实战(Machine Learning in Action)学习笔记————07.使用Apriori算法进行关联分析关键字:Apriori.关联规则挖掘.频繁项集作者:米仓山下时间:2018 ...
机器学习实战（Machine Learning in Action）学习笔记————06.k-均值聚类算法（kMeans）学习笔记
机器学习实战(Machine Learning in Action)学习笔记————06.k-均值聚类算法(kMeans)学习笔记关键字:k-均值.kMeans.聚类.非监督学习作者:米仓山下时间: ...
机器学习实战（Machine Learning in Action）学习笔记————02.k-邻近算法（KNN）
机器学习实战(Machine Learning in Action)学习笔记————02.k-邻近算法(KNN) 关键字:邻近算法(kNN: k Nearest Neighbors).python.源 ...
Machine Learning In Action 第二章学习笔记: kNN算法
本文主要记录<Machine Learning In Action>中第二章的内容.书中以两个具体实例来介绍kNN(k nearest neighbors),分别是: 约会对象预测手写数 ...
【机器学习实战】Machine Learning in Action 代码视频项目案例
MachineLearning 欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远 Machine Learning in Action (机器学习实战) | ApacheCN(apa ...
学习笔记之机器学习实战 (Machine Learning in Action)
机器学习实战 (豆瓣) https://book.douban.com/subject/24703171/ 机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中 ...

随机推荐

HDU 4746 Mophues【莫比乌斯反演】
题目链接: http://acm.hdu.edu.cn/showproblem.php?pid=4746 题意: 1≤x,y≤n , 求gcd(x,y)分解后质因数个数小于等k的(x,y)的对数. 分 ...
Codeforces 895C Square Subsets（状压DP 或异或线性基）
题目链接 Square Subsets 这是白书原题啊先考虑状压DP的做法 $2$到$70$总共$19$个质数,所以考虑状态压缩. 因为数据范围是$70$,那么我们统计出$2$到$70$的每个数的 ...
ELK之收集Java日志、通过TCP收集日志
1.Java日志收集使用codec的multiline插件实现多行匹配,这是一个可以将多行进行合并的插件,而且可以使用what指定将匹配到的行与前面的行合并还是和后面的行合并. 语法示例: inpu ...
eclipse 五种断点
1. Line BreakpointLine Breakpoin是最简单的Eclipse断点,只要双击某行代码对应的左侧栏,就对该行设置上断点. 2. WatchpointLine Breakpoin ...
fastscript增加三方控件之二
fastscript增加三方控件之二 unit fs_BsDataSet; interface {$i fs.inc} uses SysUtils, Classes, fs_iinterpreter, ...
Oracle 11g客户端
资源下载资源,直接解压进行配置 Oracle官方资源:http://www.oracle.com/technetwork/database/features/instant-client/index ...
我们为什么要把Dagger2,MVP以及Rxjava引入项目中?
1Why? 我们为什么要把Dagger2,MVP以及Rxjava引入项目中? 毫无疑问在Android开发圈中这三个技术是经常被提及的,如此多的文章和开源项目在介绍他们,使用他们,开发者也或多或少的被 ...
php-fpm.conf配置说明（重点要改动和优化的地方）
<?xml version="1.0" ?> <configuration> All relative paths in this config are r ...
java数据库连接池简单实现
package cn.lmj.utils; import java.io.PrintWriter; import java.lang.reflect.InvocationHandler; import ...
修改百度地图 infowindow 默认样式
1.百度 api 没有提供可以修改 infowindow 默认样式的方法. 如需修改,需要自定义替换默认样式. demo.html <!DOCTYPE html> <htm ...

Machine Learning in Action(6) AdaBoost算法

Machine Learning in Action(6) AdaBoost算法的更多相关文章

随机推荐

热门专题