机器学习Python实现AdaBoost

adaboost是boosting方法多个版本号中最流行的一个版本号，它是通过构建多个弱分类器。通过各个分类器的结果加权之后得到分类结果的。这里构建多个分类器的过程也是有讲究的，通过关注之前构建的分类器错分的那些数据而获得新的分类器。

这种多个分类器在训练时非常easy得到收敛。

本文主要介绍了通过单层决策树构建弱分类器。同理，也能够用其它的分类算法构建弱分类器。

boost 算法系列的起源来自于PAC Learnability(PAC 可学习性)。这套理论主要研究的是什么时候一个问题是可被学习的，当然也会探讨针对可学习的问题的详细的学习算法。

同一时候 ,Valiant和 Kearns首次提出了 PAC学习模型中弱学习算法和强学习算法的等价性问题,即随意给定仅比随机推測略好的弱学习算法 ,能否够将其提升为强学习算法 ?
假设二者等价 ,那么仅仅需找到一个比随机推測略好的弱学习算法就能够将其提升为强学习算法 ,而不必寻找非常难获得的强学习算法。

PAC 定义了学习算法的强弱

弱学习算法---识别错误率小于1/2(即准确率仅比随机推測略高的学习算法)

强学习算法---识别准确率非常高并能在多项式时间内完毕的学习算法

在介绍Boost算法的时候先介绍一下boostrapping 和 bagging算法

1）bootstrapping方法的主要过程

　　主要步骤：

　　i)反复地从一个样本集合D中採样n个样本

　　ii)针对每次採样的子样本集，进行统计学习，获得如果H_i

　　iii)将若干个如果进行组合，形成终于的如果H_final

　　iv)将终于的如果用于详细的分类任务

　　2）bagging方法的主要过程 -----bagging能够有多种抽取方法

　　主要思路：

　　i)训练分类器

　　从总体样本集合中。抽样n^* < N个样本针对抽样的集合训练分类器C_i

　　ii)分类器进行投票，终于的结果是分类器投票的优胜结果

　　可是，上述这两种方法。都仅仅是将分类器进行简单的组合。实际上，并没有发挥出分类器组合的威力来。

adaboost算法是能够用随意的弱分类器作为基础，这里的样例主要是通过单层决策树来实现，这里的单层决策树，相对于之前的决策树而言，简单了非常多，没有通过计算信息增益之类的方法选取特征集，而直接利用的是一个三层循环

adaboost全称是adaptive boosting(自适应boosting)，首先，对训练数据中每个样本附上一个权重，这些权重构成向量D。一開始给这些权重初始化为同样的值。第一次训练时，权重同样。和原先的训练方法一样。训练结束后，依据训练的错误率。又一次分配权重，第一次分对的样本的权重会减少。分错的样本权重会增大，这样再对第二个分类器进行训练，每个分类器都相应一个alpha权重值，这里的alpha是对于分类器而言，前面的D是对于样本而言。最后训练出一系列的弱分类器，对每个分类器的结果乘以权重值alpha再求和，就是终于的分类结果。

自适应就体如今这里。通过对D的一次次的优化，最后的结果往往能够高速收敛。

这里错误率的定义例如以下：

错误率 = 未正确分类的样本数 / 总的样本数

alpha定义例如以下：

权重D的更新函数例如以下：

这里分为两种情况

1.该样本被正确分类：

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvY3VpMTM0/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="" style="border:none; max-width:100%">

2.该样本没有被正确分类：

这里的i代表的是第i个样本，t代表的是第t次训练。

完整的adaboost算法例如以下

以下给出一个python实现的样例：

# -*- coding: cp936 -*-

'''

Created on Nov 28, 2010

Adaboost is short for Adaptive Boosting

@author: Peter

'''

from numpy import *

def loadSimpData():

    datMat = matrix([[ 1. ,  2.1],

        [ 2. ,  1.1],

        [ 1.3,  1. ],

        [ 1. ,  1. ],

        [ 2. ,  1. ]])

    classLabels = [1.0, 1.0, -1.0, -1.0, 1.0]

    return datMat,classLabels

def loadDataSet(fileName):      #general function to parse tab -delimited floats

    numFeat = len(open(fileName).readline().split('\t')) #get number of fields

    dataMat = []; labelMat = []

    fr = open(fileName)

    for line in fr.readlines():

        lineArr =[]

        curLine = line.strip().split('\t')

        for i in range(numFeat-1):

            lineArr.append(float(curLine[i]))

        dataMat.append(lineArr)

        labelMat.append(float(curLine[-1]))

    return dataMat,labelMat

#特征：dimen，分类的阈值是 threshVal,分类相应的大小值是threshIneq

def stumpClassify(dataMatrix,dimen,threshVal,threshIneq):#just classify the data

    retArray = ones((shape(dataMatrix)[0],1))

    if threshIneq == 'lt':

        retArray[dataMatrix[:,dimen] <= threshVal] = -1.0

    else:

        retArray[dataMatrix[:,dimen] > threshVal] = -1.0

    return retArray

#构建一个简单的单层决策树，作为弱分类器

#D作为每个样本的权重，作为最后计算error的时候多项式乘积的作用

#三层循环

#第一层循环，对特征中的每个特征进行循环。选出单层决策树的划分特征

#对步长进行循环，选出阈值

#对大于。小于进行切换

def buildStump(dataArr,classLabels,D):

    dataMatrix = mat(dataArr); labelMat = mat(classLabels).T

    m,n = shape(dataMatrix)

    numSteps = 10.0; bestStump = {}; bestClasEst = mat(zeros((m,1)))  #numSteps作为迭代这个单层决策树的步长

    minError = inf #init error sum, to +infinity

    for i in range(n):#loop over all dimensions

        rangeMin = dataMatrix[:,i].min(); rangeMax = dataMatrix[:,i].max();#第i个特征值的最大最小值

        stepSize = (rangeMax-rangeMin)/numSteps

        for j in range(-1,int(numSteps)+1):#loop over all range in current dimension

            for inequal in ['lt', 'gt']: #go over less than and greater than

                threshVal = (rangeMin + float(j) * stepSize)

                predictedVals = stumpClassify(dataMatrix,i,threshVal,inequal)#call stump classify with i, j, lessThan

                errArr = mat(ones((m,1)))

                errArr[predictedVals == labelMat] = 0

                weightedError = D.T*errArr  #calc total error multiplied by D

                #print "split: dim %d, thresh %.2f, thresh ineqal: %s, the weighted error is %.3f" % (i, threshVal, inequal, weightedError)

                if weightedError < minError:

                    minError = weightedError

                    bestClasEst = predictedVals.copy()

                    bestStump['dim'] = i

                    bestStump['thresh'] = threshVal

                    bestStump['ineq'] = inequal

    return bestStump,minError,bestClasEst

#基于单层决策树的AdaBoost的训练过程

#numIt 循环次数，表示构造40个单层决策树

def adaBoostTrainDS(dataArr,classLabels,numIt=40):

    weakClassArr = []

    m = shape(dataArr)[0]

    D = mat(ones((m,1))/m)   #init D to all equal

    aggClassEst = mat(zeros((m,1)))

    for i in range(numIt):

        bestStump,error,classEst = buildStump(dataArr,classLabels,D)#build Stump

        #print "D:",D.T

        alpha = float(0.5*log((1.0-error)/max(error,1e-16)))#calc alpha, throw in max(error,eps) to account for error=0

        bestStump['alpha'] = alpha

        weakClassArr.append(bestStump)                  #store Stump Params in Array

        #print "classEst: ",classEst.T

        expon = multiply(-1*alpha*mat(classLabels).T,classEst) #exponent for D calc, getting messy

        D = multiply(D,exp(expon))                              #Calc New D for next iteration

        D = D/D.sum()

        #calc training error of all classifiers, if this is 0 quit for loop early (use break)

        aggClassEst += alpha*classEst

        #print "aggClassEst: ",aggClassEst.T

        aggErrors = multiply(sign(aggClassEst) != mat(classLabels).T,ones((m,1)))  #这里还用到一个sign函数。主要是将概率能够映射到-1,1的类型

        errorRate = aggErrors.sum()/m

        print "total error: ",errorRate

        if errorRate == 0.0: break

    return weakClassArr,aggClassEst

def adaClassify(datToClass,classifierArr):

    dataMatrix = mat(datToClass)#do stuff similar to last aggClassEst in adaBoostTrainDS

    m = shape(dataMatrix)[0]

    aggClassEst = mat(zeros((m,1)))

    for i in range(len(classifierArr)):

        classEst = stumpClassify(dataMatrix,classifierArr[i]['dim'],\

                                 classifierArr[i]['thresh'],\

                                 classifierArr[i]['ineq'])#call stump classify

        aggClassEst += classifierArr[i]['alpha']*classEst

        print aggClassEst

    return sign(aggClassEst)

def plotROC(predStrengths, classLabels):

    import matplotlib.pyplot as plt

    cur = (1.0,1.0) #cursor

    ySum = 0.0 #variable to calculate AUC

    numPosClas = sum(array(classLabels)==1.0)

    yStep = 1/float(numPosClas); xStep = 1/float(len(classLabels)-numPosClas)

    sortedIndicies = predStrengths.argsort()#get sorted index, it's reverse

    fig = plt.figure()

    fig.clf()

    ax = plt.subplot(111)

    #loop through all the values, drawing a line segment at each point

    for index in sortedIndicies.tolist()[0]:

        if classLabels[index] == 1.0:

            delX = 0; delY = yStep;

        else:

            delX = xStep; delY = 0;

            ySum += cur[1]

        #draw line from cur to (cur[0]-delX,cur[1]-delY)

        ax.plot([cur[0],cur[0]-delX],[cur[1],cur[1]-delY], c='b')

        cur = (cur[0]-delX,cur[1]-delY)

    ax.plot([0,1],[0,1],'b--')

    plt.xlabel('False positive rate'); plt.ylabel('True positive rate')

    plt.title('ROC curve for AdaBoost horse colic detection system')

    ax.axis([0,1,0,1])

    plt.show()

    print "the Area Under the Curve is: ",ySum*xStep

机器学习Python实现AdaBoost的更多相关文章

机器学习---python环境搭建
一安装python2.7 去https://www.python.org/downloads/ 下载,然后点击安装,记得记住你的安装路径,然后去设置环境变量,这些自行百度一下就好了. 由于2.7没有 ...
Python实现机器学习算法：AdaBoost算法
Python程序 ''' 数据集:Mnist 训练集数量:60000(实际使用:10000) 测试集数量:10000(实际使用:1000) 层数:40 ------------------------ ...
吴裕雄 python 机器学习——集成学习AdaBoost算法回归模型
import numpy as np import matplotlib.pyplot as plt from sklearn import datasets,ensemble from sklear ...
吴裕雄 python 机器学习——集成学习AdaBoost算法分类模型
import numpy as np import matplotlib.pyplot as plt from sklearn import datasets,ensemble from sklear ...
【原】Spark之机器学习(Python版)(二)——分类
写这个系列是因为最近公司在搞技术分享,学习Spark,我的任务是讲PySpark的应用,因为我主要用Python,结合Spark,就讲PySpark了.然而我在学习的过程中发现,PySpark很鸡肋( ...
【原】Spark之机器学习(Python版)(一)——聚类
kmeans聚类相信大家都已经很熟悉了.在Python里我们用kmeans通常调用Sklearn包(当然自己写也很简单).那么在Spark里能不能也直接使用sklean包呢?目前来说直接使用有点困 ...
机器学习Python包
随着机器学习的逐日升温,各种相关开源包也是层出不群,面对如此多种类的工具包,该如何选择,有的甚至还知之甚少或者不知呢,本文简单汇总了一下当下使用比较多的Python版本机器学习工具包,供大家参看,还很 ...
R︱mlr包帮你挑选最适合数据的机器学习模型（分类、回归）+机器学习python和R互查手册
一.R语言的mlr packages install.packages("mlr")之后就可以看到R里面有哪些机器学习算法.在哪个包里面. a<-listLearners() ...
机器学习 python库介绍
开源机器学习库介绍 MLlib in Apache Spark:Spark下的分布式机器学习库.官网 scikit-learn:基于SciPy的机器学习模块.官网 LibRec:一个专注于推荐算法的j ...

随机推荐

POJ 3279 枚举？
思路: 1.枚举第一行递推剩下的判断最后一行成不成立 2. (误)高斯消元? 如何判断1最少和字典序最小- (所以这种做法好像不可取) //By SiriusRen #include <cs ...
VS Code(Visual Studio Code)
这次推荐 VS Code,这是个跨平台.免费的代码编辑器,集成开发.调试.编译为一身.单成启动速度,资源占用,就已经赢了各大编辑器(什么 SB.N++之类).以前觉得 VS 2015 是宇宙最强编辑器 ...
查询SqlServer最近执行过的Sql
SELECT TOP 1000ST.text AS '执行的SQL语句' ,QS.execution_count AS '执行次数' ,QS.total_elapsed_time / 10000 AS ...
机器学习（一） K-means聚类
聚类算法K-means是硬聚类算法,是目标函数聚类算法的代表.K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小.算法采用误差平方和准则函数作为聚 ...
NodeJS学习笔记 (27)实用工具模块-util(ok)
debuglog(section) 很有用的调试方法.可以通过 util.debuglog(name) 来创建一个调试fn,这个fn的特点是,只有在运行程序时候,声明环境变量NODE_DEBUG=na ...
bzoj1615 麻烦的干草打包机 BFS
Description Farmer John新买的干草打包机的内部结构大概算世界上最混乱的了,它不象普通的机器一样有明确的内部传动装置,而是,N (2 <= N <= 1050)个齿轮互 ...
Intel投入5亿美元提升14nm工艺CPU需求
虽然14nm行将收尾,但是却有大量的客户在赶“末班车”,导致CPU供货告急. Intel年初宣布增加10亿美元的额外资本支出用于转向更新的.更先进的生产工具,以便增加产能,在本周的第39届纳斯达克投资 ...
【Codeforces Round #420 (Div. 2) A】Okabe and Future Gadget Laboratory
[题目链接]:http://codeforces.com/contest/821/problem/A [题意] 给你一个n*n的数组; 然后问你,是不是每个位置(x,y); 都能找到一个同一行的元素q ...
POJ3904 Sky Code【容斥原理】
题目链接: http://poj.org/problem?id=3904 题目大意: 给你N个整数.从这N个数中选择4个数,使得这四个数的公约数为1.求满足条件的四元组个数. 解题思路: 四个数的公 ...
eclipse C开发添加自己的头文件搜索路径
eclipse编译C程序时提示: ..\src\main.c:8:21: fatal error: my_type.h: No such file or directory 如图: 需要添加自己的头文 ...

机器学习Python实现AdaBoost

机器学习Python实现AdaBoost的更多相关文章

随机推荐

热门专题