一、强分类器训练过程

算法原理如下（参考自VIOLA P, JONES M. Robust real time object detection[A] . 8th IEEE International Conference on Computer Vision[C] . Vancouver , 2001.）

给定样本 (x1; y1) , . . . , (xn; yn) ; 其中yi = 0表示负样本，yi =1表示正样本；
初始化权重：负样本权重W0i= 1/2m，正样本权重W1i = 1/ 2l，其中m为负样本总数，l为正样本总数；
对于t = 1, ... T(T为训练次数):
1. 权重归一化，简单说就是使本轮所有样本的权重的和为1；
2. 根据每一个特征训练简单分类器，仅使用一个特征；
3. 从所有简单分类器中选出一个分错率最低的分类器，为弱分类器；
4. 更新权重

最后组合T个弱分类器为强分类器

二、代码实现及说明（python）

目的：训练得到一个强分类器，该强分类器分错率低于预设值，且该强分类器由若干个弱分类器（对应单个特征）组成，通过若干个分类器及其权重计算得到的值对样本进行分类。

def adaBoostTrainDS(dataArr,classLabels,numIt=40):

    weakClassArr = [] #存放强分类器的所有弱分类器信息

    m = shape(dataArr)[0]

    D = mat(ones((m,1))/m)   #权重初始化

    aggClassEst = mat(zeros((m,1)))

    for i in range(numIt):

        bestStump,error,classEst = buildStump(dataArr,classLabels,D)#根据训练样本、权重得到一个弱分类器

        print "D:",D.T

        alpha = float(0.5*log((1.0-error)/max(error,1e-16)))#计算alpha值，该值与分错率相关，分错率越小，该值越大，弱分类器权重

                                                            #max(error,1e-16)用于确保错误为0时不会发生除0溢出

        bestStump['alpha'] = alpha

        weakClassArr.append(bestStump)  #存储该弱分类

        print "classEst: ",classEst.T

        expon = multiply(-1*alpha*mat(classLabels).T,classEst)

        D = multiply(D,exp(expon))  #重新计算样本权重

        D = D/D.sum() #归一化

        #计算当前强分类器的分错率，达到预期要求即停止

        aggClassEst += alpha*classEst

        print "aggClassEst: ",aggClassEst.T

        aggErrors = multiply(sign(aggClassEst) != mat(classLabels).T,ones((m,1))) #计算数据点哪个是错误

        print 'aggErrors: ',sign(aggClassEst) != mat(classLabels).T

        print 'aggErrors: ',aggErrors

        errorRate = aggErrors.sum()/m #计算错误率

        print "total error: ",errorRate

        if errorRate == 0.0: break

    return weakClassArr

三、运行结果

训练样本：

datMat = matrix([[ 1. , 2.1, 0.3],
                                 [ 2. , 1.1, 0.4],
                                 [ 1.3, 1. , 1.2],
                                 [ 1. , 1. , 1.1],
                       [ 2. , 1. , 1.3],
                       [ 7. , 2. , 0.35]])
    classLabels = [1.0, 1.0, 1.0, -1.0, -1.0, -1.0]

训练得到的强分类器（强分类器分错率：0%，单个弱分类器最小分错率为33%，在上一篇已经测试过）：

[{'dim': 0, 'ineq': 'gt', 'thresh': 1.6000000000000001, 'alpha': 0.34657359027997275},

{'dim': 1, 'ineq': 'lt', 'thresh': 1.0, 'alpha': 0.5493061443340549},

{'dim': 0, 'ineq': 'gt', 'thresh': 2.2000000000000002, 'alpha': 0.5493061443340549},

{'dim': 2, 'ineq': 'gt', 'thresh': 0.29999999999999999, 'alpha': 0.4777557225137181},

{'dim': 0, 'ineq': 'lt', 'thresh': 1.0, 'alpha': 0.49926441505556346}]

手动计算分类：

针对第一个样本[ 1. , 2.1,
0.3]，利用强分类器计算结果如下：
- 0.34657359027997275

- 0.5493061443340549

-
0.5493061443340549

+
0.4777557225137181

+
0.49926441505556346

= -0.468165741378801--->小于0，正样本

针对第六个样本[
7. , 2. , 0.35]，利用强分类器计算结果如下：
+ 0.34657359027997275

- 0.5493061443340549

+
0.5493061443340549

+
0.4777557225137181

-
0.49926441505556346

= +0.3250648977381274--->大于0，负样本

其它样本的计算类似

结论：

强分类器分类，即通过若干个分类器的权重的正负号计算得出，而正负号是通过该若分类器的阈值判断得到；

强分类器比弱分类器准确率高。

【AdaBoost算法】强分类器训练过程的更多相关文章

【AdaBoost算法】弱分类器训练过程
一.加载数据(正样本.负样本特征) def loadSimpData(): #样本特征 datMat = matrix([[ 1. , 2.1, 0.3], [ 2. , 1.1, 0.4], [ 1 ...
SIGAI机器学习第二十一集 AdaBoost算法2
讲授Boosting算法的原理,AdaBoost算法的基本概念,训练算法,与随机森林的比较,训练误差分析,广义加法模型,指数损失函数,训练算法的推导,弱分类器的选择,样本权重削减,实际应用. 大纲: ...
adaboost算法
三 Adaboost 算法 AdaBoost 是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器,即弱分类器,然后把这些弱分类器集合起来,构造一个更强的最终分类器.(很多博客里说的三个臭皮匠 ...
AdaBoost 算法-分析波士顿房价数据集
公号:码农充电站pro 主页:https://codeshellme.github.io 在机器学习算法中,有一种算法叫做集成算法,AdaBoost 算法是集成算法的一种.我们先来看下什么是集成算法. ...
使用 AdaBoost 元算法提高分类器性能
前言有人认为 AdaBoost 是最好的监督学习的方式. 某种程度上因为它是元算法,也就是说它会是几种分类器的组合.这就好比对于一个问题能够咨询多个 "专家" 的意见了. 组合的 ...
第九篇：使用 AdaBoost 元算法提高分类器性能
前言有人认为 AdaBoost 是最好的监督学习的方式. 某种程度上因为它是元算法,也就是说它会是几种分类器的组合.这就好比对于一个问题能够咨询多个 "专家" 的意见了. 组合的 ...
机器学习——提升方法AdaBoost算法，推导过程
0提升的基本方法对于分类的问题,给定一个训练样本集,求比较粗糙的分类规则(弱分类器)要比求精确的分类的分类规则(强分类器)容易的多.提升的方法就是从弱分类器算法出发,反复学习,得到一系列弱分类器(又 ...
基于AdaBoost算法——世纪晟结合Haar-like特征训练人脸检测识别
AdaBoost 算法是一种快速人脸检测算法,它将根据弱学习的反馈,适应性地调整假设的错误率,使在效率不降低的情况下,检测正确率得到了很大的提高. 系统在技术上的三个贡献: 1.用简单的Haa ...
【Adaboost算法】C++转C, 分类器结构设计
一.参考OpenCV的CascadeClassifier类LBPEvaluator类如下,筛选出存放分类器相关信息的成员变量: class CV_EXPORTS_W CascadeClassifie ...

随机推荐

Linux磁盘操作命令
查看本地磁盘使用情况:df或者df -l单位为k 容量便于查看,以1024单位换算为M或者G等:df -h或者df -lh 以1000为单位换算:df -H 显示文件系统类型:df -T 显示指定文件 ...
js-弹出窗口
一.JS最常用三种弹出对话框 1.对话框 //弹出对话框并输出一段提示信息 function ale() { //弹出一个对话框 alert("提示信息!"); } 2.询问框 / ...
SQL 分类统计函数
SELECT TransactionNumber,SUM(CASE WHEN ReasonLevel=0 THEN TransactionNumber ELSE 0 end ) a ...
jQuery源码分析之=>jQuery的定义
最近写前段的代码比较多,jQuery是用的最多的一个对象,但是之前几次看了源码,都没搞清楚jQuery是怎么定义的,今天终于看明白怎么回事了.记录下来,算是一个新的开始吧. (文中源码都是jQuery ...
Gradle学习系列之三——读懂Gradle语法
在本系列的上篇文章中,我们讲到了创建Task的多种方法,在本篇文章中,我们将学习如何读懂Gradle. 请通过以下方式下载本系列文章的Github示例代码: git clone https://git ...
C#写文本日志帮助类(支持多线程)
代码: using System; using System.Configuration; using System.IO; using System.Threading.Tasks; namespa ...
sphinx使用小记之使用小结
sphinx使用小记之使用小结摘自:http://www.68idc.cn/help/jiabenmake/qita/20150124187789.html 在使用sphinx的过程中有出现一些问题 ...
MySQL架构
一．MySQL逻辑架构第一层,即最上一层,所包含的服务并不是MySQL所独有的技术.它们都是服务于C/S程序或者是这些程序所需要的 :连接处理,身份验证,安全性等等. ...
android dp
http://www.see-say.com/viewnews-47657.html http://cn.club.vmall.com/thread-970026-1-1.html http://ww ...
jsp中自定义Taglib案例
一.使用TagSupport类案例解析 1.自定义Tag使用jdbc连接mysql数据库 1.1定义标签处理器类 package com.able.tag; import java.sql.Conne ...

【AdaBoost算法】强分类器训练过程

一、强分类器训练过程

二、代码实现及说明（python）

三、运行结果

【AdaBoost算法】强分类器训练过程的更多相关文章

随机推荐

热门专题