当我们有针对同一数据集有多个不同的分类器模型时,怎样组合它们使预测分类的结果更加准确,

针对这种情况,机器学习通常两种策略。

1 一种是bagging,一种是boosting

    • bagging:随机对样本重采样,采得N个数据集(数据集可能有交叉),对每个数据集进行训练,可以使用相同分类器也可以使用不同分类器,

这样我们就得到N个分类器,当对新样本进行预测时,这N个分类器同时预测,对同一样本得到N个预测结果,进行投票表决(实际应用中,每个

分类器可以有不同的权重,可以人为设定也可以根据训练结果)。代表是随机森林算法。

特点:各个分类器独立训练,是并行的结果。

    • boosting:与bagging不同,boosting是串行的,各个分类器的训练是迭代进行,第k-1次的迭代会对第k次训练优化目标造成影响,具体来

讲,每次迭代调整的是样本的权重,而每次预测结果的评价指标决定了该分类器的权重。最后通过各个分类器的加权和表决。下面详细介绍最流

行的一个版本AdaBoost.

2详解AdaBoost

2.1在理解AdaBoost之前需要准备好如下三个东西:

      • 第一个:弱分类器模型

输入:X,Y,样本初始权重矩阵(均值填充1/m)(m个样本)D0

输出:判断指标(错误率),预测结果Xp0

      • 第二个:分类器的权重计算。

分类器的权重与我们侧重的指标有关即在训练分类器时的评价指标有关。评价指标越好分类器权重越大。

其计算公式如下:

其中指的错误率,通常大于0.5(样本比例平均,比随机预测强)α是一个大于0.5的值,越小,权重越大。

      • 第三个:样本权重调整策略和意义。

样本权重的迭代原则:上一次样本的错分样本的权重增加。具体办法,样本权重的调整与分类器的权重有关。

样本权重的迭代策略:

正分样本的权重调整,变小了。

        

     错分样本的权重调整,变大了

样本权重调整影响的是下一次迭代训练模型的从而影响下一次的训练,具体来说对于错误率的计算:

不再是累加错分样本/总样本,而是每个错分样本乘以权重/总样本

2.2AdaBoost训练过程

输入:迭代次数,累计错误率终止条件

输出:弱分类器数组,每一项是,弱分类器训练参数,弱分类器的权重

算法流程

设置分类器数组weekClassArr(存储每次迭代的弱分类器参数)

for 每次迭代i:

    • 训练一次弱分类器Modeli,得到分类器的错误率和预测结果。
    • 根据上述公式,计算弱分类器的权重。
    • 计算累计错误率而不是单次的错误率,如果累计错误率小于设定值即结束循环。

解释累计错误率:

将第i次的预测结果和前i-1次的预测结果加权,并利用sign()函数将结果化为-1和1,将这个作为adaboost的错误率

    • 根据预测结果和分类器权重,利用上面提到的样本权重公式,计算新Di+1。

注:sign函数:由于加权累加结果是浮点数,sign()会将加权结果变为离散-1和1.

2.3使用Adaboost:

利用弱分类器数组中的每个分类器分别预测,将预测结果按照分类器对应的权重加权即可

十大算法---Adaboost的更多相关文章

  1. 机器学习十大算法之KNN(K最近邻,k-NearestNeighbor)算法

    机器学习十大算法之KNN算法 前段时间一直在搞tkinter,机器学习荒废了一阵子.如今想重新写一个,发现遇到不少问题,不过最终还是解决了.希望与大家共同进步. 闲话少说,进入正题. KNN算法也称最 ...

  2. 机器学习十大算法 之 kNN(一)

    机器学习十大算法 之 kNN(一) 最近在学习机器学习领域的十大经典算法,先从kNN开始吧. 简介 kNN是一种有监督学习方法,它的思想很简单,对于一个未分类的样本来说,通过距离它最近的k个" ...

  3. 十大算法 pagerank 傅里叶变换

    来源于最近阅读的一些链接 首先是介绍十大算法的 http://blog.jobbole.com/70639/ 然后是pageRank算法 http://blog.jobbole.com/23286/ ...

  4. 【十大算法实现之KNN】KNN算法实例(含测试数据和源码)

    KNN算法基本的思路是比较好理解的,今天根据它的特点写了一个实例,我会把所有的数据和代码都写在下面供大家参考,不足之处,请指正.谢谢! update:工程代码全部在本页面中,测试数据已丢失,建议去UC ...

  5. CSDN总结的面试中的十大算法

    1.String/Array/Matrix 在Java中,String是一个包含char数组和其它字段.方法的类.如果没有IDE自动完成代码,下面这个方法大家应该记住: toCharArray() / ...

  6. 数据挖掘十大算法--K-均值聚类算法

    一.相异度计算  在正式讨论聚类前,我们要先弄清楚一个问题:怎样定量计算两个可比較元素间的相异度.用通俗的话说.相异度就是两个东西区别有多大.比如人类与章鱼的相异度明显大于人类与黑猩猩的相异度,这是能 ...

  7. 【十大算法实现之naive bayes】朴素贝叶斯算法之文本分类算法的理解与实现

    关于bayes的基础知识,请参考: 基于朴素贝叶斯分类器的文本聚类算法 (上) http://www.cnblogs.com/phinecos/archive/2008/10/21/1315948.h ...

  8. 机器学习十大算法总览(含Python3.X和R语言代码)

    引言 一监督学习 二无监督学习 三强化学习 四通用机器学习算法列表 线性回归Linear Regression 逻辑回归Logistic Regression 决策树Decision Tree 支持向 ...

  9. 机器学习十大算法之EM算法

    此文已由作者赵斌授权网易云社区发布. 欢迎访问网易云社区,了解更多网易技术产品运营经验. 由于目前论坛的Markdown不支持Mathjax,数学公式没法正常识别,文章只能用截图上传了...     ...

随机推荐

  1. IP分片和TCP分片 MTU和MSS(转)

    IP分片和TCP分片 MTU和MSS(转) 访问原文:http://blog.csdn.net/keyouan2008/article/details/5843388 1,MTU(Maximum Tr ...

  2. poj2752 bzoj3670

    2752这是一道关于next函数的题(其实好像也可以用后缀数组暴力搞搞,但大概会超时)根据next[i]=max{j} (s[0..j]=s[i-j..i] j<i)不难发现这正是某个串既是前缀 ...

  3. 大型系统OA--技术

    OA办公自动化系统--技术 1.由于涉及企业的流程控制与规则管理.所以系统对于规范要求的严谨性,导致在小型开发组在进行开发时必须基于成熟的技术架构.开源的lemon OA,采用了如下技术细节: mys ...

  4. Android应用连接代理服务器状况监测解决

    最近项目里面有这样一个需求,由于项目涉密需要连接VPN通过网址映射去登录内部服务器,而且要通知客户vpn的连接状态.网上有许多类似的连接VPN的解决方案,我也尝试了很多种,下面先列出一种比较靠谱的方式 ...

  5. 博弈论(二分图匹配):NOI 2011 兔兔与蛋蛋游戏

    Description Input 输入的第一行包含两个正整数 n.m. 接下来 n行描述初始棋盘.其中第i 行包含 m个字符,每个字符都是大写英文字母"X".大写英文字母&quo ...

  6. Unity3d 超级采样抗锯齿 Super Sampling Anti-Aliasing

    Super Sampling Anti-AliasingSSAA算是在众多抗锯齿算法中比较昂贵的一种了,年代也比较久远,但是方法比较简单,主要概括为两步1.    查找边缘2.    模糊边缘这是一种 ...

  7. [QT]构建正则表达式测试

    正则表达式是个强大的东西 暂时先记录一个用法: QString str = "Peak memory: KEY s"; QString data = "Peak memo ...

  8. mac上的键盘生活——打字训练

    我的打字真的很有问题,错误率实在是太高了,于是乎下定决心改掉打字习惯,起码为了对得起我的机械键盘   所谓双击键(shift)就是当一个键钮上有两个字符时的辅助选择键,像标注在数字1上的 !,就是在你 ...

  9. Linux查看系统资源占用

    Linux查看系统资源占用 在系统维护的过程中,随时可能有需要查看 CPU和内存的使用率,并根据相应信息分析系统状况的需求.本文介绍一下几种常见的Linux系统资源查看命令. 1.总体内存占用的查看 ...

  10. iOS开发总结-图片左右滑动浏览

    // // PicViewController.m // BJ // // Created by shirenfeng on 16/9/13. // Copyright © 2016年 com.zyb ...