使用机器学习方法解决问题时，有较多模型可供选择。一般的思路是先根据数据的特点，快速尝试某种模型，选定某种模型后，再进行模型参数的选择（当然时间允许的话，可以对模型和参数进行双向选择）

　　因为不同的模型具有不同的特点，所以有时也会将多个模型进行组合，以发挥"三个臭皮匠顶一个诸葛亮的作用"，这样的思路，反应在模型中，主要有两种思路：Bagging和Boosting

1. Bagging

　　Bagging 可以看成是一种圆桌会议，或是投票选举的形式，其中的思想是："群众的眼光是雪亮的"，可以训练多个模型，之后将这些模型进行加权组合，一般这类方法的效果，都会好于单个模型的效果。在实践中，在特征一定的情况下，大家总是使用Bagging的思想去提升效果。例如kaggle上的问题解决，因为大家获得的数据都是一样的，特别是有些数据已经过预处理。

　　以下为Data Mining Concepts and Techniques 2nd 中的伪代码

　　基本的思路比较简单，就是：训练时，使用replacement的sampling方法， sampling一部分训练数据k次并训练k个模型；预测时，使用k个模型，如果为分类，则让k个模型均进行分类并选择出现次数最多的类(每个类出现的次数占比可以视为置信度)；如为回归，则为各类器返回的结果的平均值。

　　在该处，Bagging算法可以认为每个分类器的权重都一样。

2. Boosting

　　在Bagging方法中，我们假设每个训练样本的权重都是一致的；而Boosting算法则更加关注错分的样本，越是容易错分的样本，约要花更多精力去关注。对应到数据中，就是该数据对模型的权重越大，后续的模型就越要拼命将这些经常分错的样本分正确。最后训练出来的模型也有不同权重，所以boosting更像是会整，级别高，权威的医师的话语权就重些。

　　以下为Data Mining Concepts and Techniques 2nd 中adaboost伪代码：

　　训练：先初始化每个训练样本的权重相等为1/d，d为样本数量；之后每次使用一部分训练样本去训练弱分类器，且只保留错误率小于0.5的弱分类器，对于分对的训练样本，将其权重调整为 error(Mi)/(1-error(Mi)) ，其中error(Mi)为第i个弱分类器的错误率（降低正确分类的样本的权重，相当于增加分错样本的权重）；

　　测试：每个弱分类器均给出自己的预测结果，且弱分类器的权重为log(1-error(Mi))/error(Mi) ) 权重最高的类别，即为最终预测结果。

　　在adaboost中，弱分类器的个数的设计可以有多种方式，例如最简单的就是使用一维特征的树作为弱分类器。

　　adaboost在一定弱分类器数量控制下，速度较快，且效果还不错。

　　我们在实际应用中使用adaboost对输入关键词和推荐候选关键词进行相关性判断。随着新的模型方法的出现， adaboost效果已经稍显逊色，我们在同一数据集下，实验了GBDT和adaboost，在保证召回基本不变的情况下，简单调参后的Random Forest准确率居然比adaboost高5个点以上，效果令人吃惊。。。。

　　Bagging和Boosting都可以视为比较传统的集成学习思路。现在常用的Random Forest，GBDT，GBRank其实都是更加精细化，效果更好的方法。后续会有更加详细的内容专门介绍。

　　具体adaboost在百度关键词搜索推荐中的应用参见：《分类模型在关键词推荐系统中的应用》

3. 参考内容

　　[1] Dustinsea

　　[2] Data Mining Concepts and Techniques 2nd

　　[3] Soft Margin for Adaboost

　　[4] 一个版本的adaboost实现

[Mechine Learning & Algorithm] 集成学习方法——Bagging和 Boosting的更多相关文章

[机器学习]集成学习--bagging、boosting、stacking
集成学习简介集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务. 如何产生"好而不同"的个体学习器,是集成学习研究的核心. 集成学习的思路是通过 ...
集成学习---bagging and boosting
作为集成学习的二个方法,其实bagging和boosting的实现比较容易理解,但是理论证明比较费力.下面首先介绍这两种方法. 所谓的集成学习,就是用多重或多个弱分类器结合为一个强分类器,从而达到提升 ...
机器学习基础—集成学习Bagging 和 Boosting
集成学习就是不断的通过数据子集形成新的规则,然后将这些规则合并.bagging和boosting都属于集成学习.集成学习的核心思想是通过训练形成多个分类器,然后将这些分类器进行组合. 所以归结为(1 ...
机器学习——集成学习(Bagging、Boosting、Stacking)
1 前言集成学习的思想是将若干个学习器(分类器&回归器)组合之后产生一个新学习器.弱分类器(weak learner)指那些分类准确率只稍微好于随机猜测的分类器(errorrate < ...
集成学习算法汇总----Boosting和Bagging（推荐AAA）
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...
【Supervised Learning】集成学习Ensemble Learning & Boosting 算法（python实现）
零. Introduction 1.learn over a subset of data choose the subset uniformally randomly (均匀随机地选择子集) app ...
集成学习算法总结----Boosting和Bagging（转）
1.集成学习概述 1.1 集成学习概述集成学习在机器学习算法中具有较高的准去率,不足之处就是模型的训练过程可能比较复杂,效率不是很高.目前接触较多的集成学习主要有2种:基于Boosting的和基于B ...
集成学习的不二法门bagging、boosting和三大法宝<结合策略>平均法，投票法和学习法（stacking）
单个学习器要么容易欠拟合要么容易过拟合,为了获得泛化性能优良的学习器,可以训练多个个体学习器,通过一定的结合策略,最终形成一个强学习器.这种集成多个个体学习器的方法称为集成学习(ensemble le ...
常用的模型集成方法介绍：bagging、boosting 、stacking
本文介绍了集成学习的各种概念,并给出了一些必要的关键信息,以便读者能很好地理解和使用相关方法,并且能够在有需要的时候设计出合适的解决方案. 本文将讨论一些众所周知的概念,如自助法.自助聚合(baggi ...

随机推荐

FineReport中Domino数据库连接方法
1. 概述 Domino是文档型数据库而非关系型数据库,连接Domino可以使用JDBC方式或者ODBC方式,使用JDBC方式需要安装Lotus Domino Driver for JDBC并且此方法 ...
postman使用之三：API请求和查看响应结果
请求 postman支持很多请求类型,界面左侧可以看到请求类型:get.post.put.patch等,右侧是发送和保存按钮,下方是请求支持的认证方式.信息头.信息体.私有脚本和测试结果.下面我们介绍 ...
LeetCode Single Number I / II / III
[1]LeetCode 136 Single Number 题意:奇数个数,其中除了一个数只出现一次外,其他数都是成对出现,比如1,2,2,3,3...,求出该单个数. 解法:容易想到异或的性质,两个 ...
CF733D Kostya the Sculptor[贪心排序]
D. Kostya the Sculptor time limit per test 3 seconds memory limit per test 256 megabytes input stand ...
HOLOLENS不适合加天空盒
加了就有点像VR了,但是视野太窄,所以还是去掉天空盒吧
python高级之操作数据库
python高级之操作数据库本节内容 pymysql介绍及安装使用pymysql执行sql 获取新建数据自增ID fetch数据类型设置 1.pymysql介绍及安装在python2中连接数据库 ...
JavaScript数组：增删改查、排序等
直接上代码 // 数组应用 var peoples = ["Jack","Tom","William","Tod",&q ...
ORA-04091: table is mutating, trigger/function may not see it
今天在论坛里发现了一个关于ORA-04091的老帖子,收获良多,特此整理一下关于ORA-04091: table is mutating, trigger/function may not see ...
20145233 2016-2017 1 linux题目总结
20145233 2016-2017 1 linux题目总结第一周考试知识汇总判断:实验楼环境中所有的默认系统用户名和密码均为 shiyanlou.(x ). 填空:Linux Bash中,Ctr ...
ssh中org.springframework.orm.hibernate4.support.OpenSessionInViewFilter的作用及配置
org.springframework.orm.hibernate4.support.OpenSessionInViewFilter 是Spring为我们解决Hibernate的Session的关闭 ...

[Mechine Learning & Algorithm] 集成学习方法——Bagging和 Boosting