机器学习相关知识整理系列之二：Bagging及随机森林

1. Bagging的策略

从样本集中重采样（有放回）选出\(n\)个样本，定义子样本集为\(D\)；
基于子样本集\(D\)，所有属性上建立分类器，（ID3，C4.5，CART，SVM等）；
重复以上步骤\(m\)步，即获得了\(m\)个分类器；
最后根据这\(m\)个分类器进行投票，决定输入样本属于哪一类。

2. 随机森林

随机森林在Bagging基础上做了修改：

从样本中重复自抽样（Bootstrap）选出\(n\)个样本，定义子样本集为\(D\)；
基于样本集\(D\)，从所有属性中随机选择K个属性（特征），选择最佳分割属性作为结点建立CART决策树；
这\(m\)个CART组成一个随机森林，通过投票表决结果，决定输入样本属于哪一类。

3. 随机森林/Bagging和决策树关系

可以使用决策树作为基本分类器
也可以使用SVM、Logistics回归等分类器，由这些分类器组成的"总分类器"，也叫随机森林

4. 投票机制

4.1 简单投票机制

一票否决
少数服从多数（有效多数，加权）
阈值表决

4.2 投票机制举例
假定有N个用户可以为X个电影投票（假定投票者不能给同一电影重复投票），投票有1,2,3,4,5星共五档。
根据用户投票对电影进行排序，本质任然为分类问题，对于某个电影，有N个决策树进行分类（1,2,3,4,5类）
投票方案：\[WR = \frac{v}{v+m}R + \frac{m}{v+m}C\]
\(WR\)：加权得分;
\(R\)：该电影的用户投票的平均得分
\(C\)：所有电影的平均得分
\(v\)：该电影的投票人数
\(m\)：排名前250名电影的最低投票数

5. 样本不均衡的常用处理方法

假定样本数目A类比B类多，且严重不平衡：

A类欠采样
- 随机欠采样
- A类分成若干子集，分别与B类进入ML模型
- 基于聚类的A类分割
B类过采样
- 避免欠采样造成的信息丢失
B类数据合成
- 随机插值得到新样本
代价敏感学习
- 降低A类权值，提高B类权值

6. 随机森林总结

在数据集上表现良好
在对缺失数据进行估计时，随机森林是一个十分有效的方法。就算存在大量的数据缺失，随机森林也能较好地保持精确性；
随机森林算法能解决分类与回归两种类型
能够处理很高维度的数据，并且不用做特征选择
容易做成并行化方法
在训练完后，它能够给出哪些特征比较重要
随机森林的集成思想也可以用在其他分类器的设计中
随机森林在解决回归问题时没有在分类中表现的好，因为它并不能给出一个连续型的输出。当进行回归时，随机森林不能够作出超越训练集数据范围的预测，这可能导致在对某些还有特定噪声的数据进行建模时出现过度拟合。

机器学习相关知识整理系列之二：Bagging及随机森林的更多相关文章

机器学习相关知识整理系列之三：Boosting算法原理，GBDT&XGBoost
1. Boosting算法基本思路提升方法思路:对于一个复杂的问题,将多个专家的判断进行适当的综合所得出的判断,要比任何一个专家单独判断好.每一步产生一个弱预测模型(如决策树),并加权累加到总模型中 ...
机器学习相关知识整理系列之一：决策树算法原理及剪枝（ID3,C4.5,CART）
决策树是一种基本的分类与回归方法.分类决策树是一种描述对实例进行分类的树形结构,决策树由结点和有向边组成.结点由两种类型,内部结点表示一个特征或属性,叶结点表示一个类. 1. 基础知识熵在信息学和 ...
Hadoop相关知识整理系列之一：HBase基本架构及原理
1. HBase框架简单介绍 HBase是一个分布式的.面向列的开源数据库,它不同于一般的关系数据库,是一个适合于非结构化数据存储的数据库.另一个不同的是HBase基于列的而不是基于行的模式.HBas ...
Redis相关知识整理
Redis相关知识整理 1. Redis和MySQL的区别?a).mysql是关系型数据库,而redis是NOSQL,非关系型数据库.mysql将数据持久化到硬盘,读取数据慢,而redis数据先存储在 ...
机器学习总结（二）bagging与随机森林
一:Bagging与随机森林与Boosting族算法不同的是,Bagging和随机森林的个体学习器之间不存在强的依赖关系,可同时生成并行化的方法. Bagging算法 bagging的算法过程如下: ...
机器学习回顾篇（12）：集成学习之Bagging与随机森林
.caret, .dropup > .btn > .caret { border-top-color: #000 !important; } .label { border: 1px so ...
机器学习 —— 决策树及其集成算法(Bagging、随机森林、Boosting)
本文为senlie原创,转载请保留此地址:http://www.cnblogs.com/senlie/ 决策树--------------------------------------------- ...
Bagging之随机森林
随机森林(Random Forest)是一种Bagging(Bootstrap Aggregating)集成算法,在样本随机(样本扰动)的基础上,进一步运用特征随机(属性扰动)的机制,得到比一般的Ba ...
Bagging与随机森林算法原理小结
在集成学习原理小结中,我们讲到了集成学习有两个流派,一个是boosting派系,它的特点是各个弱学习器之间有依赖关系.另一种是bagging流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合. ...

随机推荐

servlet部署到tomcat中
引用:http://blog.csdn.net/shuidao/article/details/1738059 配置,部署 servlet: 1. 在tomcat的安装目录下找到webapps 文件 ...
Uncaught Error: artDialog: Document types require more than xhtml1.0
这需要声明html文档,加上如下声明就不会报错了! <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" ...
java中InputStream转化为byte[]数组
//org.apache.commons.io.IOUtils.toByteArray已经有实现 String filePath = "D:\\aaa.txt"; in = new ...
ios 制作自已的framework
本文转载至 http://blog.csdn.net/chen505358119/article/details/9190731 ios中我们写的代码有时不愿意让别人看到,可能对它进行封装,生成一 ...
PHP实现对短信验证码发送次数的限制（防机刷验证码）
PHP实现对短信验证码发送限制(防止机刷验证码) 对用户获取短信验证码的手机号.ip.和浏览器(使用唯一标识)进行限制.本文介绍的方法是对用户每天只能通过同一浏览器或同一ip地址获取验证码10次或者同 ...
EasyNVR摄像机无插件流媒体服务器对所在操作系统配置的需求
背景需求随着EasyNVR使用的用户越来越多,用户在使用过程中的常见问题我们也做出了一定的总结,以及在升级到3.0版本之后,我们的启动方式和配置功能也有了一些改变.因此在此做出一些总结. 对于Ea ...
linux环境配置nginx导致页面不刷新
在linux环境下,配置了nginx负载均衡,由于可能在虚拟主机的配置文件nginx.conf中,对缓存机制未配置成功,导致页面不刷新,仍然显示缓存中的内容. 最后通过注释nginx.conf文件中的 ...
pythpn的zip函数
zip可接受多个序列作为参数,返回一个tuple列表. 例1:没有参数 >>> b = zip() >>> print b [] 例2:一个参数 >>& ...
介绍一下except的用法和作用？
Python的except用来捕获所有异常,因为Python里面的每次错误都会抛出一个异常,所以每个程序的错误都被当作一个运行时错误.
Python利用subprocess起进程
from multiprocessing import Process, Pool import time import subprocess def task(msg): print 'hello, ...

机器学习相关知识整理系列之二：Bagging及随机森林

1. Bagging的策略

2. 随机森林

3. 随机森林/Bagging和决策树关系

4. 投票机制

4.1 简单投票机制

4.2 投票机制举例

5. 样本不均衡的常用处理方法

6. 随机森林总结

机器学习相关知识整理系列之二：Bagging及随机森林的更多相关文章

随机推荐

热门专题