机器学习相关知识整理系列之二:Bagging及随机森林
1. Bagging的策略
- 从样本集中重采样(有放回)选出\(n\)个样本,定义子样本集为\(D\);
- 基于子样本集\(D\),所有属性上建立分类器,(ID3,C4.5,CART,SVM等);
- 重复以上步骤\(m\)步,即获得了\(m\)个分类器;
- 最后根据这\(m\)个分类器进行投票,决定输入样本属于哪一类。
2. 随机森林
随机森林在Bagging基础上做了修改:
- 从样本中重复自抽样(Bootstrap)选出\(n\)个样本,定义子样本集为\(D\);
- 基于样本集\(D\),从所有属性中随机选择K个属性(特征),选择最佳分割属性作为结点建立CART决策树;
- 这\(m\)个CART组成一个随机森林,通过投票表决结果,决定输入样本属于哪一类。
3. 随机森林/Bagging和决策树关系
- 可以使用决策树作为基本分类器
- 也可以使用SVM、Logistics回归等分类器,由这些分类器组成的"总分类器",也叫随机森林
4. 投票机制
4.1 简单投票机制
- 一票否决
- 少数服从多数(有效多数,加权)
阈值表决
4.2 投票机制举例
- 假定有N个用户可以为X个电影投票(假定投票者不能给同一电影重复投票),投票有1,2,3,4,5星共五档。
- 根据用户投票对电影进行排序,本质任然为分类问题,对于某个电影,有N个决策树进行分类(1,2,3,4,5类)
投票方案:\[WR = \frac{v}{v+m}R + \frac{m}{v+m}C\] - \(WR\):加权得分;
- \(R\):该电影的用户投票的平均得分
- \(C\):所有电影的平均得分
- \(v\):该电影的投票人数
\(m\):排名前250名电影的最低投票数
5. 样本不均衡的常用处理方法
假定样本数目A类比B类多,且严重不平衡:
- A类欠采样
- 随机欠采样
- A类分成若干子集,分别与B类进入ML模型
- 基于聚类的A类分割
- B类过采样
- 避免欠采样造成的信息丢失
- B类数据合成
- 随机插值得到新样本
- 代价敏感学习
- 降低A类权值,提高B类权值
6. 随机森林总结
- 在数据集上表现良好
- 在对缺失数据进行估计时,随机森林是一个十分有效的方法。就算存在大量的数据缺失,随机森林也能较好地保持精确性;
- 随机森林算法能解决分类与回归两种类型
- 能够处理很高维度的数据,并且不用做特征选择
- 容易做成并行化方法
- 在训练完后,它能够给出哪些特征比较重要
- 随机森林的集成思想也可以用在其他分类器的设计中
- 随机森林在解决回归问题时没有在分类中表现的好,因为它并不能给出一个连续型的输出。当进行回归时,随机森林不能够作出超越训练集数据范围的预测,这可能导致在对某些还有特定噪声的数据进行建模时出现过度拟合。
机器学习相关知识整理系列之二:Bagging及随机森林的更多相关文章
- 机器学习相关知识整理系列之三:Boosting算法原理,GBDT&XGBoost
1. Boosting算法基本思路 提升方法思路:对于一个复杂的问题,将多个专家的判断进行适当的综合所得出的判断,要比任何一个专家单独判断好.每一步产生一个弱预测模型(如决策树),并加权累加到总模型中 ...
- 机器学习相关知识整理系列之一:决策树算法原理及剪枝(ID3,C4.5,CART)
决策树是一种基本的分类与回归方法.分类决策树是一种描述对实例进行分类的树形结构,决策树由结点和有向边组成.结点由两种类型,内部结点表示一个特征或属性,叶结点表示一个类. 1. 基础知识 熵 在信息学和 ...
- Hadoop相关知识整理系列之一:HBase基本架构及原理
1. HBase框架简单介绍 HBase是一个分布式的.面向列的开源数据库,它不同于一般的关系数据库,是一个适合于非结构化数据存储的数据库.另一个不同的是HBase基于列的而不是基于行的模式.HBas ...
- Redis相关知识整理
Redis相关知识整理 1. Redis和MySQL的区别?a).mysql是关系型数据库,而redis是NOSQL,非关系型数据库.mysql将数据持久化到硬盘,读取数据慢,而redis数据先存储在 ...
- 机器学习总结(二)bagging与随机森林
一:Bagging与随机森林 与Boosting族算法不同的是,Bagging和随机森林的个体学习器之间不存在强的依赖关系,可同时生成并行化的方法. Bagging算法 bagging的算法过程如下: ...
- 机器学习回顾篇(12):集成学习之Bagging与随机森林
.caret, .dropup > .btn > .caret { border-top-color: #000 !important; } .label { border: 1px so ...
- 机器学习 —— 决策树及其集成算法(Bagging、随机森林、Boosting)
本文为senlie原创,转载请保留此地址:http://www.cnblogs.com/senlie/ 决策树--------------------------------------------- ...
- Bagging之随机森林
随机森林(Random Forest)是一种Bagging(Bootstrap Aggregating)集成算法,在样本随机(样本扰动)的基础上,进一步运用特征随机(属性扰动)的机制,得到比一般的Ba ...
- Bagging与随机森林算法原理小结
在集成学习原理小结中,我们讲到了集成学习有两个流派,一个是boosting派系,它的特点是各个弱学习器之间有依赖关系.另一种是bagging流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合. ...
随机推荐
- 集合映射Set(使用xml文件)
如果持久类具有Set对象,可以在映射文件中使用set元素映射Set集合. set元素不需要索引元素. List和Set之间的区别是: Set只存储唯一的值. 我们来看看我们如何在映射文件中实现集合: ...
- Android项目页面跳转小Demo
近期在做Android项目的开发,刚刚接触会有非常多新东西须要学习,从环境的搭建到语言的熟悉都是须要一步步完毕的,接下来就拿一个页面跳转的样例来和大家分享一下自己的心得体会. 採用的架构: Demo中 ...
- 关于Linq to Sql 中的left join 中defaultifempty的相关注意事项
在使用Linq to Sql的时候,进行两个表的左连接的时候要注意defaultifempty的使用,这个函数本来的意思即是:如果为空则使用默认值代替,默认值为 NULL ,当然也可以使用defaul ...
- iOS 集成阿里百川最新版(3.1.1.96) 实现淘宝授权登录以及调用淘宝客户端商品详情页
公司最近要做第三方登录,由于是做导购项目,必不可少的有淘宝的授权登录.本来就是一个授权登录,没什么大不了的.但淘宝的无线开放业务——阿里百川更新的最新版本3.1.1.96,开发文档不是不详细,是很 ...
- windows下sshfs挂载远程文件夹-server could not connect故障解决
使用sshfs挂载server上面的文件夹到windows中.轻松方便. 在之前的系统上挂载.没出问题. 近期买了块固态硬盘.装了个系统. 结果在系统上执行sshfs时报例如以下错误: 事实上非常ea ...
- Activity四种启动方式
Activity启动方式有四种,分别是: standardsingleTopsingleTasksingleInstance 可以根据实际的需求为Activity设置对应的启动模式,从而可以避免创建大 ...
- python系列三:python3运算符
'''python 没有自增运算符python 中,变量是以内容为基准而不是像 c 中以变量名为基准,所以只要你的数字内容是5,不管你起什么名字,这个变量的 ID 是相同的,同时也就说明了 pytho ...
- 0x08 MySQL 超详细-索引原理&慢查询优化【转-多图】(重点)
Content From——Egon's Blog http://www.cnblogs.com/linhaifeng/articles/7274563.html#top 0x01 介绍 为何要有索引 ...
- Linux CentOS使用yum安装Docker
Docker支持以下的CentOS版本: 目前,CentOS仅发行版本中的内核支持Docker. Docker运行在CentOS7上,要求系统为64位.系统内核版本为3.10以上. Docker运行在 ...
- 随机生成六位验证码函数版(python)
import random def code(n=6,alpha=True): s = '' # 创建字符串变量,存储生成的验证码 for i in range(n): # 通过for循环控制验证码位 ...