Spark随机森林实现学习

前言

最近阅读了spark mllib（版本：spark 1.3）中Random Forest的实现，发现在分布式的数据结构上实现迭代算法时，有些地方与单机环境不一样。单机上一些直观的操作（递归），在分布式数据上，必须进行优化，否则I/O（网络，磁盘）会消耗大量时间。本文整理spark随机森林实现中的相关技巧，方便后面回顾。

随机森林算法概要

随机森林算法的详细实现和细节，可以参考论文Breiman 2001。这里简单说说大体思路，方便理解代码。

随机森林是一个组装（ensemble model）模型，内部的模型使用决策树。基本思想是生成很多很多决策树（构成森林），最后由这些决策数一起投票决定最终结果。生成树的过程中，从行和列两个方向添加随机过程。行方向，在构建每棵树前，使用有放回抽样（称为Bootstrapping），得到训练数据。列方向，每次选择切分点时，对feature进行无放回随机抽样，得到一个feature子集，在当前节点上，只使用这些子集对应的数据计算最优切分点。这也是为什么此算法称为随机森林，是不是很直观。相比于单一决策树，随机森林有以下一些优点：

结果比较稳定，不容易出现过拟合；
Out-Of-Bag error评估模型效果，无需交叉检验；
可得到feature重要性。

当然，为了得到上面的优点，必须付出计算开销作为代价。在单机时代，使用随机森林（R或scikit-learn）往往成本很高，但是现在有了spark，使得大规模，分布式迭代计算成为了可能，所以在spark上运用随机森林是技术发展的必然结果！

Spark实现优化

spark在实现随机森林时，采用了下面几个优化策略：

切分点抽样
feature装箱（bin）
分区统计
逐层计算（level-wise）

使用这些策略，原因在于RDD的数据时分布在不同服务器上，为了避免过多的I/O，必须在原始算法上做出一些优化，否则执行时间可能难以接受。下面分别详细讨论这三个优化策略。

切分点抽样

此优化主要针对连续变量。先回忆一下一般的决策树是如何对连续变量进行切分点选择的。一般是先对feature进行排序，然后选取相邻两个数据之间的点作为切分点。如果在RDD上执行这个操作，不可避免会使用shuffle过程，此过程会带来大量的网络通讯。而且，一般RDD上的数据都很大，少则几百万，多则几亿到几十亿，甚至更多。在这样的数量级上进行排序操作，想想也是醉了。所以，为了避免排序操作，mllib通过抽样的方法，在样本上进行排序，并且根据样本，获取切分点。据spark团队反馈，使用此策略虽然牺牲了部分精度，但是在实际运用过程中，并没有带来过多的影响，模型效果可以接受。

feature装箱

根据抽样，得到切分点后，接下来是对feature进行装箱操作，箱子就是由相邻的样本切分点构成。箱子的个数是非常小的，一般实际中采用30个左右。计算每个箱子中不同种类的占比，可以很快计算出最优切分点。

举个例子，参考上面的示例数据，第一行是每个切分点的比例统计。基于上面的数据，可能生成3中切分情况，分别有棕，红和绿色三行表示。如果需要计算棕色的切分情况，只需要按照第一行的组合方式，就可以很快的计算所出来。

分区统计

RDD分区中装箱数据单独统计后，可以通过reduce将每个分区的数据合并，得到总体的装箱数据（通过mapPartition实现分区统计）。正是由于装箱统计数据可以合并，所以可以很好的适应分布式数据环境，最后需要合并的数据也只是一些统计数据，不会带来很大的网络通讯开销。

逐层计算

单机版本的决策数生成过程是通过递归调用（本质上是深度优先）的方式构造树，在构造树的同事，需要移动数据，将同一个子节点的数据移动到一起。此方法在分布式数据结构上无法有效的执行，而且也无法执行，因为数据太大，无法放在一起，所以在分布式存储。mlib采用的策略是逐层构建树节点（本质上是广度优先），这样遍历所有数据的次数等于所有树的最大层数。每次遍历时，只需要计算每个节点所有feature的装箱统计参数，遍历完后，根据节点装箱统计量，决定是否切分，以及如何切分。

以上就是spark mllib实现的随机森林的关键技巧。当然还有很多实现细节这里没有描述，不过如果理解了这些技巧，对阅读spark mllib随机森林源代码会有很大帮助，希望对读者有用。

Spark Random Forest实现的不足

截止到spark 1.3，mllib的随机森林仍然不支持OOB error和variable importance的支持，也有一些网友在spark社区咨询此问题，但是目前没有得到官方的回应。希望后面，spark可以支持此特性。

应用案例

目前，在网络游戏流失预测的场景下，使用spark随机森林模型（1000棵树）和单机c50模型做了对比试验。试验中覆盖5款不同类型的游戏，共执行608轮，试验周期跨度为4个月。采用了相同的数据，由于单机数据量计算限制，C50使用了10%的采样建模，而spark使用了全量数据（计算能力秒杀）。试验结果是随机森林的模型效果明显优于C50。F1值有37%的提升，而F2（召回率优先）提升度高达72%。

提升可能的原因有两个：

1 随机森林模型效果确实优于C50

2 随机森林建模数据量有质的飞跃，导致性能提升

参考资料

随机森林作者论文
Spark源代码
Spark峰会关于分布式决策树实现的分享

Spark随机森林实现学习的更多相关文章

Spark随机森林实战
package big.data.analyse.ml.randomforest import org.apache.spark.ml.Pipeline import org.apache.spark ...
spark 随机森林算法案例实战
随机森林算法由多个决策树构成的森林,算法分类结果由这些决策树投票得到,决策树在生成的过程当中分别在行方向和列方向上添加随机过程,行方向上构建决策树时采用放回抽样(bootstraping)得到训练数 ...
python spark 随机森林入门demo
class pyspark.mllib.tree.RandomForest[source] Learning algorithm for a random forest model for class ...
Spark随机深林扩展—OOB错误评估和变量权重
本文目的当前spark(1.3版)随机森林实现,没有包括OOB错误评估和变量权重计算.而这两个功能在实际工作中比较常用.OOB错误评估可以代替交叉检验,评估模型整体结果,避免交叉检验带来的计算开销. ...
Spark2.0机器学习系列之6：GBDT（梯度提升决策树）、GBDT与随机森林差异、参数调试及Scikit代码分析
概念梳理 GBDT的别称 GBDT(Gradient Boost Decision Tree),梯度提升决策树. GBDT这个算法还有一些其他的名字,比如说MART(Multiple Addi ...
机器学习第5周--炼数成金-----决策树，组合提升算法，bagging和adaboost，随机森林。
决策树decision tree 什么是决策树输入:学习集输出:分类觃则(决策树) 决策树算法概述 70年代后期至80年代初期,Quinlan开发了ID3算法(迭代的二分器)Quinlan改迚了ID3 ...
04-10 Bagging和随机森林
目录 Bagging算法和随机森林一.Bagging算法和随机森林学习目标二.Bagging算法原理回顾三.Bagging算法流程 3.1 输入 3.2 输出 3.3 流程四.随机森林详解 4 ...
100天搞定机器学习|Day56 随机森林工作原理及调参实战（信用卡欺诈预测）
本文是对100天搞定机器学习|Day33-34 随机森林的补充前文对随机森林的概念.工作原理.使用方法做了简单介绍,并提供了分类和回归的实例. 本期我们重点讲一下: 1.集成学习.Bagging和随 ...
第七章——集成学习和随机森林（Ensemble Learning and Random Forests）
俗话说,三个臭皮匠顶个诸葛亮.类似的,如果集成一系列分类器的预测结果,也将会得到由于单个预测期的预测结果.一组预测期称为一个集合(ensemble),因此这一技术被称为集成学习(Ensemble Le ...

随机推荐

[VBS脚本]定时提示并关闭计算机
一.Natalia.bat 双击这个文件可以运行Natalia 控制台在打开后会变成最小化,标题为PowerAssistant,黑色背景淡绿色文字运行脚本Natalia.vbs @ECHO OFF ...
linux ps命令
名称:ps 使用权限:所有使用者使用方式:ps [options] [--help] 说明:显示瞬间行程 (process) 的动态参数: ps 的参数非常多, 在此仅列出几个常用的参数并大略介绍 ...
LeetCode OJ-- Scramble String ***@
https://oj.leetcode.com/problems/scramble-string/ 一个字符串的混排变换,简直太妙了,好题 class Solution { public: bool ...
table中的标题行冻结的简单实现
这里只是简单的实现,主要是用了position属性的fixed属性值,这个属性值需要高版本浏览器的支持,如果要兼容低版本的浏览器可以通过写脚本的方式实现,也可以使用UI库,有些UI库里面表格插件的标题 ...
dos 加用户
net user lipeng 1qaz3EDC /addnet user zhangnan 1qaz3EDC /addnet localgroup "Remote Desktop User ...
[Leetcode][JAVA] Word Ladder
Given two words (start and end), and a dictionary, find the length of shortest transformation sequen ...
响应式Web设计(Responsive Web design)的理念
页面的设计与开发应当根据用户行为以及设备环境(系统平台.屏幕尺寸.屏幕定向等)进行相应的响应和调整.具体的实践方式由多方面组成,包括弹性网格和布局.图片.CSS media query的使用等.无论用 ...
【原创】-- tftp安装配置及使用
环境:Ubuntu 14.04 OK6410 环境搭建: (1) $ sudo apt-get install tftp tftpd openbsd-inetd 或者安装tftp的增强版本tftp- ...
python 多线程笔记（一）
#coding=utf-8 import threading from time import sleep, ctime loops = [4,2] def loop(nloop, nsec): pr ...
[计算机图形学] 基于C#窗口的Bresenham直线扫描算法、种子填充法、扫描线填充法模拟软件设计（二）
上一节链接:http://www.cnblogs.com/zjutlitao/p/4116783.html 前言: 在上一节中我们已经大致介绍了该软件的是什么.可以干什么以及界面的大致样子.此外还详细 ...

Spark随机森林实现学习

Spark随机森林实现学习的更多相关文章

随机推荐

热门专题