Parallel Decision Tree

Decision Tree such as C4.5 is easy to parallel. Following is an example.

This is a non-parallel version:

public void learnFromDataSet(Iterable<Sample<FK, FV, Boolean>> dataset){

        for(Sample sample : dataset){

            model.addSample((MapBasedBinarySample<FK, FV>)sample);

        }

        Queue<TreeNode<FK, FV>> Q = new LinkedList<TreeNode<FK, FV>>();

        TreeNode<FK, FV> root = model.selectRootTreeNode();

        model.addTreeNode(root);

        Q.add(root);

        while (!Q.isEmpty()){

            TreeNode v = Q.poll();

            if(v.getDepth() >= model.getMaxDepth()){

                continue;

            }

            FeatureSplit<FK> featureSplit = model.selectFeature(v);

            if(featureSplit.getFeatureId() == null){

                continue;

            }

            v.setFeatureSplit(featureSplit);

            Pair<TreeNode<FK,FV>, TreeNode<FK, FV>> children =

                    model.newTreeNode(v, featureSplit);

            TreeNode leftNode = children.getKey();

            TreeNode rightNode = children.getValue();

            if(leftNode != null

                    && leftNode.getSampleSize() > model.getMinSampleSizeInNode()){

                v.setLeft(leftNode);

                model.addTreeNode(leftNode);

                Q.add(leftNode);

            }

            if(rightNode != null

                    && rightNode.getSampleSize() > model.getMinSampleSizeInNode()){

                v.setRight(rightNode);

                model.addTreeNode(rightNode);

                Q.add(rightNode);

            }

        }

    }

And this is a parallel version:

public class NodeSplitThread implements Runnable{

        private TreeNode<FK, FV> node = null;

        private Queue<TreeNode<FK, FV>> Q = null;

        public NodeSplitThread(TreeNode<FK, FV> node, Queue<TreeNode<FK, FV>> Q){

            this.node = node;

            this.Q = Q;

        }

        @Override

        public void run() {

            if(node.getDepth() >= model.getMaxDepth()){

                return;

            }

            FeatureSplit<FK> featureSplit = model.selectFeature(node);

            if(featureSplit.getFeatureId() == null){

                return;

            }

            node.setFeatureSplit(featureSplit);

            Pair<TreeNode<FK,FV>, TreeNode<FK, FV>> children = model.newTreeNode(node, featureSplit);

            TreeNode<FK, FV> leftNode = children.getKey();

            TreeNode<FK, FV> rightNode = children.getValue();

            if(leftNode != null && leftNode.getSampleSize() > model.getMinSampleSizeInNode()){

                node.setLeft(leftNode);

                model.addTreeNode(leftNode);

                Q.add(leftNode);

            }

            if(rightNode != null && rightNode.getSampleSize() > model.getMinSampleSizeInNode()){

                node.setRight(rightNode);

                model.addTreeNode(rightNode);

                Q.add(rightNode);

            }

        }

    }

    public List<TreeNode<FK, FV>> pollTopN(Queue<TreeNode<FK, FV>> Q, int n){

        List<TreeNode<FK, FV>> ret = new ArrayList<TreeNode<FK, FV>>();

        for(int i = 0; i < n; ++i){

            if(Q.isEmpty()) break;

            TreeNode<FK, FV> node = Q.poll();

            ret.add(node);

        }

        return ret;

    }

    @Override

    public void learnFromDataSet(Iterable<Sample<FK, FV, Boolean>> dataset){

        for(Sample sample : dataset){

            model.addSample((MapBasedBinarySample<FK, FV>)sample);

        }

        Queue<TreeNode<FK, FV>> Q = new ConcurrentLinkedQueue<TreeNode<FK, FV>>();

        TreeNode<FK, FV> root = model.selectRootTreeNode();

        model.addTreeNode(root);

        Q.add(root);

        ExecutorService threadPool = Executors.newFixedThreadPool(10);

        while (!Q.isEmpty()){

            List<TreeNode<FK, FV>> nodes = pollTopN(Q, 10);

            List<Future> tasks = new ArrayList<Future>(nodes.size());

            for(TreeNode<FK, FV> node : nodes){

                Future task = threadPool.submit(new NodeSplitThread(node, Q));

                tasks.add(task);

            }

            for(Future task : tasks){

                try {

                    task.get();

                } catch (InterruptedException e) {

                    continue;

                } catch (ExecutionException e) {

                    continue;

                }

            }

        }

        threadPool.shutdown();

        try {

            threadPool.awaitTermination(60, TimeUnit.SECONDS);

        } catch (InterruptedException e) {

            threadPool.shutdownNow();

            Thread.interrupted();

        }

        threadPool.shutdownNow();

    }

http://xlvector.net/blog/?p=896

Parallel Decision Tree的更多相关文章

Spark MLlib - Decision Tree源码分析
http://spark.apache.org/docs/latest/mllib-decision-tree.html 以决策树作为开始,因为简单,而且也比较容易用到,当前的boosting或ran ...
决策树Decision Tree 及实现
Decision Tree 及实现标签: 决策树熵信息增益分类有监督 2014-03-17 12:12 15010人阅读评论(41) 收藏举报分类: Data Mining(25) Pyt ...
Gradient Boosting Decision Tree学习
Gradient Boosting Decision Tree,即梯度提升树,简称GBDT,也叫GBRT(Gradient Boosting Regression Tree),也称为Multiple ...
使用Decision Tree对MNIST数据集进行实验
使用的Decision Tree中,对MNIST中的灰度值进行了0/1处理,方便来进行分类和计算熵. 使用较少的测试数据测试了在对灰度值进行多分类的情况下,分类结果的正确率如何.实验结果如下. #Te ...
Sklearn库例子1：Sklearn库中AdaBoost和Decision Tree运行结果的比较
DisCrete Versus Real AdaBoost 关于Discrete 和Real AdaBoost 可以参考博客:http://www.cnblogs.com/jcchen1987/p/4 ...
用于分类的决策树(Decision Tree)-ID3 C4.5
决策树(Decision Tree)是一种基本的分类与回归方法(ID3.C4.5和基于 Gini 的 CART 可用于分类,CART还可用于回归).决策树在分类过程中,表示的是基于特征对实例进行划分, ...
OpenCV码源笔记——Decision Tree决策树
来自OpenCV2.3.1 sample/c/mushroom.cpp 1.首先读入agaricus-lepiota.data的训练样本. 样本中第一项是e或p代表有毒或无毒的标志位:其他是特征,可以 ...
GBDT(Gradient Boosting Decision Tree)算法&协同过滤算法
GBDT(Gradient Boosting Decision Tree)算法参考:http://blog.csdn.net/dark_scope/article/details/24863289 理 ...
Gradient Boost Decision Tree(&Treelink)
http://www.cnblogs.com/joneswood/archive/2012/03/04/2379615.html 1. 什么是Treelink Treelink是阿里集团内部 ...

随机推荐

笔记：php有那几种错误提示和查错方法
php有哪几种错误提示 1.notice : 注意 2.waring : 警告 3.error : 错误 PHP中都有哪几种查错方法? 1.语法检查--php配置文件里,把错误显示选项都打开或者代码开 ...
ios开发之--pop到指定页面
1 推出到根视图控制器 [self.navigationController popToRootViewControllerAnimated:YES]; 2 推出到指定的视图控制器 for (UIVi ...
kafka原理
今天因为工作接触kafka,先说说kafka是干嘛的. kafka: 说简单点他就是一个基于分布式的消息发布-订阅系统. 然后再理解一些专有名词: Kafka 专用术语 Broker:Kafka 集群 ...
[笔试题]MS 2014
http://blog.csdn.net/xiaoerlyl/article/details/12126807 别人写的答案: http://blog.csdn.net/zhou2214/articl ...
#error和line
#error message ----注:message不需要用双引号包围, #error 编译指示字用于自定义程序特有的编译错误消息类似的, #warning用于生成编译警告,但不会停止编译. 在l ...
Receiver type for instance message is a forward
本文转载至 http://my.oschina.net/sunqichao/blog?disp=2&catalog=0&sort=time&p=3 这往往是引用的问题.ARC要 ...
《C++ Primer Plus》15.5 类型转换运算符学习笔记
C++相对C更严格地限制允许的类型转换,并添加4个类型转换运算符,是转换过程更规范:* dynamic_cast:* const_cast:* static_cast:* reinterpret_ca ...
《C++ Primer Plus》第10章对象和类学习笔记
面向对象编程强调的是程序如何表示数据.使用 OOP 方法解决编程问题的第一步是根据它与程序之间的接口来描述数据,从而指定如何使用数据.然后,设计一个类来实现该接口.一般来说,私有数据成员存储信息,公有 ...
eclipse 安装Subversion1.82（SVN）插件
Eclipse下SVN插件的安装,可以选择在线安装和离线安装两种方式: 2.(可选①)使用本地安装包安装插件 --填写插件名(可随意取名) --插件来源地址(①安装包,②使用网址) →Archie→选 ...
java的this表示当前类还是当前实例？
转自:http://www.runoob.com/java/java-basic-syntax.html this 表示调用当前实例或者调用另一个构造函数

Parallel Decision Tree

Parallel Decision Tree的更多相关文章

随机推荐

热门专题