Parallel Decision Tree

Decision Tree such as C4.5 is easy to parallel. Following is an example.

This is a non-parallel version:

public void learnFromDataSet(Iterable<Sample<FK, FV, Boolean>> dataset){

        for(Sample sample : dataset){

            model.addSample((MapBasedBinarySample<FK, FV>)sample);

        }

        Queue<TreeNode<FK, FV>> Q = new LinkedList<TreeNode<FK, FV>>();

        TreeNode<FK, FV> root = model.selectRootTreeNode();

        model.addTreeNode(root);

        Q.add(root);

        while (!Q.isEmpty()){

            TreeNode v = Q.poll();

            if(v.getDepth() >= model.getMaxDepth()){

                continue;

            }

            FeatureSplit<FK> featureSplit = model.selectFeature(v);

            if(featureSplit.getFeatureId() == null){

                continue;

            }

            v.setFeatureSplit(featureSplit);

            Pair<TreeNode<FK,FV>, TreeNode<FK, FV>> children =

                    model.newTreeNode(v, featureSplit);

            TreeNode leftNode = children.getKey();

            TreeNode rightNode = children.getValue();

            if(leftNode != null

                    && leftNode.getSampleSize() > model.getMinSampleSizeInNode()){

                v.setLeft(leftNode);

                model.addTreeNode(leftNode);

                Q.add(leftNode);

            }

            if(rightNode != null

                    && rightNode.getSampleSize() > model.getMinSampleSizeInNode()){

                v.setRight(rightNode);

                model.addTreeNode(rightNode);

                Q.add(rightNode);

            }

        }

    }

And this is a parallel version:

public class NodeSplitThread implements Runnable{

        private TreeNode<FK, FV> node = null;

        private Queue<TreeNode<FK, FV>> Q = null;

        public NodeSplitThread(TreeNode<FK, FV> node, Queue<TreeNode<FK, FV>> Q){

            this.node = node;

            this.Q = Q;

        }

        @Override

        public void run() {

            if(node.getDepth() >= model.getMaxDepth()){

                return;

            }

            FeatureSplit<FK> featureSplit = model.selectFeature(node);

            if(featureSplit.getFeatureId() == null){

                return;

            }

            node.setFeatureSplit(featureSplit);

            Pair<TreeNode<FK,FV>, TreeNode<FK, FV>> children = model.newTreeNode(node, featureSplit);

            TreeNode<FK, FV> leftNode = children.getKey();

            TreeNode<FK, FV> rightNode = children.getValue();

            if(leftNode != null && leftNode.getSampleSize() > model.getMinSampleSizeInNode()){

                node.setLeft(leftNode);

                model.addTreeNode(leftNode);

                Q.add(leftNode);

            }

            if(rightNode != null && rightNode.getSampleSize() > model.getMinSampleSizeInNode()){

                node.setRight(rightNode);

                model.addTreeNode(rightNode);

                Q.add(rightNode);

            }

        }

    }

    public List<TreeNode<FK, FV>> pollTopN(Queue<TreeNode<FK, FV>> Q, int n){

        List<TreeNode<FK, FV>> ret = new ArrayList<TreeNode<FK, FV>>();

        for(int i = 0; i < n; ++i){

            if(Q.isEmpty()) break;

            TreeNode<FK, FV> node = Q.poll();

            ret.add(node);

        }

        return ret;

    }

    @Override

    public void learnFromDataSet(Iterable<Sample<FK, FV, Boolean>> dataset){

        for(Sample sample : dataset){

            model.addSample((MapBasedBinarySample<FK, FV>)sample);

        }

        Queue<TreeNode<FK, FV>> Q = new ConcurrentLinkedQueue<TreeNode<FK, FV>>();

        TreeNode<FK, FV> root = model.selectRootTreeNode();

        model.addTreeNode(root);

        Q.add(root);

        ExecutorService threadPool = Executors.newFixedThreadPool(10);

        while (!Q.isEmpty()){

            List<TreeNode<FK, FV>> nodes = pollTopN(Q, 10);

            List<Future> tasks = new ArrayList<Future>(nodes.size());

            for(TreeNode<FK, FV> node : nodes){

                Future task = threadPool.submit(new NodeSplitThread(node, Q));

                tasks.add(task);

            }

            for(Future task : tasks){

                try {

                    task.get();

                } catch (InterruptedException e) {

                    continue;

                } catch (ExecutionException e) {

                    continue;

                }

            }

        }

        threadPool.shutdown();

        try {

            threadPool.awaitTermination(60, TimeUnit.SECONDS);

        } catch (InterruptedException e) {

            threadPool.shutdownNow();

            Thread.interrupted();

        }

        threadPool.shutdownNow();

    }

http://xlvector.net/blog/?p=896

Parallel Decision Tree的更多相关文章

Spark MLlib - Decision Tree源码分析
http://spark.apache.org/docs/latest/mllib-decision-tree.html 以决策树作为开始,因为简单,而且也比较容易用到,当前的boosting或ran ...
决策树Decision Tree 及实现
Decision Tree 及实现标签: 决策树熵信息增益分类有监督 2014-03-17 12:12 15010人阅读评论(41) 收藏举报分类: Data Mining(25) Pyt ...
Gradient Boosting Decision Tree学习
Gradient Boosting Decision Tree,即梯度提升树,简称GBDT,也叫GBRT(Gradient Boosting Regression Tree),也称为Multiple ...
使用Decision Tree对MNIST数据集进行实验
使用的Decision Tree中,对MNIST中的灰度值进行了0/1处理,方便来进行分类和计算熵. 使用较少的测试数据测试了在对灰度值进行多分类的情况下,分类结果的正确率如何.实验结果如下. #Te ...
Sklearn库例子1：Sklearn库中AdaBoost和Decision Tree运行结果的比较
DisCrete Versus Real AdaBoost 关于Discrete 和Real AdaBoost 可以参考博客:http://www.cnblogs.com/jcchen1987/p/4 ...
用于分类的决策树(Decision Tree)-ID3 C4.5
决策树(Decision Tree)是一种基本的分类与回归方法(ID3.C4.5和基于 Gini 的 CART 可用于分类,CART还可用于回归).决策树在分类过程中,表示的是基于特征对实例进行划分, ...
OpenCV码源笔记——Decision Tree决策树
来自OpenCV2.3.1 sample/c/mushroom.cpp 1.首先读入agaricus-lepiota.data的训练样本. 样本中第一项是e或p代表有毒或无毒的标志位:其他是特征,可以 ...
GBDT(Gradient Boosting Decision Tree)算法&协同过滤算法
GBDT(Gradient Boosting Decision Tree)算法参考:http://blog.csdn.net/dark_scope/article/details/24863289 理 ...
Gradient Boost Decision Tree(&Treelink)
http://www.cnblogs.com/joneswood/archive/2012/03/04/2379615.html 1. 什么是Treelink Treelink是阿里集团内部 ...

随机推荐

Razor------引入css文件的方法
MVC3.0之前版本: <link href=@Url.Content("~/Content/Styles.css") rel="stylesheet" ...
超全面的JavaWeb笔记day19<Service>
今日内容 l Service事务 l 客户关系管理系统 Service事务在Service中使用ThreadLocal来完成事务,为将来学习Spring事务打基础! 1 DAO中的事务在DAO中处 ...
Android底层有一定的认识，研究过相关的Android源码
一.系统架构: 一).系统分层:(由下向上)[如图] 1.安卓系统分为四层,分别是Linux内核层.Libraries层.FrameWork层,以及Applications层: 其中Linux内核层包 ...
linux配置了dns后导致mysql远程连接慢问题
有时候dns配置错误或者其它原因会导致mysql远程连接缓慢,此时只需要关闭mysqlDNS反向解析即可解决此问题. 打开my.cnf配置,将[mysqld]下的#skip-name-resolve前 ...
@ResponseBody将集合数据转换为json格式并返回给客户端
spring-mvc.xml: <beans xmlns:mvc="http://www.springframework.org/schema/mvc" > <m ...
mybatis-spring-1.2.1 jar下载、源码下载
http://www.everycoding.com/maven2/org/mybatis/mybatis-spring/1.2.1.html
/usr/local/java/jdk1.8.0_11
【linux】安装rar，并解压被压缩成多个rar的文件
rar 官网:http://www.rarsoft.com/download.htm 选择 RAR for linux (注意你的系统是32位还是64位) 1 安装命令: $ cd /roo ...
Linux 2.6.16 TCP连接速度异常的问题分析
版权声明:本文由余子军原创文章,转载请注明出处: 文章原文链接:https://www.qcloud.com/community/article/104 来源:腾云阁 https://www.qclo ...
webpack中，css中打包背景图，路径报错
css-loader: //打包样式中背景图 { test: /\.(png|jpg)$/, loader: "url-loader?limit=8192&name=images/[ ...

Parallel Decision Tree

Parallel Decision Tree的更多相关文章

随机推荐

热门专题