心血来潮,同时想用C++连连手。面对如火如荼的MP,一阵念头闪过,如果把一些ML领域的玩意整合到MP里面是不是很有意思

确实很有意思,可惜mahout来高深,我也看不懂。干脆自动动手丰衣足食,加上自己对JAVA一窍不通,于是写了streming C++版的ID3,数据源是来大神orisun的原始数据。

整个过程都是下班后一边带孩子一边撰写,总共历时2周多,写了两个版本:

1,shell+streming(屌丝版,MP运行速度在3分钟,单机OS运行速度541毫秒)

2,streaming一次成型(高富帅版,MP运行速度23秒,单机OS运行速度42毫秒)

先贴一些ID3的数据流向,

ID3 先算每种因素的出现概率,再推算因素所在FILED的出现概率,再推送嫡,再推算GAIN。

嵌套过程如下,注意输入输出,一般来说,把下个子节点和概率,带到下一次嵌套FUNCTION中。

最后输出屌丝版的结果:

高富帅的结果:

一些心得体会:

1,总体代码行数偏于庞大,主要在字段过滤和预先处理方面花费了不少精力,为的是预防开发人员无法全量distinct 所有因素的枚举。

2,mapreduce在嵌套调用方面能力较弱,加上自己本身不会java,mp的一些基础库如jobchain和jobconf无法发挥100%功效。只能用外部shell来实施文本过滤。

3,高富帅版本主要的思想是想让mapper承担更多的计算,避免嵌套重复过滤样本生成树,所有做了所有可见组合的计算,共144项,将结果直传给了Reducer。

4,对于Reduce数据结构的构建,试了多种形式,最终决定还是用结构体+MAP容器嵌套+嵌套,形成第一张图的表格。

5,对于字符串处理和内存处理细节有所欠缺。从char *,string傻傻理不清楚。

6,坊间谣传strsep bug较少,对此无太多评论。

源码如下,各位看官手下留情。^_^

https://github.com/zacard-orc/zacard

关于重写ID3 Algorithm Based On MapReduceV1/C++/Streaming的一些心得体会的更多相关文章

  1. Computer Vision_33_SIFT: A novel point-matching algorithm based on fast sample consensus for image registration——2015

    此部分是计算机视觉部分,主要侧重在底层特征提取,视频分析,跟踪,目标检测和识别方面等方面.对于自己不太熟悉的领域比如摄像机标定和立体视觉,仅仅列出上google上引用次数比较多的文献.有一些刚刚出版的 ...

  2. 【MybatisPlus】数据库的datetime类型字段为空的时候,报错空指针?

    一.发现经历 事情是这样的,我今天本来要演示系统,就去前端同学的页面上点一点.不小心点到了其他同事编写的服务,然后界面就报错了.这给我吓得,这还能演示吗这.然后,我就去服务器查看了一下日志,发现了如下 ...

  3. 重写轮子之 ID3

    这是半成品, 已完成了 fit() 部分, 形成了包含一棵完整树的 node 对象. 后续工作是需解析该 node对象, 完成 predict() 工作. # !/usr/bin/python # - ...

  4. 机器学习-决策树之ID3算法

    概述 决策树(Decision Tree)是一种非参数的有监督学习方法,它是一种树形结构,所以叫决策树.它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回 ...

  5. Cognition math based on Factor Space (2016.05)

    Cognition math based on Factor Space Wang P Z1, Ouyang H2, Zhong Y X3, He H C4 1Intelligence Enginee ...

  6. What does it mean for an algorithm to be fair

    What does it mean for an algorithm to be fair In 2014 the White House commissioned a 90-day study th ...

  7. Home | eMine: Web Page Transcoding Based on Eye Tracking Project Page

    Home | eMine: Web Page Transcoding Based on Eye Tracking Project Page The World Wide Web (web) has m ...

  8. A Novel Multi-label Classification Based on PCA and ML-KNN

     ICIC Express Letters                  ICIC International ⓒ2010 ISSN 1881-803X Volume4, Number5, O ...

  9. Simultaneous Localization and Mapping Technology Based on Project Tango

    Abstract: Aiming at the problem of system error and noise in simultaneous localization and mapping ( ...

随机推荐

  1. [WF4.0 现实] WF4.0 Receive && Send

    写这篇博客的目的正是由于这个receive和send使用一直很困惑,有应用程序的多个实例,但整体感觉很模糊认识.每一次遇到,再要弄清楚.如今将这send和receive结合我们之前做的实例(未使用WC ...

  2. ext Window点击右上角的关闭(Xbutton)加入监控事件

    使用场景:关闭window的时候添加监听事件. 正确的使用方式: addwin = new Ext.Window({ title : '新增', closable : true, width : 50 ...

  3. Cocos2d-x3.2游戏的核心循环在Application,怎样处理FPS不稳

    今天天气非常阴,立即要下雨了,陈吃早点功夫写点东西, 一场秋雨一场寒,十场秋雨要穿棉,各位从今往后多穿点 int Application::run() { if(!applicationDidFini ...

  4. windows屏幕保护程序opengl模板

    Visual Studio 2013 屏幕保护程序opengl模板 ScreenSaver.cpp #define VC_EXTRALEAN #include <windows.h> #i ...

  5. Java的进程内缓存框架:EhCache (转)

    EhCache 是一个纯Java的进程内缓存框架,具有快速.精干等特点,是Hibernate中默认的CacheProvider. Ehcache缓存的特点: 1. 快速. 2. 简单. 3. 多种缓存 ...

  6. LNK快捷方式漏洞利用方式 exp制作教程

    前言windows的shell32在处理控制面板程序的快捷方式文件时,存在一个漏洞,能够载入硬盘上的随意DLL文件,就可以运行随意代码. 漏洞文件的生成到“控制面板”以下,右键点“显示”,点“创建快捷 ...

  7. SharePoint 2013 配置开发环境,需安装VS2012插件

    原文:SharePoint 2013 配置开发环境,需安装VS2012插件 SharePoint 2013已经安装好了,接下来就是配置开发环境,安装VS2012,但是,装好了以后,发现没有ShareP ...

  8. Cocos2d-x在线粒子编辑器

    自由.其效果是非常赞,可以手动调节和.出口可以上网plist档!. 住址:http://particle2dx.com/

  9. Matlab与.NET混合编程解决人脸识别问题

    原文:[原创]Matlab与.NET混合编程解决人脸识别问题 如果这些文章对你有用,有帮助,期待更多开源组件介绍,请不要吝啬手中的鼠标. [原创分享]Matlab.NET混编调用Figure窗体 ht ...

  10. CSM认证培训知识汇总

    后两天的CSM训练.我们非常颠覆旧观念,有关的一些观点的简要培训记录: 约定大于监管:监督是管理水平.或旧有格局,该公约是一个团队与自己的法规. 工具:传统的管理工具和服务经理,还有许多人是PM正在使 ...