kylin cubing algorithm（算法）

看到这一块的视频，结合光方博客的一些文档及自己的一点理解，记个笔记，以备不时之需。

by layer cubing

　　　1.on MR

　　　　这个算法的对cube的计算就像它的名字一样是按player进行的。

以一个n维cube（即事实表有n个维度）为例：

player-1：以source data（源数据）为基础计算出一个n维的cuboid；

player-2：以上一层的n维cuboid维基础，计算出n个n-1维的cuboid；

... ...

player-k+1：以上一层的n-k+1维cuboid为基础，计算出n!/[(n-k)!k!]=个n-k维的cuboid；

... ...

player-n+1：以上一层的1维cuboid为基础，计算出1个0维的cuboid。

用官网上一个4维cube的例子来说明一下具体过程。

在player-1，根据源数据得到1个4-D的cuboid；然后cong中任意取出三个维度得到4个3-D cuboids；接着从3-D cuboids出发，任意取出其中两个维度得到6个2-D cuboids；再以2-D cuboids为基础，任意取出其中一个维度得到4个1-D cuboids；最后根据1-D cuboids 计算出一个0-D cuboid。

cuboids的构建的思想和组合数的概念一致：从含有i个维度的i-D cuboids 中取出i-1个维度构成一个新的cuboid。有次每一层cuboids 的数量变很容易得到。以(n-2)-D cuboids 为例：(n-1)-D cuboids 有n个，故总共可以计算出n*个(n-2)-D cuboids；而分析(n-1)-D cuboids发现，每两个(n-1)-D cuboids 有且只有一个维度是不同的，即每两个(n-1)-D cuboids 构建出的2*个(n-2)-D cuboids中会出现两个维度相同的(n-2)-D cuboids，因此重复的n*个(n-2)-D cuboids中有个重复的(n-2)-D cuboids，n*-=即为(n-2)-D cuboids的个数。

优点：

这个算法的原理很清晰，主要就是利用了MR，sorting、grouping、shuffing全部由MR完成，开发人员只需要关注cubing的逻辑
由于hadoop的成熟，该算法的运行很稳定

缺点：

cube的维度越高，需要的MR任务越多（n-D cube 需要n+1 个MR）
太多的shuffing操作（mapper端不做聚合，所有在下一层中具有相同维度的值有combiner 和reducer聚合）
对hdfs读写比较多（每一层MR的结果会写到hdfs然后下一层MR从hdfs 读取数据）

　　　2.on Spark

　　　　“by-layer” Cubing把一个大任务划分为许多步骤，每一步骤的计算依赖于上一个步骤的输出结果，所以当某一个步骤的计算出现问题时，可以再次读取上一步骤的结果重新计算，而不用从头开始。使得“by-layer” Cubing算法稳定可靠，当换到spark上时，便保留了这个算法。因此在spark上这个算法也被称为“By layer Spark Cubing”.

如上图所示，与在MR上相比，每一层的计算结果不再输出到hdfs，而是放在RDD中。由于RDD存储在内存中，从而有效避免了MR上过多的读写操作。

fast cubing

与by layer cubing 的操作对象是数据的整体不同的是 fast cubing 算法则是将整体数据切分一个个segment，然后对每个片段进行计算得到一个个cube segment（拥有所有cuboids），最后把这些小的cube片段聚合成一个大的cube segment，cubing结束。

所以 fast cubing 也被称为by segment cubing。如上图所示，该算法的核心思想可以认为是把by layer 中所有的计算全部放在mapper端计算整体数据的一个segment得到一个cube segment （所有计算的结果即cuboids ，存储在内存中），这个cube segment 是最终我们要得到的cube的一部分，所以最后对所有cube segment 进行聚合操作即可得到最中我们需要的cube。

优点：

作为对by player on MR的改进，他的速度更快
减轻了hadoop的工作压力，减少了输出到hdfs上的中间文件
代码可以很容易的被其他计算引擎如spark 重用

缺点：

算法较复杂，增加了维护工作量
尽管数据可一溢写到磁盘，但是在mapper端扔需要有足够的内存资源才能有比较好的结果。

kylin cubing algorithm（算法）的更多相关文章

《Algorithm算法》笔记：元素排序(2)——希尔排序
<Algorithm算法>笔记:元素排序(2)——希尔排序 Algorithm算法笔记元素排序2希尔排序希尔排序思想为什么是插入排序 h的确定方法希尔排序的特点代码有关排序的介绍 ...
C++ algorithm算法库
C++ algorithm算法库 Xun 标准模板库(STL)中定义了很多的常用算法,这些算法主要定义在<algorithm>中.编程时,只需要在文件中加入#include<algo ...
Algorithm 算法
http://www.cnblogs.com/baiboy/category/723479.html 记下来,有空去看随笔分类 - Algorithm [项目总结]自然语言处理在现实生活中运用 ...
C++ vector类型要点总结（以及各种algorithm算法函数）
概述 C++内置的数组支持容器的机制,但是它不支持容器抽象的语义.要解决此问题我们自己实现这样的类.在标准C++中,用容器向量(vector)实现. 容器向量也是一个类模板.vector是C++标准模 ...
c++11之 algorithm 算法库新增 minmax_element同时计算最大值和最小值
0.时刻提醒自己 Note: vector的释放 1. minmax_element 功能寻找范围 [first, last) 中最小和最大的元素. 2. 头文件 #include <algo ...
STL algorithm算法merge(34)
merge原型: std::merge default (1) template <class InputIterator1, class InputIterator2, class Outpu ...
06 - 从Algorithm 算法派生类中删除ExecuteInformation() 和ExecuteData() VTK 6.0 迁移
在先前的vtk中,如vtkPointSetAlgorithm 等算法派生类中定义了虚方法:ExecuteInformation() 和 ExecuteData().这些方法的定义是为了平稳的从VTK4 ...
STL algorithm算法mismatch(37)
mismatch原型: std::mismatch equality (1) template <class InputIterator1, class InputIterator2> p ...
STL algorithm算法is_permutation(27)
is_permutation原型: std::is_permutation equality (1) template <class ForwardIterator1, class Forwar ...

随机推荐

Divisor Subtraction
Description You are given an integer number nn. The following algorithm is applied to it: if n=0, th ...
[Codeforces375E]Red and Black Tree
Problem 给定一棵有边权的树.树上每个点是黑或白的.黑白点能两两交换. 求符合任意一个白点到最近黑点的距离小于等于x时,黑白点交换次数最少为多少. Solution 明显是一题树形DP.我们先跑 ...
Saku实力挖坑记！！（十八）
Saiku实力挖坑记!!!!!!! 我可真真真的是个挖坑小能手呀!不知道你们有没有遇到过这个异常: Enclosure class mondrian.olap.MondrianDef not foun ...
Centos 安装dhcp及简单配置
install yum -y install dhcp file /etc/dhcp/dhcpd.conf eg:-------------------------------- ddns-updat ...
【基于微信小程序的社区电商平台】Alpha迭代心得
项目团队:小豆芽开发周期:11.5-12.2(Alpha版本) 设想和目标 1. 我们的软件要解决什么问题?是否定义得很清楚?是否对典型用户和典型场景有清晰的描述? 解决问题:当前电商平台卖家买家角 ...
java的http请求实例
package vqmp.data.pull.vqmpull.common.utils; import org.slf4j.Logger; import org.slf4j.LoggerFactory ...
StringBuffer&StringBuilder
对字符串修改时,用到StringBuffer&StringBuilder,能够多次修改对象并且不产生新的未使用对象 StringBuilder线程不安全(不能同步访问),速度有优势,多数情况下 ...
H5页面访问java后台进行登录拦截
1.未登录状态下进行拦截,回到登录页面 function judgeLogin(currentPage) { var judge=false; var storage=window.localStor ...
RF新手常见问题总结
RF新手常见问题总结--(基础篇) 1. 经常有人问这个元素找不到,一般先排除这两个地方,再自己找找A:是否等待了足够的时间让元素加载 (增加sleep xx, wait Until xxx)B: ...
Groovy学习笔记-实现接口
1.单个委托方法的实现 button.addActionListener( { println 'Implement ActionListener' } as ActionListener ) 2.实 ...

kylin cubing algorithm（算法）

kylin cubing algorithm（算法）的更多相关文章

随机推荐

热门专题