有一个数据多维分析的任务：

日志的周UV；
APP的收集量及标注量，TOP 20 APP（周UV)，TOP 20 APP标注分类（周UV)；
手机机型的收集量及标注量，TOP 20 机型（周UV)，TOP 20 手机厂商（周UV)；

初始的解决方案：Spark读取数据日志，然后根据分析需求逐一进行map、distinct、reduceByKey得到分析结果。但是，这种方案存在着非常大的缺点——重复扫描数据源多次。

1. Pig

Pig提供cube关键字做OLAP，将dimension分为了两类：

normal，对应于cube operation，$n$个该维度的组合数为$2^n$；
hierarchical ordering，对应于rollup operation， $n$个该维度的组合数为$n+1$。

官方doc例子如下：

salesinp = LOAD '/pig/data/salesdata' USING PigStorage(',') AS

    (product:chararray, year:int, region:chararray, state:chararray, city:chararray, sales:long);

cubedinp = CUBE salesinp BY CUBE(product,year);

result = FOREACH cubedinp GENERATE FLATTEN(group), SUM(cube.sales) AS totalsales;

salesinp = LOAD '/pig/data/salesdata' USING PigStorage(',') AS

    (product:chararray, year:int, region:chararray, state:chararray, city:chararray, sales:long);

rolledup = CUBE salesinp BY ROLLUP(region,state,city);

result = FOREACH rolledup GENERATE FLATTEN(group), SUM(cube.sales) AS totalsales

在例子中，cube的操作相当于按维度组合对每一record进行展开并group by Dimensions，与下一句foreach语句构成了Dimensions + Measure的数据输出格式。

2. Spark

朴素多维分析

从上面介绍的pig OLAP方案中，我们得到灵感——面对开篇的多维分析需求，也可以每一条记录按Dimensions + Measure的规则进行展开：

/**

 * @param e (uid, LogFact)

 * @return Array[((dimension order No, dimension), measure)]

 */

def flatAppDvc(e: (String, CaseClasses.LogFact)): Array[((String, String), String)] = {

  val source = (("00", e._2.source), e._1)

  val appName = (("11", e._2.appName), e._1)

  val appTag = (("12", e._2.appTag), e._1)

  val appAll = (("13", "a"), e._1)

  val appCollect = (("14", "a"), e._2.appName)

  val appLabel = e._2.appTag match {

    case "EMPTY" => (("15", "a"), "useless")

    case _ => (("15", "a"), e._2.appName)

  }

  val dvcModel = (("21", e._2.dvcModelLabel), e._1)

  val vendor = (("22", e._2.vendor), e._1)

  val (osAll, osCollect) = ((("23", e._2.osType), e._1), (("24", e._2.osType), e._2.dvcModel))

  val osLabel = e._2.dvcModelLabel match {

    case "EMPTY" => (("25", e._2.osType), "useless")

    case _ => (("25", e._2.osType), e._2.dvcModel)

  }

  Array(source, appName, appTag, appAll, appCollect, appLabel, dvcModel, vendor,

    osAll, osCollect, osLabel).filter(_._2 != "useless")

}

为了区别不同的维度组合，代码中采取了比较low的方式——为每个维度组合进行编号以示区别。Spark提供flatMap API将一行展开为多行，完美地满足了维度展开的需求；然后通过一把group by key + distinct count即可得到结果：

val flatRdd = logRdd.flatMap(flatAppDvc)

val result = flatRdd.distinct()

  .mapValues(_ => 1)

  .reduceByKey(_ + _)

多Measure

前面的分析需求比较简单，measure均为distinct count；因而可以不必对齐Dimensions + Measure。然而，对于比较复杂的分析需求：

（整体上）广告物料的收集量、标注量、PV；
（广告物料的）二级标注类别的广告物料数、UV、PV；
（广告物料的）一级标注类别的广告物料数、UV、PV；

measure既有distinct count (UV) 也有count (PV)，这时需要Dimensions + Measure的对齐，维度flatMap如下：

/**

 * @param e ((adid, 2nd ad-category, 1st ad-category, uid)

 * @return Array[((dimension order No, dimension), measure:(adid, uid or adid, 1)]

 */

def flatAd(e: ((String, String, String), String)) = {

  val all = e._1._2 match {

    case "EMPTY" => (("0", "all"), (e._1._1, "non", 0))

    case _ => (("0", "all"), (e._1._1, e._1._1, 1))

  }

  val adCate = (("1", e._1._2), (e._1._1, e._2, 1))

  val adParent = (("2", e._1._3), (e._1._1, e._2, 1))

  Array(all, adCate, adParent)

}

尔后，计算每一维度的measure（其中distinct count采用HyperLogLogPlus算法的stream lib实现）：

val createHLL = (v: String) => {

  val hll = new HyperLogLogPlus(14, 0) // relative-SD = 0.01

  hll.offer(v)

  hll

}

def computeAdDimention(rdd: RDD[((String, String), (String, String, Int))]) = {

  rdd.combineByKey[(HyperLogLogPlus, HyperLogLogPlus, Int)](

    (v: (String, String, Int)) => (createHLL(v._1), createHLL(v._2), 1),

    (m: (HyperLogLogPlus, HyperLogLogPlus, Int), v: (String, String, Int)) => {

      m._1.offer(v._1)

      m._2.offer(v._2)

      val pv = m._3 + v._3

      (m._1, m._2, pv)

    },

    (m1: (HyperLogLogPlus, HyperLogLogPlus, Int),

     m2: (HyperLogLogPlus, HyperLogLogPlus, Int)) => {

      m1._1.addAll(m2._1)

      m1._2.addAll(m2._2)

      val pv = m1._3 + m2._3

      (m1._1, m1._2, pv)

    }

  )

    .mapValues(t => (t._1.cardinality().toInt, t._2.cardinality().toInt, t._3))

}

其实，本文有点标题党～～只是借了OLAP的壳做数据多维分析，距离真正的OLAP还是很远滴……

轻量级OLAP（一）：Cube计算的更多相关文章

3D Cube计算引擎加速运算
3D Cube计算引擎加速运算华为达芬奇架构的AI芯片Ascend910,同时与之配套的新一代AI开源计算框架MindSpore. 为什么要做达芬奇架构? AI将作为一项通用技术极大地提高生产力,改 ...
轻量级OLAP（二）：Hive + Elasticsearch
1. 引言在做OLAP数据分析时,常常会遇到过滤分析需求,比如:除去只有性别.常驻地标签的用户,计算广告媒体上的覆盖UV.OLAP解决方案Kylin不支持复杂数据类型(array.struct.ma ...
Analysis Services OLAP 概述
1. 什么是OLAP •定义1 :OLAP(联机分析处理)是针对特定问题的联机数据访问和分析.通过对信息(维数据)的多种可能的观察形式进行快速.稳定一致和交互性的存取,允许管理决策人员对数据进行深入观 ...
SSAS——基础--cube
SSAS——基础一.Analysis Services Analysis Services是用于决策支持和BI解决方案的数据引擎.它提供报表和客户端中使用的分析数据. 它可在多用途数据模型中创建 ...
杂项-DB：OLAP（联机分析处理）
ylbtech-杂项-DB:OLAP(联机分析处理) 联机分析处理OLAP是一种软件技术,它使分析人员能够迅速.一致.交互地从各个方面观察信息,以达到深入理解数据的目的.它具有FASMI(Fast A ...
[转帖]OLTP、OLAP与HTAP
OLTP.OLAP与HTAP https://blog.csdn.net/ZG_24/article/details/87854982 OLTP On-Line Transaction Proce ...
OLAP（On-Line Analytical Processing）
自20世纪80年代开始,许多企业利用关系型数据库来存储和管理业务数据,并建立相应的应用系统来支持日常的业务运作.这种应用以支持业务处理为主要目的,被称为联机事务处理(On line Transacti ...
星型数据仓库olap工具kylin介绍
星型数据仓库olap工具kylin介绍数据仓库是目前企业级BI分析的重要平台,尤其在互联网公司,每天都会产生数以百G的日志,如何从这些日志中发现数据的规律很重要. 数据仓库是数据分析的重要工具, 每 ...
ORACLE的分组统计之CUBE(二)
cube统计包含了rollup的统计结果,而且还有其他组合分组结果(小计),CUBE(n列),那么分组种类有: cube分组就是先进行合计(一个不取),然后小计(到),最后取标准分组. 与rollup ...

随机推荐

Map Network Driver
K: \\10.11.80.5\deptfiling-pubgz$ O: \\10.11.80.5\deptfiling-itdgz$
【实战Java高并发程序设计6】挑战无锁算法：无锁的Vector实现
[实战Java高并发程序设计 1]Java中的指针:Unsafe类 [实战Java高并发程序设计 2]无锁的对象引用:AtomicReference [实战Java高并发程序设计 3]带有时间戳的对象 ...
TLogger一个D7可用的轻量级日志
今天调程序,要用到日志.XE7有Qlog,D7用什么从网上找到了Logger,下载的原文是不支持D7的,不过也只是很少的地方不同,自己修改了下就可以用了感谢原作者和红鱼的分享 unit Logge ...
AnguarJS 第二天----数据绑定
Terms 今天学习AngularJS双向数据绑定的特性,这里面需要提到两个概念: 数据模型:数据模型是指 $scope对象, $scope对象是简单的javascript对象,视图可以访问其中的属性 ...
玩转Windows服务系列——无COM接口Windows服务启动失败原因及解决方案
将VS创建的Windows服务项目编译生成的程序,通过命令行 “服务.exe -Service”注册为Windows服务后,就可以通过服务管理器进行管理了. 问题通过服务管理器进行启动的时候,发现服 ...
DDN - Digital Data Network
DDN(Digital Data Network,数字数据网)是一种利用光纤.数字微波或卫星等数字传输通道和数字交叉复用设备组成的数字数据传输网.它可以为用户提供各种速率的高质量数字专用电数字数据网 ...
T型及Fly_by拓扑之应用总结
前面的文章有分别介绍过T型拓扑及Fly_by拓扑结构,这两种拓扑结构应用最多的应该是在DDR3里面,说到这里,小编又想开始聊聊DDR3的设计了,我想很多人都比较有兴趣. 因为DDR3的设计还是比较复杂 ...
生成模型（Generative Model）与判别模型（Discriminative Model）
摘要: 1.定义 2.常见算法 3.特性 4.优缺点内容: 1.定义 1.1 生成模型: 在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下.它给观测值和标 ...
C语言-结构体struct-联合体union-枚举enum
结构体在Java中,我们要表示一个复合的数据类型就会使用对象去封装.而C就有结构体. 结构体是C语言中自定义的数据类型,是一组变量的集合,有别于数组,数组仅限于同一种数据类型,而结构体可以是任何数据 ...
【转】批量复制操作（SqlBulkCopy）的出错处理：事务提交、回滚
原文地址:http://blog.csdn.net/westsource/article/details/6658109 默认情况下,批量复制操作作为独立的操作执行. 批量复制操作以非事务性方式发生, ...