1. 引言

在做OLAP数据分析时，常常会遇到过滤分析需求，比如：除去只有性别、常驻地标签的用户，计算广告媒体上的覆盖UV。OLAP解决方案Kylin不支持复杂数据类型（array、struct、map），要求数据输入Schema必须是平铺的，但是平铺后丢失了用户的聚合标签信息，而没有办法判断某一个用户是否只有性别、常驻地标签。显然，我们需要一种支持复杂数据类型的OLAP数据库；底层为Lucene的Elasticsearch正在向OLAP融合，腾讯内部已经用基于Lucene的分析数据库Hermes来做多维数据分析。

Elasticsearch（ES）在设计之初是用来做全文检索的搜索引擎，但随着倒排索引所表现出来优秀的查询性能，有越来越多人拿它做分析数据库使。可将ES视作文档型NoSQL数据库，一般情况下将具有相同schema的文档（document）归属于一个type，所有的文档存储于某一个index；ES与RDBMS的概念对比如下：

Relational DB ⇒ Databases ⇒ Tables ⇒ Rows ⇒ Columns

Elasticsearch ⇒ Indices ⇒ Types ⇒ Documents ⇒ Fields

2. 写数据

广告日志与标签数据均落在Hive表，并且ES官方提供与Hive的集成。因此，我们首选用Hive向ES写数据。首先，采用ES做OLAP分析引擎，创建表如下：

add jar /path/elasticsearch-hadoop-2.3.1.jar;

create external table ad_tag (

  dvc string,

  medias array < string >,

  c1_arr array < string >,

  week_time string

) stored by 'org.elasticsearch.hadoop.hive.EsStorageHandler' tblproperties(

  'es.nodes' = '<ip1>:9200,<ip2>:9200',

  'es.resource' = 'ad-{week_time}/tag',

  'es.mapping.exclude' = 'week_time'

);

在设计Hive表结构时，ES的计算UV的distinct count（cardinality）存在着计算误差；因此，我们按dvc对其他字段做了聚合，UV的计算转换成了ES doc命中数。其中，es.nodes表示ES的节点，只需配置一个节点即可；es.resource对应于ES的Index/Type；es.mapping.exclude在写ES时不会被索引的字段。因我们只有写操作而没有通过Hive查询ES数据，因此并没有设置es.query。Hive向ES写数据如下：

set hive.map.aggr = false;

insert overwrite table ad_tag

select

  media,

  a.dvc as dvc,

  case when c1_arr is null then array('empty') else c1_arr end as c1_arr,

  '2016-10-08' as week_time

from

  (

    select

      dvc,

      app_name as media

    from

      ad_log

    where

      is_exposure = '1'

      and day_time between date_sub('2016-10-08', 6)

      and '2016-10-08'

    group by

      dvc,

      app_name

  ) a

  left outer join (

    select

      dvc,

      collect_set(c1) as c1_arr

    from

      tag lateral view inline(tag) in_tb

    where

      day_time = '2016-10-08'

    group by

      dvc

  ) b on a.dvc = b.dvc;

在写ES时，在构建索引时不需要分词，通过PUT index template方式实现之：

{

  "template": "ad*",

  "mappings": {

    "_default_": {

      "dynamic_templates": [

        {

          "string_template": {

            "mapping": {

              "include_in_all": false,

              "index": "not_analyzed",

              "type": "string",

              "index_options": "docs"

            },

            "match": "*"

          }

        }

      ]

    }

  }

}

3. 多维分析

ES官方的查询语言是DSL，主要分为两类：

Query，相当于SQL中的where部分，可套用filter、match等；
Aggregation，相当于SQL中的group by部分，在aggs内部也可以套用filter。

DSL可以嵌套，表达异常复杂的查询操作；但是，若以字符串拼接的方式实现DSL，则显得可维护性太差。因此，官方提供了elasticsearch-dsl-py，可以将DSL等同于一段Python代码。我们的多维分析器便是基于此实现的（Python 3.5 + elasticsearch_dsl 2.1.0）

整体上曝光UV、有标签的UV、除去常用标签UV，以及每一个媒体上曝光UV、有标签的UV、除去常用标签UV的分析（相当于group by media with cube）：

client = Elasticsearch(['<host1>'], port=20009, timeout=50)

def per_media(index_name):

    """count(distinct dvc) group by media with cube"""

    ms = MultiSearch(using=client, index=index_name)

    all_doc = Search()

    all_doc.aggs.bucket('per_media', 'terms', field='medias', size=1000)

    tagged = Search().query('filtered', filter=~Q('term', c1_arr='empty'))

    tagged.aggs.bucket('per_media', 'terms', field='medias', size=1000)

    useful = Search().query('filtered', filter=~Q('term', c1_arr='empty') & Q('script',

                                                                              script="""['常驻地', '性别'].intersect(doc['c1_arr'].values).size() < doc['c1_arr'].values.size()"""))

    useful.aggs.bucket('per_media', 'terms', field='medias', size=1000)

    ms = ms.add(all_doc)

    ms = ms.add(tagged)

    ms = ms.add(useful)

    responses = ms.execute()

    result_list = []

    result_dict = defaultdict(lambda: [])

    for resp in responses:  # get per media uv(all, tagged, useful_tagged)

        print("Query %d: %r." % (responses.index(resp), resp.search.to_dict()))

        result_list.append(resp.hits.total)

        for buck in resp.aggregations['per_media']['buckets']:

            result_dict[buck['key']].append(buck['doc_count'])

    for k, v in result_dict.items():  # fill up default value 0

        if len(v) < 3:

            result_dict[k] = v + [0] * (3 - len(v))

    return result_list, result_dict

媒体与标签组合维度下的UV统计：

def per_media_c1(index_name):

    """return {(media, c1) -> tagged_uv}"""

    s = Search(using=client, index=index_name)

    tagged = s.query('filtered', filter=~Q('term', c1_arr='empty'))

    tagged.aggs.bucket('per_media', 'terms', field='medias', size=1000) \

        .bucket('per_c1', 'terms', field='c1_arr', size=100)

    result = {}

    response = tagged.execute()

    for buck in response.aggregations['per_media']['buckets']:

        key = buck['key']

        for b in buck['per_c1']['buckets']:

            result[(key, b['key'])] = b['doc_count']

    return result

轻量级OLAP（二）：Hive + Elasticsearch的更多相关文章

二 Hive分桶
二.Hive分桶 1.创建分桶表 create table t_buck (id string ,name string) clustered by (id) //根据id分桶 sorted by ( ...
Elasticsearch入门教程(二)：Elasticsearch核心概念
原文:Elasticsearch入门教程(二):Elasticsearch核心概念版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:ht ...
HA分布式集群二hive配置
一,概念 hive:是一种数据仓库,数据储存在:hdfs上,hsql是由替换简单的map-reduce,hive通过mysql来记录映射数据二,安装 1,mysql安装: 1,检测是否有mariad ...
ELK学习记录二：elasticsearch、logstash及kibana的安装与配置
注意事项: 1.ELK版本要求5.X以上,本人使用版本:elasticsearch-6.0.0.kibana-6.0.0-linux-x86_64.logstash-6.0.0.tar 2.Elast ...
DDD实战进阶第一波(三)：开发一般业务的大健康行业直销系统（搭建支持DDD的轻量级框架二）
了解了DDD的好处与基本的核心组件后,我们先不急着进入支持DDD思想的轻量级框架开发,也不急于直销系统需求分析和具体代码实现,我们还少一块, 那就是经典DDD的架构,只有了解了经典DDD的架构,你才能 ...
ES之二：Elasticsearch原理
Elasticsearch是最近两年异军突起的一个兼有搜索引擎和NoSQL数据库功能的开源系统,基于Java/Lucene构建.最近研究了一下,感觉 Elasticsearch 的架构以及其开源的生态 ...
〈二〉ElasticSearch的认识：索引、类型、文档
目录上节回顾本节前言索引index 创建索引查看索引查看单个索引查看所有索引删除索引修改索引修改副本分片数量关闭索引索引别名增加索引别名: 查看索引别名: 删除索引别名: 补充 ...
轻量级OLAP（一）：Cube计算
有一个数据多维分析的任务: 日志的周UV: APP的收集量及标注量,TOP 20 APP(周UV),TOP 20 APP标注分类(周UV): 手机机型的收集量及标注量,TOP 20 机型(周UV),T ...
ELK 之二：ElasticSearch 和Logstash高级使用
一:文档官方文档地址:1.x版本和2.x版本 https://www.elastic.co/guide/en/elasticsearch/guide/index.html 硬件要求: 1.内存,官方 ...

随机推荐

【java】Naming.bind和Registry.bind区别
Naming类和Registry类均在java.rmi包 Naming类通过解析URI绑定远程对象,将URI拆分成主机.端口和远程对象名称,使用的仍是Registry类. public static ...
BootStrap_02之全局样式及组件
1.BootStrap指定的四种屏幕尺寸: ①超大PC屏幕--lg(large):w>=1200px: ②中等PC屏幕--md(medium):1200px>w>=992px: ③P ...
【Net跨平台第一步】逆天带你零基础Linux入门【更新完毕】
部分讲义:(视频已删,后期以文档形式发布)
深入研究Visual studio 2017 RC新特性
在[Xamarin+Prism开发详解三:Visual studio 2017 RC初体验]中分享了Visual studio 2017RC的大致情况,同时也发现大家对新的Visual Studio很 ...
java单向加密算法小结(2)--MD5哈希算法
上一篇文章整理了Base64算法的相关知识,严格来说,Base64只能算是一种编码方式而非加密算法,这一篇要说的MD5,其实也不算是加密算法,而是一种哈希算法,即将目标文本转化为固定长度,不可逆的字符 ...
WebGIS中等值面展示的相关方案简析
文章版权由作者李晓晖和博客园共有,若转载请于明显处标明出处:http://www.cnblogs.com/naaoveGIS/ 1.背景等值面是气象.环保等相关项目上常用到的效果展示.在传统的CS项 ...
Java 经典入门（一）
一.什么是 Java 技术?为何需要 Java? Java 是由 Sun Microsystems 在 1995 年首先发布的编程语言和计算平台.有许多应用程序和 Web 站点只有在安装 Java 后 ...
[原]一个针对LVS的压力测试报告
LVS 测试报告测试计划基本功能测试流量压力测试响应时间测试配置正确性测试灾难恢复测试测试点基本功能测试客户端IP地址正确性 RealServer 访问Internet测试(包括Ip ...
微信小程序前端源码逻辑和工作流
看完微信小程序的前端代码真的让我热血沸腾啊,代码逻辑和设计一目了然,没有多余的东西,真的是大道至简. 废话不多说,直接分析前端代码.个人观点,难免有疏漏,仅供参考. 文件基本结构: 先看入口app.j ...
JavaScript基础
JavaScript基础 JavaScript是一门编程语言,浏览器内置了JavaScript语言的解释器,所以在浏览器上按照JavaScript语言的规则编写相应代码之,浏览器可以解释并做出相应的处 ...

轻量级OLAP（二）：Hive + Elasticsearch

1. 引言

2. 写数据

3. 多维分析

轻量级OLAP（二）：Hive + Elasticsearch的更多相关文章

随机推荐

热门专题