1. 引言

在做OLAP数据分析时,常常会遇到过滤分析需求,比如:除去只有性别、常驻地标签的用户,计算广告媒体上的覆盖UV。OLAP解决方案Kylin不支持复杂数据类型(array、struct、map),要求数据输入Schema必须是平铺的,但是平铺后丢失了用户的聚合标签信息,而没有办法判断某一个用户是否只有性别、常驻地标签。显然,我们需要一种支持复杂数据类型的OLAP数据库;底层为Lucene的Elasticsearch正在向OLAP融合,腾讯内部已经用基于Lucene的分析数据库Hermes来做多维数据分析。

Elasticsearch(ES)在设计之初是用来做全文检索的搜索引擎,但随着倒排索引所表现出来优秀的查询性能,有越来越多人拿它做分析数据库使。可将ES视作文档型NoSQL数据库,一般情况下将具有相同schema的文档(document)归属于一个type,所有的文档存储于某一个index;ES与RDBMS的概念对比如下:

Relational DB ⇒ Databases ⇒ Tables ⇒ Rows ⇒ Columns

Elasticsearch ⇒ Indices ⇒ Types ⇒ Documents ⇒ Fields

2. 写数据

广告日志与标签数据均落在Hive表,并且ES官方提供与Hive的集成。因此,我们首选用Hive向ES写数据。首先,采用ES做OLAP分析引擎,创建表如下:

add jar /path/elasticsearch-hadoop-2.3.1.jar;

create external table ad_tag (
dvc string,
medias array < string >,
c1_arr array < string >,
week_time string
) stored by 'org.elasticsearch.hadoop.hive.EsStorageHandler' tblproperties(
'es.nodes' = '<ip1>:9200,<ip2>:9200',
'es.resource' = 'ad-{week_time}/tag',
'es.mapping.exclude' = 'week_time'
);

在设计Hive表结构时,ES的计算UV的distinct count(cardinality)存在着计算误差;因此,我们按dvc对其他字段做了聚合,UV的计算转换成了ES doc命中数。其中,es.nodes表示ES的节点,只需配置一个节点即可;es.resource对应于ES的Index/Type;es.mapping.exclude在写ES时不会被索引的字段。因我们只有写操作而没有通过Hive查询ES数据,因此并没有设置es.query。Hive向ES写数据如下:

set hive.map.aggr = false;

insert overwrite table ad_tag
select
media,
a.dvc as dvc,
case when c1_arr is null then array('empty') else c1_arr end as c1_arr,
'2016-10-08' as week_time
from
(
select
dvc,
app_name as media
from
ad_log
where
is_exposure = '1'
and day_time between date_sub('2016-10-08', 6)
and '2016-10-08'
group by
dvc,
app_name
) a
left outer join (
select
dvc,
collect_set(c1) as c1_arr
from
tag lateral view inline(tag) in_tb
where
day_time = '2016-10-08'
group by
dvc
) b on a.dvc = b.dvc;

在写ES时,在构建索引时不需要分词,通过PUT index template方式实现之:

{
"template": "ad*",
"mappings": {
"_default_": {
"dynamic_templates": [
{
"string_template": {
"mapping": {
"include_in_all": false,
"index": "not_analyzed",
"type": "string",
"index_options": "docs"
},
"match": "*"
}
}
]
}
}
}

3. 多维分析

ES官方的查询语言是DSL,主要分为两类:

  • Query,相当于SQL中的where部分,可套用filter、match等;
  • Aggregation,相当于SQL中的group by部分,在aggs内部也可以套用filter。

DSL可以嵌套,表达异常复杂的查询操作;但是,若以字符串拼接的方式实现DSL,则显得可维护性太差。因此,官方提供了elasticsearch-dsl-py,可以将DSL等同于一段Python代码。我们的多维分析器便是基于此实现的(Python 3.5 + elasticsearch_dsl 2.1.0)

整体上曝光UV、有标签的UV、除去常用标签UV,以及每一个媒体上曝光UV、有标签的UV、除去常用标签UV的分析(相当于group by media with cube):

client = Elasticsearch(['<host1>'], port=20009, timeout=50)

def per_media(index_name):
"""count(distinct dvc) group by media with cube"""
ms = MultiSearch(using=client, index=index_name)
all_doc = Search()
all_doc.aggs.bucket('per_media', 'terms', field='medias', size=1000)
tagged = Search().query('filtered', filter=~Q('term', c1_arr='empty'))
tagged.aggs.bucket('per_media', 'terms', field='medias', size=1000)
useful = Search().query('filtered', filter=~Q('term', c1_arr='empty') & Q('script',
script="""['常驻地', '性别'].intersect(doc['c1_arr'].values).size() < doc['c1_arr'].values.size()"""))
useful.aggs.bucket('per_media', 'terms', field='medias', size=1000)
ms = ms.add(all_doc)
ms = ms.add(tagged)
ms = ms.add(useful)
responses = ms.execute()
result_list = []
result_dict = defaultdict(lambda: [])
for resp in responses: # get per media uv(all, tagged, useful_tagged)
print("Query %d: %r." % (responses.index(resp), resp.search.to_dict()))
result_list.append(resp.hits.total)
for buck in resp.aggregations['per_media']['buckets']:
result_dict[buck['key']].append(buck['doc_count'])
for k, v in result_dict.items(): # fill up default value 0
if len(v) < 3:
result_dict[k] = v + [0] * (3 - len(v))
return result_list, result_dict

媒体与标签组合维度下的UV统计:

def per_media_c1(index_name):
"""return {(media, c1) -> tagged_uv}"""
s = Search(using=client, index=index_name)
tagged = s.query('filtered', filter=~Q('term', c1_arr='empty'))
tagged.aggs.bucket('per_media', 'terms', field='medias', size=1000) \
.bucket('per_c1', 'terms', field='c1_arr', size=100)
result = {}
response = tagged.execute()
for buck in response.aggregations['per_media']['buckets']:
key = buck['key']
for b in buck['per_c1']['buckets']:
result[(key, b['key'])] = b['doc_count']
return result

轻量级OLAP(二):Hive + Elasticsearch的更多相关文章

  1. 二 Hive分桶

    二.Hive分桶 1.创建分桶表 create table t_buck (id string ,name string) clustered by (id) //根据id分桶 sorted by ( ...

  2. Elasticsearch入门教程(二):Elasticsearch核心概念

    原文:Elasticsearch入门教程(二):Elasticsearch核心概念 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:ht ...

  3. HA分布式集群二hive配置

    一,概念 hive:是一种数据仓库,数据储存在:hdfs上,hsql是由替换简单的map-reduce,hive通过mysql来记录映射数据 二,安装 1,mysql安装: 1,检测是否有mariad ...

  4. ELK学习记录二 :elasticsearch、logstash及kibana的安装与配置

    注意事项: 1.ELK版本要求5.X以上,本人使用版本:elasticsearch-6.0.0.kibana-6.0.0-linux-x86_64.logstash-6.0.0.tar 2.Elast ...

  5. DDD实战进阶第一波(三):开发一般业务的大健康行业直销系统(搭建支持DDD的轻量级框架二)

    了解了DDD的好处与基本的核心组件后,我们先不急着进入支持DDD思想的轻量级框架开发,也不急于直销系统需求分析和具体代码实现,我们还少一块, 那就是经典DDD的架构,只有了解了经典DDD的架构,你才能 ...

  6. ES之二:Elasticsearch原理

    Elasticsearch是最近两年异军突起的一个兼有搜索引擎和NoSQL数据库功能的开源系统,基于Java/Lucene构建.最近研究了一下,感觉 Elasticsearch 的架构以及其开源的生态 ...

  7. 〈二〉ElasticSearch的认识:索引、类型、文档

    目录 上节回顾 本节前言 索引index 创建索引 查看索引 查看单个索引 查看所有索引 删除索引 修改索引 修改副本分片数量 关闭索引 索引别名 增加索引别名: 查看索引别名: 删除索引别名: 补充 ...

  8. 轻量级OLAP(一):Cube计算

    有一个数据多维分析的任务: 日志的周UV: APP的收集量及标注量,TOP 20 APP(周UV),TOP 20 APP标注分类(周UV): 手机机型的收集量及标注量,TOP 20 机型(周UV),T ...

  9. ELK 之二:ElasticSearch 和Logstash高级使用

    一:文档 官方文档地址:1.x版本和2.x版本 https://www.elastic.co/guide/en/elasticsearch/guide/index.html 硬件要求: 1.内存,官方 ...

随机推荐

  1. web全栈开发之网站开发二(弹出式登录注册框前端实现-类腾讯)

    这次给大家分享的是目前很多网站中流行的弹出式登录框,如下面的腾讯网登录界面,采用弹出式登录的好处是大大提升了网站的用户体验和交互性,用户不用重新跳转到指定的页面就能登录,非常方便 先来个演示地址 要实 ...

  2. AFNetworking 3.0 源码解读(八)之 AFImageDownloader

    AFImageDownloader 这个类对写DownloadManager有很大的借鉴意义.在平时的开发中,当我们使用UIImageView加载一个网络上的图片时,其原理就是把图片下载下来,然后再赋 ...

  3. 以向VS 程序打包集成自动写入注册表功能为例,介绍如何实现自由控制安装过程

    最近由于项目部署时需要更灵活的控制程序安装的流程以及自定义安装行为,特意研究了一下VS程序打包,把解决办法和大家分享一下. 以VS2010为例: 这是一个已经设置好最基本的Visual Studio ...

  4. ES6之let命令详解

    let与块级作用域 { var foo='foo'; let bar='bar'; } console.log(foo,'var'); //foo varconsole.log(bar ,'bar') ...

  5. arcgis api for js入门开发系列八聚合效果(含源代码)

    上一篇实现了demo的图层控制模块,本篇新增聚合效果,截图如下(源代码见文章底部): 聚合效果实现的思路如下: 1.map.html引用聚合包,项目已经包含进来了的聚合文件夹: <script ...

  6. BPM端到端流程解决方案分享

    一.需求分析 1.企业规模的不断发展.管理水平的不断提升,通常伴随着企业各业务板块管理分工更细.更专业,IT系统同样越来越多.越来越专 业化.不可避免的,部门墙和信息孤岛出现了,企业的流程被部门或者I ...

  7. Android—基于GifView显示gif动态图片

    android中显示gif动态图片用到了开源框架GifView 1.拷GifView.jar到自己的项目中. 2.将自己的gif图片拷贝到drawable文件夹 3.在xml文件中设置基本属性: &l ...

  8. Git使用详细教程(二)

    分支 其实在项目clone下来后就有一个分支,叫做master分支.新建分支的步骤:右键项目→Git→Repository...→Branches... master分支应该是最稳定的,开发的时候,建 ...

  9. 不要着急改代码,先想想--centos 6.8下编译安装tmux

    诸位读者新年好,2017开年第一篇博客,请允许我先问候一下看到这篇博客的诸位.写博客是我2017年定下的目标之一,希望我会坚持下去. 最近打算尝试一下tmux这个神器,于是有了这一篇关于思维方式的Bl ...

  10. 使用T4模板生成不同部署环境下的配置文件

    在开发企业级应用的时候,通常会有不同的开发环境,比如有开发环境,测试环境,正式环境,生产环境等.在一份代码部署到不同环境的时候,不同环境的配置文件可能需要根据目标环境不同而不同.比如在开发环境中,数据 ...