ElasticSearch做实时OLAP框架～实时搜索、统计和OLAP需求，甚至可以作为NOSQL来使用（转）

使用ElasticSearch作为大数据平台的实时OLAP框架 – lxw的大数据田地
http://lxw1234.com/archives/2015/12/588.htm

一直想找一个用于大数据平台实时OLAP（甚至是实时计算）的框架，之前调研的Druid（druid.io）太过复杂，整个Druid由5、6个服务组成，而且加载数据也不太方便，性能一般，亦或是我还不太会用它。后来发现使用ElasticSearch就可以满足海量数据实时OLAP的需求。
ElasticSearch相信大家都很熟悉了，它在搜索领域已经有了举足轻重的地位，而且也支持越来越多的聚合统计功能，还和YARN、Hadoop、Hive、Spark、Pig、Flume等大数据框架兼容的越来越好，比如：可以将ElasticSearch跑在YARN上，还可以在Hive中建立外部表映射到ElasticSearch的Index中，直接在Hive中执行INSERT语句，将数据加载进ElasticSearch。
所谓OLAP，其实就是从事实表中统计任意组合维度的指标，也就是过滤、分组、聚合，其中，聚合除了一般的SUM、COUNT、AVG、MAX、MIN等，还有一个重要的COUNT(DISTINCT)，看上去这些操作在SQL中是非常简单的统计，但在海量数据、低延迟的要求下，并不是那么容易做的。
ElasticSearch本来就是做实时搜索的，过滤自然不是问题，现在也支持各种聚合以及Pipeline aggregations（相当于SQL子查询的功能），而且ElasticSearch的安装部署也非常简单，一个节点只有一个服务进程，关于安装配置可参考：http://lxw1234.com/archives/2015/12/582.htm
本文以两个业务场景的例子，看一下ElasticSearch是如何满足我们的需求的。

例子1：网站流量报告

在我们的报表平台有这样一张报表，用于查看每个网站每天的流量指标：

elasticsearch

其中，维度有：天、小时、网站，指标有：PV****、UV****、访问次数、跳出率、平均停留时间、回访率等。另外，还有一张报表是地域报告，维度多了省份和城市，指标一样。目前的做法是将可选的维度组合及对应的指标先在Hive中分析好，再将结果同步至MySQL，供报表展现。
真正意义上的OLAP做法，我是这样做的：在Hive分析好一张最细粒度为visit_id（session_id）的事实表，字段及数据如下：

elasticsearch

然后将这张事实表的数据加载到ElasticSearch中的logs2/sitelog1211中。查看数据：

从目前的调研结果来看，ElasticSearch没有让人失望，部署简单，数据加载方便，聚合功能完备，查询速度快，目前完全可以满足我们的实时搜索、统计和OLAP需求，甚至可以作为NOSQL来使用，接下来再做更深入的测试。另外，还有一个开源的SQL for ElasticSearch的框架Crate（crate.io），是在ElasticSearch之上封装了SQL接口，使得查询统计更加方便，不过SQL支持的功能有限，使用的ElasticSearch版本较低，后面试用一下再看。

使用Hive读写ElasticSearch中的数据 – lxw的大数据田地
http://lxw1234.com/archives/2015/12/585.htm
总结

使用Hive将数据添加到ElasticSearch中还是非常实用的，因为我们的数据都是在HDFS上，通过Hive可以查询的。

另外，通过Hive可以查询ES数据，并在其上做复杂的统计与分析，但性能一般，比不上使用ES原生API，亦或是还没有掌握使用技巧，后面继续研究。

Elasticsearch as Database - taowen - SegmentFault
https://segmentfault.com/a/1190000003502849

//es-monitor【用SQL查询Elasticsearch】
GitHub - taowen/es-monitor: query metric from elasticsearch using sql
https://github.com/taowen/es-monitor

As Console Command
For example
cat << EOF | python -m es_sql http://es_hosts SELECT "user", "oid", max("@timestamp") as value FROM gs_api_track_ GROUP BY "user", "oid" WHERE "@timestamp" > 1454239084000EOF

python -m es_sql
can be es-sql
if pip install es-sql

[

](https://github.com/taowen/es-monitor#as-python-library)As Python Library
pip install es-sql

import es_sqles_sql.execute_sql( 'http://127.0.0.1:9200', 'SELECT COUNT(*) FROM your_index WHERE field=%(param)s', arguments={'param': 'value'})

作者：葡萄喃喃呓语
链接：https://www.jianshu.com/p/f3c729c08b54
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

ElasticSearch做实时OLAP框架～实时搜索、统计和OLAP需求，甚至可以作为NOSQL来使用（转）的更多相关文章

在 Laravel 项目中使用 Elasticsearch 做引擎，scout 全文搜索(小白出品, 绝对白话)
项目中需要搜索, 所以从零开始学习大家都在用的搜索神器 elasiticsearch. 刚开始 google 的时候, 搜到好多经验贴和视频(中文的, 英文的), 但是由于是第一次接触, 一点概念都没 ...
实时计算框架：Flink集群搭建与运行机制
一.Flink概述 1.基础简介 Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算.Flink被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算.主要特性包 ...
C++分布式实时应用框架 (Cpp Distributed Real-time Application Framework)----(一):整体介绍
C++分布式实时应用框架 (Cpp Distributed Real-time Application Framework) 在现今软件系统纷纷"云化"的浪潮下,各种支持" ...
(三):C++分布式实时应用框架——系统管理模块
C++分布式实时应用框架--系统管理模块上篇:(二): 基于ZeroMQ的实时通讯平台一个分布式实时系统集群动辄上百台机器,集群的规模已经限定这将是一个"封闭"的系统.你不可能 ...
(四)：C++分布式实时应用框架——状态中心模块
C++分布式实时应用框架--状态中心模块上篇:(三):C++分布式实时应用框架--系统管理模块技术交流合作QQ群:436466587 欢迎讨论交流版权声明:本文版权及所用技术归属smartguy ...
(七)：C++分布式实时应用框架 2.0
C++分布式实时应用框架 2.0 技术交流合作QQ群:436466587 欢迎讨论交流上一篇:(六):大型项目容器化改造版权声明:本文版权及所用技术归属smartguys团队所有,对于抄袭,非经同 ...
(一):C++分布式实时应用框架----整体介绍
C++分布式实时应用框架 (Cpp Distributed Real-time Application Framework) 版权声明:本文版权及所用技术归属smartguys团队所有,对于抄袭,非经 ...
Node.js 打造实时多人游戏框架
在 Node.js 如火如荼发展的今天,我们已经可以用它来做各种各样的事情.前段时间UP主参加了极客松活动,在这次活动中我们意在做出一款让“低头族”能够更多交流的游戏,核心功能便是 Lan Party ...
Spark Streaming实时计算框架介绍
随着大数据的发展,人们对大数据的处理要求也越来越高,原有的批处理框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,如实时推荐.用户行为分析等. Spark Streaming是建立在 ...

随机推荐

【分类算法】K近邻（KNN） ——kd树（转载）
K近邻(KNN)的核心算法是kd树,转载如下几个链接: [量化课堂]一只兔子帮你理解 kNN [量化课堂]kd 树算法之思路篇 [量化课堂]kd 树算法之详细篇
Windows10下Anaconda虚拟环境下安装pycocotools
0 - 步骤安装visualcppbuildtools_full.exe(链接:https://blog.csdn.net/u012247418/article/details/82314129) ...
阶段5 3.微服务项目【学成在线】_day17 用户认证 Zuul_02-用户认证-认证服务查询数据库-需求分析&搭建环境
1.2 认证服务查询数据库 1.2.1 需求分析认证服务根据数据库中的用户信息去校验用户的身份,即校验账号和密码是否匹配. 认证服务不直接连接数据库,而是通过用户中心服务去查询用户中心数据库. 完整 ...
Go项目部署到服务器
-bash: ./main: cannot execute binary file 将 go build main.go 生成的文件上传到服务器后,./main 运行后出新的报错 env GOOS=l ...
未能加载文件或程序集“System.Web.Extensions, Version=1.0.61025.0, Culture=neutral
近日将电脑重装了一下,刚刚装上vs2005后打开以前的一个项目,居然出现了下面的错误: 未能加载文件或程序集“System.Web.Extensions.Design, Version=1.0.610 ...
tp5博客项目实战2
改虚拟主机 (用www.tp5.com直接访问替代localhost/blog/tp5/public) 1.host修改位置C:\Windows\System32\drivers\etc 127.0 ...
Mac brew命令踩坑
brew是mac上的在线包管理软件,相当于linux apt以及yum包管理工具 1.取消brew的自动更新(https://blog.csdn.net/yf9595/article/details/ ...
jquery获得 url的变量
(function($){ $.extend({ urlGet:function () { var aQuery = window.location.href.split("?") ...
python不定长参数 *argc,**kargcs（19）
在 python函数的声明和调用中我们简单的了解了函数的相关使用,然而在函数传递参数的时候,我们埋下了一个坑,关于不定长参数的传递我们还没有讲,今天这篇文章主要就是讲解这个问题. 一.函数不定长参数 ...
CDH建表字符集问题
登陆metadata数据库: show variables like 'character_set%'; alter database hivemeta default character set l ...

ElasticSearch做实时OLAP框架～实时搜索、统计和OLAP需求，甚至可以作为NOSQL来使用（转）

ElasticSearch做实时OLAP框架～实时搜索、统计和OLAP需求，甚至可以作为NOSQL来使用（转）的更多相关文章

随机推荐

热门专题