轻量级OLAP（二）：Hive + Elasticsearch

【轻量级OLAP（二）：Hive + Elasticsearch】的更多相关文章

二 Hive分桶

二.Hive分桶 1.创建分桶表 create table t_buck (id string ,name string) clustered by (id) //根据id分桶 sorted by (id) //根据id排序 buckets //分为4个桶 row format delimited fields terminated by ','; 向创建的分桶表中插入数据需要是已分桶且排序的.通常是将其他表查询的结果插入桶中才会执行分桶操作.分桶的原理和分区原理差不多,类似HashPartit…

Elasticsearch入门教程(二)：Elasticsearch核心概念

原文:Elasticsearch入门教程(二):Elasticsearch核心概念版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/vbirdbest/article/details/79200022 基本概念介绍 Elasticsearch是一个基于Lucene构建的开源.分布式.RESTful的搜索引擎,能够实现近实时(NRT)搜索,稳定.可靠.安装方便.Elasticsearch 不…

轻量级OLAP（二）：Hive + Elasticsearch

1. 引言在做OLAP数据分析时,常常会遇到过滤分析需求,比如:除去只有性别.常驻地标签的用户,计算广告媒体上的覆盖UV.OLAP解决方案Kylin不支持复杂数据类型(array.struct.map),要求数据输入Schema必须是平铺的,但是平铺后丢失了用户的聚合标签信息,而没有办法判断某一个用户是否只有性别.常驻地标签.显然,我们需要一种支持复杂数据类型的OLAP数据库:底层为Lucene的Elasticsearch正在向OLAP融合,腾讯内部已经用基于Lucene的分析数据库Herme…

HA分布式集群二hive配置

一,概念 hive:是一种数据仓库,数据储存在:hdfs上,hsql是由替换简单的map-reduce,hive通过mysql来记录映射数据二,安装 1,mysql安装: 1,检测是否有mariadb rpm -qa|grep mariadb tar -zxvf mysql-5.7.18-linux-glibc2.5-x86_64.tar.gz 存在:rpm -e mariadb-libs-5.5.52-1.el7.x86_64 --nodeps 2,安装前准备: # ha1环境下:mysql…

ELK学习记录二：elasticsearch、logstash及kibana的安装与配置

注意事项: 1.ELK版本要求5.X以上,本人使用版本:elasticsearch-6.0.0.kibana-6.0.0-linux-x86_64.logstash-6.0.0.tar 2.Elasticsearch5.x版本必须基于jdk1.8,安装环境必须使用jdk1.8 3.本人使用linux操作系统的centos6.5版本作为测试环境,其他环境命令有差异,请注意 4.本教程适合完全离线安装 5.ELK及jdk安装包下载路径:https://pan.baidu.com/s/1KAPtSt4…

DDD实战进阶第一波(三)：开发一般业务的大健康行业直销系统（搭建支持DDD的轻量级框架二）

了解了DDD的好处与基本的核心组件后,我们先不急着进入支持DDD思想的轻量级框架开发,也不急于直销系统需求分析和具体代码实现,我们还少一块, 那就是经典DDD的架构,只有了解了经典DDD的架构,你才能知道具体在哪层要实现哪些功能,编写哪些代码,具体在开发DDD的轻量级框架与具体模块代码实现时,才能做到有的放矢. 在这里需要说明的是,我们的大健康行业直销系统有一定的业务复杂性,没有高并发.高性能的需求,所以无论是经销商上下文.产品上下文还是订单上下文的具体实现, 我们都将遵循经典DDD架构,而不是…

ES之二：Elasticsearch原理

Elasticsearch是最近两年异军突起的一个兼有搜索引擎和NoSQL数据库功能的开源系统,基于Java/Lucene构建.最近研究了一下,感觉 Elasticsearch 的架构以及其开源的生态构建都有许多可借鉴之处,所以整理成文章分享下.本文的代码以及架构分析主要基于 Elasticsearch 2.X 最新稳定版. Elasticsearch 看名字就能大概了解下它是一个弹性的搜索引擎.首先弹性隐含的意思是分布式,单机系统是没法弹起来的,然后加上灵活的伸缩机制,就是这里的 Elasti…

〈二〉ElasticSearch的认识：索引、类型、文档

目录上节回顾本节前言索引index 创建索引查看索引查看单个索引查看所有索引删除索引修改索引修改副本分片数量关闭索引索引别名增加索引别名: 查看索引别名: 删除索引别名: 补充小节总结: 类型type 补充: 小节总结: 文档document 插入文档查询指定文档更新文档删除文档查询所有文档补充: 小节总结发表日期:2019年9月19日上节回顾在学习新的内容之前,先回顾一下上节的内容,上节主要讲述了以下的内容: ElasticSearch是什么?什么是搜…

轻量级OLAP（一）：Cube计算

有一个数据多维分析的任务: 日志的周UV: APP的收集量及标注量,TOP 20 APP(周UV),TOP 20 APP标注分类(周UV): 手机机型的收集量及标注量,TOP 20 机型(周UV),TOP 20 手机厂商(周UV): 初始的解决方案:Spark读取数据日志,然后根据分析需求逐一进行map.distinct.reduceByKey得到分析结果.但是,这种方案存在着非常大的缺点--重复扫描数据源多次. 1. Pig Pig提供cube关键字做OLAP,将dimension分为了两类:…

ELK 之二：ElasticSearch 和Logstash高级使用

一:文档官方文档地址:1.x版本和2.x版本 https://www.elastic.co/guide/en/elasticsearch/guide/index.html 硬件要求: 1.内存,官方推荐64G,但是自己使用32G或16G也可以 2.CPU,核心越多越好 3.硬盘,越快越好,不建议使用NAS网络存储,官方建议使用RAID 0 4.网络,千兆或以上 5.JVM,建议使用比较新的版本,可以是openJDK或oracle的Java JDK 6.文件描述符,即可以打开的最大文件数,一定要…