二.Hive分桶 1.创建分桶表 create table t_buck (id string ,name string) clustered by (id) //根据id分桶 sorted by (id) //根据id排序 buckets //分为4个桶 row format delimited fields terminated by ','; 向创建的分桶表中插入数据需要是已分桶且排序的.通常是将其他表查询的结果插入桶中才会执行分桶操作.分桶的原理和分区原理差不多,类似HashPartit…
原文:Elasticsearch入门教程(二):Elasticsearch核心概念 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/vbirdbest/article/details/79200022 基本概念介绍 Elasticsearch是一个基于Lucene构建的开源.分布式.RESTful的搜索引擎,能够实现近实时(NRT)搜索,稳定.可靠.安装方便.Elasticsearch 不…
1. 引言 在做OLAP数据分析时,常常会遇到过滤分析需求,比如:除去只有性别.常驻地标签的用户,计算广告媒体上的覆盖UV.OLAP解决方案Kylin不支持复杂数据类型(array.struct.map),要求数据输入Schema必须是平铺的,但是平铺后丢失了用户的聚合标签信息,而没有办法判断某一个用户是否只有性别.常驻地标签.显然,我们需要一种支持复杂数据类型的OLAP数据库:底层为Lucene的Elasticsearch正在向OLAP融合,腾讯内部已经用基于Lucene的分析数据库Herme…
一,概念 hive:是一种数据仓库,数据储存在:hdfs上,hsql是由替换简单的map-reduce,hive通过mysql来记录映射数据 二,安装 1,mysql安装: 1,检测是否有mariadb rpm -qa|grep mariadb tar -zxvf mysql-5.7.18-linux-glibc2.5-x86_64.tar.gz 存在:rpm -e mariadb-libs-5.5.52-1.el7.x86_64 --nodeps 2,安装前准备: # ha1环境下:mysql…
注意事项: 1.ELK版本要求5.X以上,本人使用版本:elasticsearch-6.0.0.kibana-6.0.0-linux-x86_64.logstash-6.0.0.tar 2.Elasticsearch5.x版本必须基于jdk1.8,安装环境必须使用jdk1.8 3.本人使用linux操作系统的centos6.5版本作为测试环境,其他环境命令有差异,请注意 4.本教程适合完全离线安装 5.ELK及jdk安装包下载路径:https://pan.baidu.com/s/1KAPtSt4…
了解了DDD的好处与基本的核心组件后,我们先不急着进入支持DDD思想的轻量级框架开发,也不急于直销系统需求分析和具体代码实现,我们还少一块, 那就是经典DDD的架构,只有了解了经典DDD的架构,你才能知道具体在哪层要实现哪些功能,编写哪些代码,具体在开发DDD的轻量级框架与具体模块代码实现时,才能做到有的放矢. 在这里需要说明的是,我们的大健康行业直销系统有一定的业务复杂性,没有高并发.高性能的需求,所以无论是经销商上下文.产品上下文还是订单上下文的具体实现, 我们都将遵循经典DDD架构,而不是…
Elasticsearch是最近两年异军突起的一个兼有搜索引擎和NoSQL数据库功能的开源系统,基于Java/Lucene构建.最近研究了一下,感觉 Elasticsearch 的架构以及其开源的生态构建都有许多可借鉴之处,所以整理成文章分享下.本文的代码以及架构分析主要基于 Elasticsearch 2.X 最新稳定版. Elasticsearch 看名字就能大概了解下它是一个弹性的搜索引擎.首先弹性隐含的意思是分布式,单机系统是没法弹起来的,然后加上灵活的伸缩机制,就是这里的 Elasti…
目录 上节回顾 本节前言 索引index 创建索引 查看索引 查看单个索引 查看所有索引 删除索引 修改索引 修改副本分片数量 关闭索引 索引别名 增加索引别名: 查看索引别名: 删除索引别名: 补充 小节总结: 类型type 补充: 小节总结: 文档document 插入文档 查询指定文档 更新文档 删除文档 查询所有文档 补充: 小节总结 发表日期:2019年9月19日 上节回顾 在学习新的内容之前,先回顾一下上节的内容,上节主要讲述了以下的内容: ElasticSearch是什么?什么是搜…
有一个数据多维分析的任务: 日志的周UV: APP的收集量及标注量,TOP 20 APP(周UV),TOP 20 APP标注分类(周UV): 手机机型的收集量及标注量,TOP 20 机型(周UV),TOP 20 手机厂商(周UV): 初始的解决方案:Spark读取数据日志,然后根据分析需求逐一进行map.distinct.reduceByKey得到分析结果.但是,这种方案存在着非常大的缺点--重复扫描数据源多次. 1. Pig Pig提供cube关键字做OLAP,将dimension分为了两类:…
一:文档 官方文档地址:1.x版本和2.x版本 https://www.elastic.co/guide/en/elasticsearch/guide/index.html 硬件要求: 1.内存,官方推荐64G,但是自己使用32G或16G也可以 2.CPU,核心越多越好 3.硬盘,越快越好,不建议使用NAS网络存储,官方建议使用RAID 0 4.网络,千兆或以上 5.JVM,建议使用比较新的版本,可以是openJDK或oracle的Java JDK 6.文件描述符,即可以打开的最大文件数,一定要…