一、SuperSet-图表展示

1、概念

(1)概念

通过dashboard(仪表盘)对图表中的数据进行展示

BI工具:根据配置的要求,进行数据源的配置即可

是准商业级别的BI web应用

(2)原理

通过UI界面,向Flask编写的web应用发送请求----> web应用处理请求,对接数据源摄取数据------->响应数据到浏览器------>NVD3进行可视化

集合NVD3(echarts)实现图标的可视化

(3)应用场景

对接常用的大数据分析工具,如Hive、Kylin、Druid等,且支持自定义仪表盘,故可作为数仓的可视化工具

2、安装

安装miniconda

创建python3.6环境

conda环境中环境中安装superset

3、术语介绍

chart:图表

dashboard:仪表盘(定制图标的样式等待)

4、使用

(1)MySQL

Sources/Databases配置、Table配置

配置仪表盘、创建并配置图表、添加到仪表盘(可以调整仪表盘刷新时间)

(2)各种图表

柱状图、折线图、饼图

透视图、大数、趋势大数

二、Ranger--权限管理

1、概述

在Hadoop平台上进行监控,启用服务,数据安全访问管理的框架

实现多用户环境中的安全管理

核心是web应用程序,也成为RangerAdmin模块

2、安装

创建Ranger存储的数据库、安装RangerAdmin

启动访问并登录web

安装 RangerUsersync(实现Linux系统中用户和组信息同步到数据库),root用户启动服务

安装Ranger Hive-plugin:对使用jdbc方式访问hive的请求进行权限管理,hive-cli并不受限制

配置hive插件

3、使用Ranger对Hive进行权限管理

查看默认的访问策略,admin拥有权限,其他用户不能访问

为用户配置权限Add New Policy

4、脱敏操作--点击Masing标签

限制用户对某一列的访问

5、行级别过滤--选择Row Level Filter标签

只允许查询emp表中job类型为SALESMAN的用户信息

将表中的数据进行条件过滤后再暴露给用户

三、Atlas:元数据管理

1、概述

(1)概念

为组织提供开放式元数据管理和治理功能

对数据资产进行分类和管理,提供围绕这些数据资产的协作功能

(2)功能

如insert overwrite、query等

建立表与表之间的血缘依赖、字段与字段之间的血缘依赖

(3)原理

支持Hive、HBASE、sqoop、storm、kafka提取元数据

2、安装及使用

(1)安装

集成外部的HBase + Solr(部署Solr的Cloud模式,并编写群起脚本)

(2)集成外部框架-修改配置

Atlas集成Hbase

Atlas集成Solr

Atlas集成Kafka

Atlas其他配置

Atlas集成Hive

(3)集群启动

bin/solr start

(4)导入hive元数据

bin/import-hive.sh

3、界面查看

(1)查看基本信息

查询Hive库

查询Hive进程

查询Hive表

查询Hive列

筛选查询条件

查看具有血缘依赖列的数据

(2)查看血缘依赖关系-点击Lineage

第一次查看表血缘依赖

第一次查看字段血缘依赖

启动GMV全流程任务:启动executor服务器和web服务器并上传任务

4、编译源码

四、Zabbix:监控健康性并报警

1、入门

(1)概述

监控网络参数以及服务器健康性和完整性,使用灵活的通知机制

对事件配置邮件告警

(2)基础架构

agent部署在监控目标上

server收集监控数据

2、Server节点安装

(1)集群规划

节点

服务

hadoop102

zabbix-server、zabbix-agent、MySQL、zabbix-web

hadoop103

zabbix-agent

hadoop104

zabbix-agent

(2)准备工作

关闭防火墙iptables

关闭SELinux,重启服务器sudo reboot

(3)zabbix编译及安装

创建zabbix用户和用户组

上传压缩包

创建对应的数据库,导入zabbix提供的SQL脚本

上传并安装编译环境

编译安装sudo make install

修改server/agent配置文件

编写系统服务脚本

(4)部署Zabbix-web

部署httpd

安装php5.6

(5)Zabbix启动

启动Zabbix-Server

启动Zabbix-Agent

启动Zabbix-Web(httpd)

Zabbix登录(配置数据库连接信息)

3、Zabbix安装之agent节点

创建用户

编译环境准备gcc-c++

解压编译并安装make install

修改配置

编辑系统服务脚本

启动Zabbix-Agent

4、使用

(1)术语

Host(主机)、Item(监控项)、Trigger(触发器,一个逻辑表达式)、Action(动作)

(2)实战

创建Host

创建Item(DataNode)

创建Trigger,添加表达式

创建Media type(绑定email)

【企业流行新数仓】Day03:SuperSet图表,Ranger权限、脱敏、行级别过滤,Atlas元数据、查询和查看全表/字段血缘依赖,Zabbix告警的更多相关文章

  1. 看SparkSql如何支撑企业数仓

    企业级数仓架构设计与选型的时候需要从开发的便利性.生态.解耦程度.性能. 安全这几个纬度思考.本文作者:惊帆 来自于数据平台 EMR 团队 前言 Apache Hive 经过多年的发展,目前基本已经成 ...

  2. 国产开源优秀新一代MPP数据库StarRocks入门之旅-数仓新利器(上)

    概述 背景 Apache Doris官方地址 https://doris.apache.org/ Apache Doris GitHub源码地址 https://github.com/apache/i ...

  3. 【云+社区极客说】新一代大数据技术:构建PB级云端数仓实践

    本文来自腾讯云技术沙龙,本次沙龙主题为构建PB级云端数仓实践 在现代社会中,随着4G和光纤网络的普及.智能终端更清晰的摄像头和更灵敏的传感器.物联网设备入网等等而产生的数据,导致了PB级储存的需求加大 ...

  4. HAWQ取代传统数仓实践(十九)——OLAP

    一.OLAP简介 1. 概念 OLAP是英文是On-Line Analytical Processing的缩写,意为联机分析处理.此概念最早由关系数据库之父E.F.Codd于1993年提出.OLAP允 ...

  5. CarbonData:大数据融合数仓新一代引擎

    [摘要] CarbonData将存储和计算逻辑分离,通过索引技术让存储和计算物理上更接近,提升CPU和IO效率,实现超高性能的大数据分析.以CarbonData为融合数仓的大数据解决方案,为金融转型打 ...

  6. Greenplum数仓监控解决方案(开源版本)

    Greenplum监控解决方案 基于Prometheus+Grafana+greenplum_exporter+node_exporter实现 关联图 一.基本概念 1.Prometheus ​ Pr ...

  7. 数仓建模—OneID

    今天是我在上海租房的小区被封的第三天,由于我的大意,没有屯吃的,外卖今天完全点不到了,中午的时候我找到了一包快过期的肉松饼,才补充了1000焦耳的能量.但是中午去做核酸的时候,我感觉走路有点不稳,我看 ...

  8. 数仓建设 | ODS、DWD、DWM等理论实战(好文收藏)

    本文目录: 一.数据流向 二.应用示例 三.何为数仓DW 四.为何要分层 五.数据分层 六.数据集市 七.问题总结 导读 数仓在建设过程中,对数据的组织管理上,不仅要根据业务进行纵向的主题域划分,还需 ...

  9. 数仓建模—建模工具PdMan(CHINER)介绍

    数据仓库系列文章(持续更新) 数仓架构发展史 数仓建模方法论 数仓建模分层理论 数仓建模-宽表的设计 数仓建模-指标体系 数据仓库之拉链表 数仓-数据集成 数仓-数据集市 数仓-商业智能系统 数仓-埋 ...

  10. 技术专家说 | 如何基于 Spark 和 Z-Order 实现企业级离线数仓降本提效?

    [点击了解更多大数据知识] 市场的变幻,政策的完善,技术的革新--种种因素让我们面对太多的挑战,这仍需我们不断探索.克服. 今年,网易数帆将持续推出新栏目「金融专家说」「技术专家说」「产品专家说」等, ...

随机推荐

  1. mysql8.0.25版本设置主从数据库,并且从库只读

    具体操作步骤 说明:主从数据库版本一致 1.主库创建同步使用的用户 create user 'repl'@'%' identified with 'mysql_native_password' by ...

  2. Traefik 控制面板 SaaS 服务 Pilot

    文章转载自:https://mp.weixin.qq.com/s?__biz=MzU4MjQ0MTU4Ng==&mid=2247485572&idx=1&sn=8ffa2bc7 ...

  3. Jenkins 中使用 Git Parameter 插件动态获取 Git 的分支

  4. 使用growpart扩容CentOS虚拟机磁盘

    说明 一块磁盘,比如有130G,但是只有100G拿来用了,安装俩分区,一个是swap,另一个是根分区/,根分区采用的是LVM逻辑卷管理. 现在要做的是把剩余的这空闲30G分配给根分区使用 这个并不是新 ...

  5. Java Maven项目之Nexus私服搭建和版本管理应用

    转载自:https://cloud.tencent.com/developer/article/1010603 1.Nexus介绍 Nexus是一个强大的Maven仓库管理器,它极大地简化了自己内部仓 ...

  6. 组合总和 II

    组合总和 II 题目介绍 给定一个候选人编号的集合 candidates 和一个目标数 target ,找出 candidates 中所有可以使数字和为 target 的组合. candidates ...

  7. STM32F10x SPL V3.6.2 集成 FreeRTOS v202112

    STM32F10x SPL 集成 FreeRTOS 在整理 GCC Arm 工具链的Bluepill代码示例, 常用外设都差不多了, 接下来是 FreeRTOS, 网上查到的基本上都是基于旧版本的集成 ...

  8. [题解] Atcoder Beginner Contest ABC 270 G Ex 题解

    点我看题 G - Sequence in mod P 稍微观察一下就会发现,进行x次操作后的结果是\(A^xS+(1+\cdots +A^{x-1})B\).如果没有右边那一坨关于B的东西,那我们要求 ...

  9. 工作7年收集到的git命令

    概念 git 中的术语解释: 仓库也叫版本库(repository) stage:暂存区,add 后会存到暂存区,commit 后提交到版本库 git 安装 linux 下安装 git 第一种方法:y ...

  10. P7361 「JZOI-1」拜神 (字符串)

    题意: 给一个串,\(Q\) 次询问区间 \([l,r]\) 中至少出现两次的子串的最大长度. 写LCT是什么东东 以下做法很经典: 先求出 SA 以及 height 数组,然后按 height 从大 ...