一、SuperSet-图表展示

1、概念

(1)概念

通过dashboard(仪表盘)对图表中的数据进行展示

BI工具:根据配置的要求,进行数据源的配置即可

是准商业级别的BI web应用

(2)原理

通过UI界面,向Flask编写的web应用发送请求----> web应用处理请求,对接数据源摄取数据------->响应数据到浏览器------>NVD3进行可视化

集合NVD3(echarts)实现图标的可视化

(3)应用场景

对接常用的大数据分析工具,如Hive、Kylin、Druid等,且支持自定义仪表盘,故可作为数仓的可视化工具

2、安装

安装miniconda

创建python3.6环境

conda环境中环境中安装superset

3、术语介绍

chart:图表

dashboard:仪表盘(定制图标的样式等待)

4、使用

(1)MySQL

Sources/Databases配置、Table配置

配置仪表盘、创建并配置图表、添加到仪表盘(可以调整仪表盘刷新时间)

(2)各种图表

柱状图、折线图、饼图

透视图、大数、趋势大数

二、Ranger--权限管理

1、概述

在Hadoop平台上进行监控,启用服务,数据安全访问管理的框架

实现多用户环境中的安全管理

核心是web应用程序,也成为RangerAdmin模块

2、安装

创建Ranger存储的数据库、安装RangerAdmin

启动访问并登录web

安装 RangerUsersync(实现Linux系统中用户和组信息同步到数据库),root用户启动服务

安装Ranger Hive-plugin:对使用jdbc方式访问hive的请求进行权限管理,hive-cli并不受限制

配置hive插件

3、使用Ranger对Hive进行权限管理

查看默认的访问策略,admin拥有权限,其他用户不能访问

为用户配置权限Add New Policy

4、脱敏操作--点击Masing标签

限制用户对某一列的访问

5、行级别过滤--选择Row Level Filter标签

只允许查询emp表中job类型为SALESMAN的用户信息

将表中的数据进行条件过滤后再暴露给用户

三、Atlas:元数据管理

1、概述

(1)概念

为组织提供开放式元数据管理和治理功能

对数据资产进行分类和管理,提供围绕这些数据资产的协作功能

(2)功能

如insert overwrite、query等

建立表与表之间的血缘依赖、字段与字段之间的血缘依赖

(3)原理

支持Hive、HBASE、sqoop、storm、kafka提取元数据

2、安装及使用

(1)安装

集成外部的HBase + Solr(部署Solr的Cloud模式,并编写群起脚本)

(2)集成外部框架-修改配置

Atlas集成Hbase

Atlas集成Solr

Atlas集成Kafka

Atlas其他配置

Atlas集成Hive

(3)集群启动

bin/solr start

(4)导入hive元数据

bin/import-hive.sh

3、界面查看

(1)查看基本信息

查询Hive库

查询Hive进程

查询Hive表

查询Hive列

筛选查询条件

查看具有血缘依赖列的数据

(2)查看血缘依赖关系-点击Lineage

第一次查看表血缘依赖

第一次查看字段血缘依赖

启动GMV全流程任务:启动executor服务器和web服务器并上传任务

4、编译源码

四、Zabbix:监控健康性并报警

1、入门

(1)概述

监控网络参数以及服务器健康性和完整性,使用灵活的通知机制

对事件配置邮件告警

(2)基础架构

agent部署在监控目标上

server收集监控数据

2、Server节点安装

(1)集群规划

节点

服务

hadoop102

zabbix-server、zabbix-agent、MySQL、zabbix-web

hadoop103

zabbix-agent

hadoop104

zabbix-agent

(2)准备工作

关闭防火墙iptables

关闭SELinux,重启服务器sudo reboot

(3)zabbix编译及安装

创建zabbix用户和用户组

上传压缩包

创建对应的数据库,导入zabbix提供的SQL脚本

上传并安装编译环境

编译安装sudo make install

修改server/agent配置文件

编写系统服务脚本

(4)部署Zabbix-web

部署httpd

安装php5.6

(5)Zabbix启动

启动Zabbix-Server

启动Zabbix-Agent

启动Zabbix-Web(httpd)

Zabbix登录(配置数据库连接信息)

3、Zabbix安装之agent节点

创建用户

编译环境准备gcc-c++

解压编译并安装make install

修改配置

编辑系统服务脚本

启动Zabbix-Agent

4、使用

(1)术语

Host(主机)、Item(监控项)、Trigger(触发器,一个逻辑表达式)、Action(动作)

(2)实战

创建Host

创建Item(DataNode)

创建Trigger,添加表达式

创建Media type(绑定email)

【企业流行新数仓】Day03:SuperSet图表,Ranger权限、脱敏、行级别过滤,Atlas元数据、查询和查看全表/字段血缘依赖,Zabbix告警的更多相关文章

  1. 看SparkSql如何支撑企业数仓

    企业级数仓架构设计与选型的时候需要从开发的便利性.生态.解耦程度.性能. 安全这几个纬度思考.本文作者:惊帆 来自于数据平台 EMR 团队 前言 Apache Hive 经过多年的发展,目前基本已经成 ...

  2. 国产开源优秀新一代MPP数据库StarRocks入门之旅-数仓新利器(上)

    概述 背景 Apache Doris官方地址 https://doris.apache.org/ Apache Doris GitHub源码地址 https://github.com/apache/i ...

  3. 【云+社区极客说】新一代大数据技术:构建PB级云端数仓实践

    本文来自腾讯云技术沙龙,本次沙龙主题为构建PB级云端数仓实践 在现代社会中,随着4G和光纤网络的普及.智能终端更清晰的摄像头和更灵敏的传感器.物联网设备入网等等而产生的数据,导致了PB级储存的需求加大 ...

  4. HAWQ取代传统数仓实践(十九)——OLAP

    一.OLAP简介 1. 概念 OLAP是英文是On-Line Analytical Processing的缩写,意为联机分析处理.此概念最早由关系数据库之父E.F.Codd于1993年提出.OLAP允 ...

  5. CarbonData:大数据融合数仓新一代引擎

    [摘要] CarbonData将存储和计算逻辑分离,通过索引技术让存储和计算物理上更接近,提升CPU和IO效率,实现超高性能的大数据分析.以CarbonData为融合数仓的大数据解决方案,为金融转型打 ...

  6. Greenplum数仓监控解决方案(开源版本)

    Greenplum监控解决方案 基于Prometheus+Grafana+greenplum_exporter+node_exporter实现 关联图 一.基本概念 1.Prometheus ​ Pr ...

  7. 数仓建模—OneID

    今天是我在上海租房的小区被封的第三天,由于我的大意,没有屯吃的,外卖今天完全点不到了,中午的时候我找到了一包快过期的肉松饼,才补充了1000焦耳的能量.但是中午去做核酸的时候,我感觉走路有点不稳,我看 ...

  8. 数仓建设 | ODS、DWD、DWM等理论实战(好文收藏)

    本文目录: 一.数据流向 二.应用示例 三.何为数仓DW 四.为何要分层 五.数据分层 六.数据集市 七.问题总结 导读 数仓在建设过程中,对数据的组织管理上,不仅要根据业务进行纵向的主题域划分,还需 ...

  9. 数仓建模—建模工具PdMan(CHINER)介绍

    数据仓库系列文章(持续更新) 数仓架构发展史 数仓建模方法论 数仓建模分层理论 数仓建模-宽表的设计 数仓建模-指标体系 数据仓库之拉链表 数仓-数据集成 数仓-数据集市 数仓-商业智能系统 数仓-埋 ...

  10. 技术专家说 | 如何基于 Spark 和 Z-Order 实现企业级离线数仓降本提效?

    [点击了解更多大数据知识] 市场的变幻,政策的完善,技术的革新--种种因素让我们面对太多的挑战,这仍需我们不断探索.克服. 今年,网易数帆将持续推出新栏目「金融专家说」「技术专家说」「产品专家说」等, ...

随机推荐

  1. Solutions:Elastic SIEM - 适用于家庭和企业的安全防护 ( 二)

  2. 第六章:Django 综合篇 - 2:核心配置项

    Django的默认配置文件中,包含上百条配置项目,其中很多是我们'一辈子'都不碰到或者不需要单独配置的,这些项目在需要的时候再去查手册. 强调:配置的默认值不是在settings.py文件中!不要以为 ...

  3. Secret概述

    Secret 概述 Kubernetes Secret 对象可以用来储存敏感信息,例如:密码.OAuth token.ssh 密钥等.如果不使用 Secret,此类信息可能被放置在 Pod 定义中或者 ...

  4. Fluentd部署:如何监控Fluentd

    监控的目的是确保日志采集能稳定高效运行. Fluentd内部运行指标 Fluentd内部保存着一些运行指标,这些指标可通过REST api直接获取,也支持通过第三方工具,如Prometheus,来访问 ...

  5. C#-5 类和继承

    一 类继承 继承是使代码可以复用的重要手段,也是面向对象程序设计的核心思想之一.继承呈现了面向对象程序设计的层次结构. 通过继承,我们能以一个已经存在的类为基础来定义一个新类.已存在的类称为基类或父类 ...

  6. 为什么我写的z-index不生效?

    前言 相信大家在工作中都遇到过这样一些奇怪的问题: 1.为什么我写的z-index没有生效? 2.为什么z-index大的元素却没有盖住z-index小的元素? 3.如何让父元素盖住子元素呢? 以上这 ...

  7. 研一入坑Go 文件操作

    1 package main 2 3 import ( 4 "fmt" 5 "os" 6 "path" 7 "path/filep ...

  8. iptables使用详解

    iptables使用详解 @(linux)[iptables] 前言 最近买了一个VPS,并在上面搭了DOCKER,然后再DOCKER中安装Mysql.但只要将网络端口映射到宿主机上,那么外部网络就可 ...

  9. vue+spirngboot 分离技术实现图书信息的增删改查(改造这学期的课程设计【1】)

    1.前端项目的创建 vue init webpack bookshopvue 安装axios http://www.axios-js.com/ npm install --save axios vue ...

  10. 知识图谱顶会论文(ACL-2022) CAKE:用于多视图KGC的可扩展常识感知框架

    CAKE:用于多视图KGC的可扩展常识感知框架.pdf 论文地址:CAKE:Scalable Commonsense-Aware Framework For Multi-View Knowledge ...