摘要:本文主要介绍基于源码部署 Datavines 和执行检查作业,内容主要分为以下几个部分:

  • 平台介绍
  • 快速部署
  • 运行数据质量检查作业

Datavines 的目标是成为更好的数据可观测性领域的开源项目,为更多的用户去解决元数据管理和数据质量管理中遇到的问题。在此我们真诚欢迎更多的贡献者参与到社区建设中来,和我们一起成长,携手共建更好的社区。

https://github.com/datavane/datavines

https://github.com/datavane/datavines/issues

https://github.com/datavane/datavines/pulls


平台介绍

Datavines 是一站式开源数据可观测性平台,提供元数据管理、数据概览报告、数据质量管理,数据分布查询、数据趋势洞察等核心能力,致力于帮助用户全面地了解和掌管数据,让您做到心中有数.

快速部署

环境准备

在安装 Datavines 之前请确保你的服务器上已经安装下面软件

  • Git,确保 git clone的顺利执行
  • JDK,确保 jdk >= 8
  • Maven, 确保项目的顺利打包(当然你也可以在本地打包以后上传至服务器)
  • MySQL, 确保版本 >=5.7

下载代码

git clone https://github.com/datavane/datavines.git
cd datavines

数据库准备

Datavines 的元数据是存储在关系型数据库中,目前支持 MySQL ,下面以 MySQL 为例说明安装步骤:

  • 创建数据库 datavines
  • 执行 script/sql/datavines-mysql.sql 脚本进行数据库的初始化

项目构建

打包并解压

mvn clean package -Prelease
cd datavines-dist/target
tar -zxvf datavines-1.0.0-SNAPSHOT-bin.tar.gz

解压完成以后进入目录

cd datavines-1.0.0-SNAPSHOT-bin

编辑配置信息

cd conf
vi application.yaml

修改数据库信息

spring:
datasource:
driver-class-name: com.mysql.cj.jdbc.Driver
url: jdbc:mysql://127.0.0.1:3306/datavines?useUnicode=true&characterEncoding=UTF-8
username: root
password: 123456

如果你是使用 Spark 做为执行引擎,并且是提交到 yarn 上面去执行的,那么需要在 common.properties 中配置 yarn 相关的信息

  • standalone 模式
yarn.mode=standalone
yarn.application.status.address=http://%s:%s/ws/v1/cluster/apps/%s #第一个%s需要被替换成yarn的ip地址
yarn.resource.manager.http.address.port=8088
  • ha 模式
yarn.mode=ha
yarn.application.status.address=http://%s:%s/ws/v1/cluster/apps/%s
yarn.resource.manager.http.address.port=8088
yarn.resource.manager.ha.ids=192.168.0.1,192.168.0.2

启动服务

cd bin
sh datavines-daemon.sh start mysql

查看日志,如果日志里面没有报错信息,并且能看到

[INFO] 2022-04-10 12:29:05.447 io.datavines.server.DatavinesServer:[61] - Started DatavinesServer in 3.97 seconds (JVM running for 4.69) 的时候,证明服务已经成功启动。

访问前端页面

在浏览器输入: 服务器IP:5600 ,就会跳转至登录界面,输入账号密码 admin/123456

运行数据质量检查作业

创建数据源

进入首页后,点击右上角 创建数据源 按钮,输入数据源的名称,然后选择数据源类型。以 MySQL 为例,输入 MySQL 的连接信息,点击 测试连接 按钮。如果成功,请单击 保存

进入数据源

点击并进入数据源,找到 作业管理 页面

创建检查作业

  • 点击 创建规则作业 按钮,选择 数据质量作业

  • 进入规则的配置页面

  • 进行规则配置

    • 选择 枚举值[不在]检查 规则
    • 依次选择数据库、表和列
    • 输入枚举数组 [0,1]
  • 进行期望值配置

    • 如果没有期望值则选择
  • 进行校验配置

    • 选择 实际值 检查公式、 > 比较符并输入阈值 10
    • 这样就构成 【实际值 > 10】 公式 ,公式成立时表示检查结果为成功,否则是失败。
  • 进行错误数据配置

    • 选择保存在源数据源中,填写已创建好的数据库
  • 完成配置后点击 保存并运行 来执行检查作业。

查看规则作业的信息

作业列表 找到刚刚创建并执行的检查作业。

点击 执行记录 页面, 你可以看到执行历史列表。

点击 日志 按钮,你可以看到规则执行的日志信息。

点击 结果 按钮,你可以看到规则执行的检查结果。

点击 错误数据 按钮,你可以看到规则执行的错误数据。

结束语

本文详细介绍了Datavines平台的部署安装到运行的整个过程,每个环节图文并茂,相信很多小伙伴都跃跃欲试了,动起来吧,更多精彩等着你来挖掘。

关于Datavane

Datavane 是一个专注于大数据领域的开源组织(社区),由一群大数据领域优秀的开源项目作者共同创建,旨在帮助开源项目作者更好的建设项目、为大众提供高质量的开源软件,宗旨是:只为做一个好软件。目前已经聚集了一批优质的开源项目,涉及到数据集成、大数据组件管理、数据质量等。

在 Datavane 社区中,所有的项目都是开源开放的,代码质量和架构设计优质的潜力项目。社区保持开放中立、协作创造、坚持精品,鼓励所有的开发者、用户和贡献者积极参与我们的社区、共同合作,创新创造,建设一个更加强大的开源社区。

官 网: http://www.datavane.org/

Github : https://github.com/datavane

入门指南 | Datavines 安装部署篇的更多相关文章

  1. [转] Spark快速入门指南 – Spark安装与基础使用

    [From] https://blog.csdn.net/w405722907/article/details/77943331 Spark快速入门指南 – Spark安装与基础使用 2017年09月 ...

  2. Azure DevOps Server 入门实践与安装部署

    一,引言 最近一段时间,公司希望在自己的服务器上安装本地版的 Azure DevOps Service(Azure DevOps Server),用于项目内的测试,学习.本着学习的目的,我也就开始学习 ...

  3. Webpack 入门指南 - 1.安装

    Webpack 是目前流行的打包工具,如何安装它呢? 1. 安装 Node Js 首先,Webpack 是基于 NodeJs 的工具,你必须首先安装 NodeJs. NodeJs 仅仅只需要在你的系统 ...

  4. window10下的solr6.1.0入门笔记之---安装部署

    1.安装部署java1.6+ ,确保jre安装[安装步骤略] 安装后的环境为jdk1.8+ jre1.8+ 2.安装ant 下载:官网=>http://ant.apache.org/=>  ...

  5. ElasticSearch入门介绍之安装部署(二)

    散仙,在上篇文章对ElasticSearch整体入门作了个介绍,那么本篇我们来看下,如何安装,部署es,以及如何安装es的几个比较常用的插件. es的安装和部署,是非常简单方便的,至少这一点散仙在es ...

  6. Robot Framework入门学习1 安装部署详解

    安装注意: 目前Robot framework-ride不支持python3,安装时请下载python2.7版本. Robot Framework安装时出现了一点小问题,网上没有找到直接的介绍,现将安 ...

  7. ceph 常见问题百科全书---luminous安装部署篇

    1. 执行步骤:ceph-deploy new node        机器:centos 7.5   ceph  Luminous版本     源:阿里云 问题: Traceback (most r ...

  8. jacoco+ant安装部署篇(统计代码覆盖率,适用自动化测试)

    1:什么是jacoco? JaCoCo是一个开源的覆盖率工具(官网地址:http://www.eclemma.org/JaCoCo/),它针对的开发语言是java,其使用方法很灵活,可以嵌入到Ant. ...

  9. 【OpenCV入门指南】第一篇 安装OpenCV

    http://blog.csdn.net/morewindows/article/details/8225783/ win10下vs2015配置Opencv3.1.0过程详解(转) http://ww ...

  10. 2019.10.28 IDEA入门指南(很多人问补充一篇)

    Idea快速入门指南 1.安装 1.1.安装 我们使用的是最新的2017.3.4版本: 双击打开, 选择一个目录,最好不要中文和空格: 然后选择桌面快捷方式,请选择64位: 然后选择安装: 开始安装: ...

随机推荐

  1. mac 安装homebrew 报443

    描述 macOS安装Homebrew时总是报错(Failed to connect to raw.githubusercontent.com port 443: Connection refused) ...

  2. c++临时对象导致的生命周期问题

    对象的生命周期是c++中非常重要的概念,它直接决定了你的程序是否正确以及是否存在安全问题. 今天要说的临时变量导致的生命周期问题是非常常见的,很多时候没有一定经验甚至没法识别出来.光是我自己写.rev ...

  3. Kafka消费端抛出异常Offset commit cannot be completed since the consumer is not part of an active group for auto partition assignment; it is likely that the consumer was kicked out of the group的解决方案

    总结/朱季谦 在一次测试Kafka通过consumer.subscribe()指定偏移量Offset消费过程中,因为设置参数不当,出现了一个异常提示-- [2024-01-04 16:06:32.55 ...

  4. 拥抱未来:GPT-4将如何改变我们的世界

    随着人工智能技术的迅猛发展,我们正迎来一个全新的智能时代.在这个时代的前沿,GPT-4作为开拓者和领航者,正在重新定义人机交互.创意创新和个性化服务的标准.无论是在商业领域.教育场景还是科研领域,GP ...

  5. Java maven构建命令使用总结

    实践环境 Apache Maven 3.0.5 (Red Hat 3.0.5-17) maven构建生命周期 学习Maven构建命令之前,我们不烦先简单了解下Maven构建生命周期. Maven基于构 ...

  6. MySQL原始密码登录出现错误

    1.首先查看自己的MySQL安装目录下有没有data文件夹,和bin目录是同级的.要是有就删除,然后执行下列操作.没有就直接执行操作: 2. 以管理员身份运行 cmd.遇到个同学,可能我强调的不够明显 ...

  7. WordPress基础之基本SEO设置

    基础内容,不会涉及过深,在谷歌SEO教程中会做详细的介绍,我这里只简单讲下. 1. SEO介绍 SEO,又名搜索引擎优化(Search Engine Optimization,缩写为SEO)是透过了解 ...

  8. 【VMware】将NAT虚拟机开放访问

    NAT模式下面需要将主机内的虚拟机提供给外部访问 这个设置可以通过开启端口来实现外部访问NAT虚拟机 主机端口 - 映射 虚拟机 IP 的端口,问题是有多少个虚拟机应用就需要开多少个端口...

  9. 【SpringBoot】06 探索配置方式 Part2 占位符的使用

    配置占位符? 随机数配置生成 RandomValuePropertySource 在配置文件中使用随机数 uid = ${random.value} uid = ${random.int} uid = ...

  10. 【Java-GUI】03 事件监听

    --1.监听机制案例 简答理解:操作驱动程序执行 完整的操作体系:事件源.事件.监听器.注册监听 案例: 点击OK按钮,让上方的输入框写入一段字符 package cn.dzz; import jav ...