Amundsen的使命,整理有关数据的所有信息,并使其具有普遍适用性

这是Amundsen官网的一句话,对于元数据的管理工作,复杂且繁琐。可用的工具很多各有千秋,数据血缘做的较好的应该是Apache Atlas,而数据可视化做的较好的应该是Apache Superset。业界一直需要一个可以整合这些功能,让数据治理更加的简单便捷,而这正是Amundsen的使命。

类似于Atlas (Apache),Datahub (LinkedIn)。Amundsen主要在于提高数据分析师,数据科学家和数据工程师的工作效率。它可以通过为数据资源建立索引,并通过一定的机制来支持在页面上进行排名搜索。可以将其视为搜索功能,但搜索的是元数据。该项目以挪威探险家Roald Amundsen(第一个发现南极的人)的名字命名。

Amundsen由LF AI&Data基金会维护。LF AI&Data是Linux Foundation的保护基金会,支持人工智能,机器学习,深度学习和数据方面的开源创新。

目前Amundsen在github有1.9kStar,还没有Releases的版本,项目正处于蒸蒸日上的上升期。

架构

下图显示了Amundsen的总体架构。

可见,Hive,Presto等数据源通过Databuilder ingestion框架获取元数据,写入Elasticsearch和Neo4j,通过搜索服务与元数据服务提供给前端。

主要模块如下:

前端服务

作为用户交互的web页面。

这是基于Flask的Web应用程序,页面是React构建的。

搜索服务

搜索服务采用Elasticsearch的搜索功能(或者Apache Atlas),并提供一个RESTful API服务。

元数据服务

元数据服务目前使用的Neo4j的图数据库进行交互。

功能展示

Amundsen提供了搜索,推荐,表描述,数据预览在内的非常多的功能,数据血缘功能正在研发中。

以上是部分功能展示:

登陆页面:Amundsen的登陆页面

搜索预览:查看搜索结果

表的详细页面:Hive 等表的可视化

列详细信息:主要是一些列的统计信息

数据预览页面:表数据预览的可视化,可以与Apache Superset或其他数据可视化工具集成。

集成

Amundsen支持的数据源非常多。

Apache Druid,Apache Hive,CSV,Oracle,

Mysql,Delta Lake等等。

Amundsen还可以连接到任何提供dbapisql_alchemy接口的数据库。

同时Amundsen还支持和一些仪表盘的集成,比如

Redash,Tableau。

ETL工具的集成,Apache Airflow。

BI可视化工具,Apache Superset。

未来规划

作为数据治理领域的未来之星,Amundsen有着非常好的计划。

2021年愿景

可以和所有的数据源进行集成,解决越来越多的数据治理问题。

近期工作重点

数据血缘(设计完成)

集成数据质量系统(进行中)

列值过滤(已开始)

搜索结果层次结构(计划中)

当然,还有很多计划中的功能,这里不一一列举。

期待未来Amundsen的发展,我们也将对其新版本与新功能的发布持续关注!

Github 1.9K Star的数据治理框架-Amundsen的更多相关文章

  1. 架构从最简单的数据访问框架(ORM)到资源调度和治理中心(SOA)说起

    随着互联网的发展,网站应用的规模不断扩大,常规的垂直应用架构已无法应对,分布式服务架构以及流动计算架构势在必行,亟需一个治理系统确保架构有条不紊的演进. 单一应用架构当网站流量很小时,只需一个应用,将 ...

  2. 袋鼠云研发手记 | 数栈·开源:Github上400+Star的硬核分布式同步工具FlinkX

    作为一家创新驱动的科技公司,袋鼠云每年研发投入达数千万,公司80%员工都是技术人员,袋鼠云产品家族包括企业级一站式数据中台PaaS数栈.交互式数据可视化大屏开发平台Easy[V]等产品也在迅速迭代.在 ...

  3. dubbo服务治理框架

    Dubbo的概述 1.1. Dubbo的背景 随着互联网的发展,网站应用的规模不断扩大,常规的垂直应用架构已无法应对,分布式服务架构以及流动计算架构势在必行,亟需一个治理系统确保架构有条不紊的演进. ...

  4. DataHub——实时数据治理平台

    DataHub 首先,阿里云也有一款名为DataHub的产品,是一个流式处理平台,本文所述DataHub与其无关. 数据治理是大佬们最近谈的一个火热的话题.不管国家层面,还是企业层面现在对这个问题是越 ...

  5. PowerJob 从 0 到 1.9k star 的经历

    本文适合有 Java 基础知识的人群 作者:HelloGitHub-Salieri 本文就是<讲解 PowerJob>系列的最后一篇文章了,纯粹是写点经历写点心路历程啥的,和大家道个别. ...

  6. Nebula Graph 在微众银行数据治理业务的实践

    本文为微众银行大数据平台:周可在 nMeetup 深圳场的演讲这里文字稿,演讲视频参见:B站 自我介绍下,我是微众银行大数据平台的工程师:周可,今天给大家分享一下 Nebula Graph 在微众银行 ...

  7. 数据治理之元数据管理的利器——Atlas入门宝典

    随着数字化转型的工作推进,数据治理的工作已经被越来越多的公司提上了日程.作为Hadoop生态最紧密的元数据管理与发现工具,Atlas在其中扮演着重要的位置.但是其官方文档不是很丰富,也不够详细.所以整 ...

  8. GitHub 里面有大量优秀的第三方框架

    写iOS 程序的时候往往需要很多第三方框架的支持,可以大大减少工作量,讲重点放在软件本身的逻辑实现上. GitHub 里面有大量优秀的第三方框架,而且 License 对商业很友好.一下摘录一下几乎每 ...

  9. 一文读懂 Spring Boot、微服务架构和大数据治理三者之间的故事

    微服务架构 微服务的诞生并非偶然,它是在互联网高速发展,技术日新月异的变化以及传统架构无法适应快速变化等多重因素的推动下诞生的产物.互联网时代的产品通常有两类特点:需求变化快和用户群体庞大,在这种情况 ...

随机推荐

  1. 恕我直言!!!对于Maven,菜鸟玩dependency,神仙玩plugin

    打包是一项神圣.而庄严的工作.package意味着我们离生产已经非常近了.它会把我们之前的大量工作浓缩成为一个.或者多个文件.接下来,运维的同学就可以拿着这些个打包文件在生产上纵横四海了. 这么一项庄 ...

  2. OKR vs KPI

    OKR vs KPI refs xgqfrms 2012-2020 www.cnblogs.com 发布文章使用:只允许注册用户才可以访问!

  3. NGINX configure auto generator

    NGINX configure auto generator The easiest way to configure a performant, secure, and stable NGINX s ...

  4. web cache & web storage all in one

    web cache & web storage all in one web cache in action web cache best practices web storage in a ...

  5. nodejs 在windows10中设置动态(视频)壁纸

    github 项目地址 node版本 λ node -v v12.16.2 main.js const ffi = require("@saleae/ffi"); const ch ...

  6. android adb命令,向开发手机添加文件

    adb文档 把本地文件发送到调试手机 C:\Users\ajanuw>adb push C:\Users\ajanuw\Music\j.mp3 /storage/emulated/0/Downl ...

  7. SPC空投价值高达310万美金,生态建设者直呼真香!

    市场上面有句名言:"人赚不到自己认知以外的财富",这在数字加密上也是共通的.早在本月12日,也就是前天,NGK官方发行的第N波利好---SPC侧链代币空投已经陆续发放了,NGK以及 ...

  8. 负利率时代,NGK DeFi是否会推动资本向加密货币迁徙?

    2020年,全球经济危机持续,贸易战争以及天灾人祸使得全球各国的经济雪上加霜,为了挽救低迷的经济,美国.欧洲.日本各国央行竞相放水,全球正在滑入负利率时代. 负利率下,资本加速从法币向数字货币迁徙,因 ...

  9. IDEA 敏捷开发技巧——后缀完成

    前言 "工欲善其事,必先利其器." 所以说今天来看一看如何压榨 IDEA ,让你的 IDEA 使用的更顺手! 今日技巧: 后缀完成 自定义后缀完成模版 示例 上面动图使用了 .so ...

  10. Tawk.to一键给自己的网站增加在线客服功能

    Tawk.to一键给自己的网站增加在线客服功能 很多外贸网站只有contact页面,留下邮箱.电话等联系方式,而在国际贸易当中能够及时在线交流沟通,能给客户留下更好的印象.接下来,就让我们一起来了解一 ...