Apache Atlas】的更多相关文章

参考:https://atlas.apache.org/InstallationSteps.html https://blog.csdn.net/lingbo229/article/details/81161760 https://blog.csdn.net/jeffiny/article/details/82736832 1. 下载 wget https://www.apache.org/dyn/closer.cgi/atlas/1.1.0/apache-atlas-1.1.0-sources…
一.前言   元数据管理是数据治理非常重要的一个方向,元数据的一致性,可追溯性,是实现数据治理非常重要的一个环节.传统数据情况下,有过多种相对成熟的元数据管理工具,而大数据时代,基于hadoop,最为成熟的,与Hadoop兼容性最好的元数据治理平台则是Apache Atlas.本文是<Apache Atlas元数据管理从入门到实战>系列博文的第1篇.相关内容配套视频课程,已发布在网易云课堂:<Apache Atlas元数据管理从入门到实战>,敬请关注.配套实验环境地址:http:/…
atlas英 [ˈætləs] 阿特拉斯. 美 [ˈætləs] n.地图集;〈比喻〉身负重担的人 == Apache Atlas Version: 1.1.0 Last Published: 2018-09-18 版本:1.1.0  最新出版:2018-09-18 == Data Governance and Metadata framework for Hadoop Hadoop的数据管理和元数据框架 Overview 概述 Atlas is a scalable and extensibl…
特别注意: atlas已经提供了0.8版本可以安装了,只有在国外的服务器上安装编译才比较顺利,可以按照官方文档去安装. 国内很多网址有被墙的问题,目前还没有完全解决,可能安装不成功 安装文档地址:http://atlas.apache.org/0.8.0-incubating/InstallationSteps.html 操作系统为ubuntu16.具体安装过程略 JDK使用JDK1.8.具体安装过程略 MAVEN3.3.具体安装过程略. 安装git版本.具体过程略 如果在国外的服务器上安装,可…
apache atlas  http://atlas.apache.org/ http://blog.csdn.net/ganglia/article/details/51457691…
本文由  网易云发布. 作者:网易/刘勋(本篇文章仅限知乎内部分享,如需转载,请取得作者同意授权.) 面对海量且持续增加的各式各样的数据对象,你是否有信心知道哪些数据从哪里来以及它如何随时间而变化?采用Hadoop必须考虑数据管理的实际情况,元数据与数据治理成为企业级数据湖的重要部分. 为寻求数据治理的开源解决方案,Hortonworks 公司联合其他厂商与用户于2015年发起数据治理倡议,包括数据分类.集中策略引擎.数据血缘.安全和生命周期管理等方面.Apache Atlas 项目就是这个倡议…
不多说,直接上干货! Apache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目,它为Hadoop集群提供了包括数据分类.集中策略引擎.数据血缘.安全和生命周期管理在内的元数据治理核心能力. http://atlas.apache.org/ http://www.jianshu.com/p/4eee91bc926c…
一.Atlas是什么? 在当今大数据的应用越来越广泛的情况下,数据治理一直是企业面临的巨大问题. 大部分公司只是单纯的对数据进行了处理,而数据的血缘,分类等等却很难实现,市场上也急需要一个专注于数据治理的技术框架,这时Atlas应运而生. Atlas官网地址:https://atlas.apache.org/ Atlas是Hadoop的数据治理和元数据框架. Atlas是一组可扩展和可扩展的核心基础治理服务,使企业能够有效,高效地满足Hadoop中的合规性要求,并允许与整个企业数据生态系统集成.…
距离上次atlas发布新版本已经有一年的时间了,但是这一年元数据管理平台的发展一直没有停止.Datahub,Amundsen等等,都在不断的更新着自己的版本.但是似乎Atlas在元数据管理,数据血缘领域的地位一直没有动摇. 最近Atlas终于迎来又一次大的更新,发布了全新的2.2.0版本. 首先来了解一下这个版本. Apache Atlas 2.2 有哪些新功能? 分类传播任务 : 分类传播将作为后台任务处理 (AtlasTask) 重新索引:添加重新索引作为 JAVA_PATCH 的一部分 模…
Apache Atlas 架构图 Atlas 支持多数据源接入:Hive.HBase.Storm等 Type System Type Atlas 中定义了一些元数据类型 ── AtlasBaseTypeDef │ ├── AtlasEnumDef │ └── AtlasStructDef │ ├── AtlasBusinessMetadataDef │ ├── AtlasClassificationDef │ ├── AtlasEntityDef │ └── AtlasRelationshipD…
一.功能简介 Atlas 是一组可扩展的核心基础治理服务,使企业能够高效地满足其在 Hadoop 中的合规性要求,并允许与整个企业数据生态系统集成.Apache Atlas 为组织提供开放的元数据管理和治理功能,以构建其数据资产的目录,对这些资产进行分类和治理,并为数据科学家.分析师和数据治理团队提供围绕这些数据资产的协作能力. 二.架构设计 Atlas 中主要有以下核心组件 1. Type元数据类型定义,这里可以是数据库,表,列等,还可以细分 mysql 表( mysql_table ),or…
上一篇文章,我们已经构建出了altas的安装包,所以我们继续使用安装包配置和运行atlas 首先解压atlas压缩包,授予bin目录下的执行权限 1.默认启动atlas cd atlas/bin/ python atlas_start.py 启动成功后,可以访问   http://IP:21000/login.jsp  即可看到登录页面, 使用admin/admin登录后,即可看到主页面,别问我为啥功能这么少,我也吓一跳.感觉还没做完…
一.        背景 本文使用一台ubuntu虚拟机安装Apache-atlas,使用集成包unzip apache-atlas-2.1.0.zip进行快速安装部署,该集成包高度集成了hadoop.hbase.solr等关键程序,无需额外部署它们.通过下述安装配置,能够达到研发测试目的. 二.        配置 1. 关闭防火墙 关闭防火墙:systemctl stop firewalld.service 2. 安装JDK1.8 1).创建java部署目录 mkdir /usr/java…
1. 介绍 Apache Atlas使用各种系统并与之交互,为数据管理员提供元数据管理和数据血缘信息.通过适当地选择和配置这些依赖关系,可以使用Atlas实现高度的服务可用性.本文档介绍了Atlas中的高可用性支持状态,包括其功能和当前限制,以及实现此高级别可用性所需的配置. 在高级架构章节(请参阅我翻译的<Atlas开发指南(中文版)>)概述了构成Atlas的各种组件.下面提到的各种组件的选项从上面的页面中获取上下文,在继续阅读本页之前值得一看. 2. Atlas Web Service 目…
背景:笔者和团队的小伙伴近期在进行数据治理/元数据管理方向的探索, 在接下来的系列文章中, 会陆续与读者们进行分享在此过程中踩过的坑和收获. 元数据管理系列文章: [0] - 使用Atlas进行元数据管理之Atlas简介 [1] - 使用Atlas进行元数据管理之Glossary(术语) [2] - 使用Atlas进行元数据管理之Type(类型) 0. 当我们谈论数据治理/元数据管理的时候,我们究竟在讨论什么? 谈到数据治理,自然离不开元数据.元数据(Metadata),用一句话定义就是:描述数…
背景:笔者和团队的小伙伴近期在进行数据治理/元数据管理方向的探索, 在接下来的系列文章中, 会陆续与读者们进行分享在此过程中踩过的坑和收获. 元数据管理系列文章: [0] - 使用Atlas进行元数据管理之Atlas简介 [1] - 使用Atlas进行元数据管理之Glossary(术语) [2] - 使用Atlas进行元数据管理之Type(类型) 1. Glossary(术语表) 介绍 Atlas的术语表(Glossary)提供了一些适当的"单词",这些"单词"能彼…
数据治理意义重大,传统的数据治理采用文档的形式进行管理,已经无法满足大数据下的数据治理需要.而适合于Hadoop大数据生态体系的数据治理就非常的重要了. ​ 大数据下的数据治理作为很多企业的一个巨大的难题,能找到的数据的解决方案并不多,但是好在近几年,很多公司已经进行了尝试并开源了出来,本文将详细分析这些数据发现平台,在国外已经有了十几种的实现方案. 数据发现平台可以解决的问题 为什么需要一个数据发现平台? 在数据治理过程中,经常会遇到这些问题: 数据都存在哪? 该如何使用这些数据? 数据是做什…
CDH6.3.0下Apache Atlas2.1.0安装与配置 0. 说明 文中的${ATLAS_HOME}, ${HIVE_HOME} 环境变更需要根据实际环境进行替换. 1. 依赖 A. 软件依赖 CDH6.3.0 环境已安装: Apache Hadoop Apache Zookeeper Apache Kafka Apache HBase Apache Solr Apache Hive 2. Apache Atlas包编译 下载源文件包:https://atlas.apache.org/#…
为什么要做数据治理? 业务繁多,数据繁多,业务数据不断迭代.人员流动,文档不全,逻辑不清楚,对于数据很难直观理解,后期很难维护. 在大数据研发中,原始数据就有着非常多的数据库,数据表. 而经过数据的聚合以后,又会有很多的维度表.如果想要对这些数据做好管理,光用文字.文档等东西是不够的,必须用图. Atlas就是把元数据变成图的工具. http://atlas.apache.org/ Atlas是一组可扩展和可扩展的核心基础治理服务,使企业能够有效地满足Hadoop中的合规性要求,并允许与整个企业…
Atlas集成Hive 在安装好Atlas以后,如果想要使用起来,还要让Atlas与其他组件建立联系. 其中最常用的就是Hive. 通过Atlas的架构,只要配置好Hive Hook ,那么每次Hive做任何操作就会写入Kafka从而被atlas接收. 并在Atlas中已图的形式展示出来. Hive Model 都会记录Hive哪些操作信息呢?Altas对Hive Model进行了定义. 包含以下内容: 1.实体类型: hive_db 类型: Asset 属性:qualifiedName, na…
随着数字化转型的工作推进,数据治理的工作已经被越来越多的公司提上了日程.作为Hadoop生态最紧密的元数据管理与发现工具,Atlas在其中扮演着重要的位置.但是其官方文档不是很丰富,也不够详细.所以整理了这份文档供大家学习使用. 本文档基于Atlas2.1.0版本,整理自部分官网内容,各种博客及实践过程.文章较长,建议收藏.新版本的文档请关注公众号 大数据流动,会持续的更新~ 本文档共分为8个部分,层级结构如下图所示. 文档版权为公众号 大数据流动 所有,请勿商用.相关技术问题以及安装包可以联系…
1. 概述 Apache Ranger是大数据领域的一个集中式安全管理框架,目的是通过制定策略(policies)实现对Hadoop组件的集中式安全管理.用户可以通过Ranger实现对集群中数据的安全访问. 2. Ranger内部组件 Ranger由三个模块组成:Ranger内部组件.依赖组件.扩展性组件. 2.1 内部组件 包含的内部组件如下: Ranger Admin 用户管理策略,提供WebUI和RestFul接口 Ranger UserSync 用于将Unix系统或LDAP用户/组同步到…
背景 大数据发展到今天已有 10 年时间,早已渗透到各个行业,数据需 求越来越多,这使得大数据 业务间的依赖关系也越来越复杂,另外也相信做数据的伙伴肯定对如何治理数据也是痛苦之至,再加上现今云原生时代的要求,怎么能更好.更容易的处理大数据任务关系及更好的实现数据治理呢? Apache  下与之 密切相关的项目有   Apache DolphinScheduler, Apache Atlas,  Apache Airflow , Apache Oozie, 和 Apache Griffin  .此…
A curated list of amazingly awesome Hadoop and Hadoop ecosystem resources. Inspired by Awesome PHP, Awesome Pythonand Awesome Sysadmin Awesome Hadoop Hadoop YARN NoSQL SQL on Hadoop Data Management Workflow, Lifecycle and Governance Data Ingestion an…
本文来自网易云社区 作者:马宝 设计与代码之间隔膜所在?既然你诚心诚意地问了,我就大发慈悲地告诉你.为了防止地球被破坏,为了维护世界的和平,为了贯彻爱与真实的邪恶~,我是穿梭在前端与设计之间爱与美丽的落花生(化身),可爱又迷人的变态角色(两者之间的纽带),白洞,白色的明天~~嗯, 似乎很跑偏,客官莫急带着回忆往下看神往而又心动到不行的GIF神图 勾起了我多少的童年回忆. 许多网页设计的问题并不止一种解决方案,但是很少有完美的方案能解决所有的浏览器兼容性问题.最令我纳闷的是,为什么会有做设计和写代…
本文来自网易云社区 随着互联网技术的日渐发展,相继诞生了垂直社区.社交平台.短视频应用.网络直播等越来越多样的产品.但在内容爆炸式增长的同时,海量UGC中也夹杂着各种违规垃圾信息,包括垃圾广告.诈骗信息.色情信息等.违法违规信息等,让不少互联网产品和广大网民深受其害. 浅谈反垃圾实现 有人会把反垃圾比喻成博弈的战场,反垃圾是一场团队战,跟灰黑产是一场成本的较量,在这场博弈中,胜利的关键依赖于高质量团队持久的协作. 反垃圾在实现方法上,其核心思想是在载体中提取数据后进行特征匹配得出分类结果的过程.…
1. 概述 Apache Ranger是大数据领域的一个集中式安全管理框架,目的是通过制定策略(policies)实现对Hadoop组件的集中式安全管理.用户可以通过Ranger实现对集群中数据的安全访问. 2. Ranger内部组件 Ranger由三个模块组成:Ranger内部组件.依赖组件.扩展性组件. 2.1 内部组件 包含的内部组件如下: Ranger Admin 用户管理策略,提供WebUI和RestFul接口 Ranger UserSync 用于将Unix系统或LDAP用户/组同步到…
atlas  是apache下的大数据的元数据管理平台,支持对hive.storm.kafka.hbase.sqoop等进行元数据管理以及以图库的形式展示数据的血缘关系. 一.架构 整体架构实现如下图所示: Type System: Atlas allows users to define a model for the metadata objects they want to manage. The model is composed of definitions called ‘types…
DataHub 首先,阿里云也有一款名为DataHub的产品,是一个流式处理平台,本文所述DataHub与其无关. 数据治理是大佬们最近谈的一个火热的话题.不管国家层面,还是企业层面现在对这个问题是越来越重视.数据治理要解决数据质量,数据管理,数据资产,数据安全等等.而数据治理的关键就在于元数据管理,我们要知道数据的来龙去脉,才能对数据进行全方位的管理,监控,洞察. DataHub是由LinkedIn的数据团队开源的一款提供元数据搜索与发现的工具. 提到LinkedIn,不得不想到大名鼎鼎的Ka…
环境篇:Atlas2.0.0兼容CDH6.2.0部署 Atlas 是什么? Atlas是一组可扩展和可扩展的核心基础治理服务,使企业能够有效地满足Hadoop中的合规性要求,并允许与整个企业数据生态系统集成. Apache Atlas为组织提供了开放的元数据管理和治理功能,以建立其数据资产的目录,对这些资产进行分类和治理,并为数据科学家,分析师和数据治理团队提供围绕这些数据资产的协作功能. 如果没有Atlas 大数据表依赖问题不好解决,元数据管理需要自行开发,如:hive血缘依赖图 对于表依赖问…