Atlas集成Hive

在安装好Atlas以后，如果想要使用起来，还要让Atlas与其他组件建立联系。

其中最常用的就是Hive。

通过Atlas的架构，只要配置好Hive Hook ，那么每次Hive做任何操作就会写入Kafka从而被atlas接收。

并在Atlas中已图的形式展示出来。

Hive Model

都会记录Hive哪些操作信息呢？Altas对Hive Model进行了定义。

包含以下内容：

1、实体类型：

hive_db

类型： Asset

属性：qualifiedName, name, description, owner, clusterName, location, parameters, ownerName

hive_table

类型：DataSet

属性：qualifiedName, name, description, owner, db, createTime, lastAccessTime, comment, retention, sd, partitionKeys, columns, aliases, parameters, viewOriginalText, viewExpandedText, tableType, temporary

hive_column

类型：DataSet

属性：qualifiedName, name, description, owner, type, comment, table

hive_storagedesc

类型：Referenceable

属性： qualifiedName, table, location, inputFormat, outputFormat, compressed, numBuckets, serdeInfo, bucketCols, sortCols, parameters, storedAsSubDirectories

hive_process

类型：Process

属性：qualifiedName, name, description, owner, inputs, outputs, startTime, endTime, userName, operationType, queryText, queryPlan, queryId, clusterName

hive_column_lineage

类型：Process

属性：qualifiedName, name, description, owner, inputs, outputs, query, depenendencyType, expression

2、枚举类型：

hive_principal_type 值：USER, ROLE, GROUP

3、构造类型

hive_order 属性： col, order

hive_serde 属性： name, serializationLib, parameters

HIve实体的结构：

hive_db.qualifiedName:     <dbName>@<clusterName>

hive_table.qualifiedName:  <dbName>.<tableName>@<clusterName>

hive_column.qualifiedName: <dbName>.<tableName>.<columnName>@<clusterName>

hive_process.queryString:  trimmed query string in lower case

配置Hive hook

hive hook会监听hive的 create/update/delete 操作，下面是配置步骤：

1、修改hive-env.sh（指定包地址）

export HIVE_AUX_JARS_PATH=/opt/apps/apache-atlas-2.1.0/hook/hive

2、修改hive-site.xml（配置完需要重启hive）

<property>

    <name>hive.exec.post.hooks</name>

    <value>org.apache.atlas.hive.hook.HiveHook</value>

</property>

1234

注意，这里其实是执行后的监控，可以有执行前，执行中的监控。

3、同步配置

拷贝atlas配置文件atlas-application.properties到hive配置目录

添加配置：

atlas.hook.hive.synchronous=false

atlas.hook.hive.numRetries=3

atlas.hook.hive.queueSize=10000

atlas.cluster.name=primary

atlas.rest.address=http://doit33:21000

将Hive元数据导入Atlas

bin/import-hive.sh

Using Hive configuration directory [/opt/module/hive/conf]

Log file for import is /opt/module/atlas/logs/import-hive.log

log4j:WARN No such property [maxFileSize] in org.apache.log4j.PatternLayout.

log4j:WARN No such property [maxBackupIndex] in org.apache.log4j.PatternLayout.

输入用户名：admin；输入密码：admin

Enter username for atlas :- admin

Enter password for atlas :-

Hive Meta Data import was successful!!!

踩坑全记录

一、找不到类 org.apache.atlas.hive.hook.hivehook

hive第三方jar包没加进去

小技巧使用hive-shell 看一下jar包加进去没有 set这将打印由用户或配置单元覆盖的配置变量列表。

以加入elsaticsearch-hadoop-2.1.2.jar为例，讲述在Hive中加入第三方jar的几种方式。

1，在hive shell中加入

hive> add jar /home/hadoop/elasticsearch-hadoop-hive-2.1.2.jar;

连接方式	是否有效
Hive Shell	不需要重启Hive服务就有效
Hive Server	无效

2，Jar放入${HIVE_HOME}/auxlib目录

在${HIVE_HOME}中创建文件夹auxlib，然后将自定义jar文件放入该文件夹中。

此方法添加不需要重启Hive。而且比较便捷。

连接方式	是否有效
Hive Shell	不需要重启Hive服务就有效
Hive Server	重启Hive服务才生效

3，HIVE.AUX.JARS.PATH和hive.aux.jars.path

hive-env.sh中的HIVE.AUX.JARS.PATH和hive-site.xml的hive.aux.jars.path配置对服务器无效，仅对当前hive shell有效，不同的hive shell相互不影响，每个hive shell都需要配置，可以配置成文件夹形式。

HIVE.AUX.JARS.PATH和hive.aux.jars.path仅支持本地文件。可配置成文件，也可配置为文件夹。

连接方式	是否有效
Hive Shell	重启Hive服务才生效
Hive Server	重启Hive服务才生效

二、HIVE报错 Failing because I am unlikely to write too

HIVE.AUX.JARS.PATH配置不对

hive-env.sh脚本中有一段

# Folder containing extra libraries required for hive compilation/execution can be controlled by:

if [ "${HIVE_AUX_JARS_PATH}" != "" ]; then

  export HIVE_AUX_JARS_PATH=${HIVE_AUX_JARS_PATH}

elif [ -d "/usr/hdp/current/hive-webhcat/share/hcatalog" ]; then

  export HIVE_AUX_JARS_PATH=/usr/hdp/current/hive-webhcat/share/hcatalog

fi

如果给HIVE_AUX_JARS_PATH设值，则/usr/hdp/current/hive-webhcat/share/hcatalog就会被忽略掉。

hive只能读取一个HIVE_AUX_JARS_PATH

在一个地方集中放置我们的共享jar包，然后在/usr/hdp/current/hive-webhcat/share/hcatalog下面建立一相应的软连接就可以

sudo -u hive ln -s /usr/lib/share-lib/elasticsearch-hadoop-2.1.0.Beta4.jar /usr/hdp/current/hive-webhcat/share/hcatalog/elasticsearch-hadoop-2.1.0.Beta4.jar

了解大数据实时计算感受数据流动之美欢迎关注实时流式计算

Atlas 2.1.0 实践（3）—— Atlas集成HIve的更多相关文章

Atlas 2.1.0 实践（2）—— 安装Atlas
在完成Atlas编译以后,就可以进行Atlas的安装了.Atlas的安装主要是安装Atlas的Server端,也就Atlas的管理页面,并确保Atlas与Kafka Hbase Solr等组件的集成. ...
Atlas 2.1.0 实践（1）—— 编译Atlas
为什么要做数据治理? 业务繁多,数据繁多,业务数据不断迭代.人员流动,文档不全,逻辑不清楚,对于数据很难直观理解,后期很难维护. 在大数据研发中,原始数据就有着非常多的数据库,数据表. 而经过数据的聚 ...
Atlas 2.1.0 实践（4）—— 权限控制
Atlas的权限控制非常的丰富,本文将进行其支持的各种权限控制的介绍. 在atlas-application.properties配置文件中,可以设置不同权限的开关. atlas.authentica ...
spring-boot-2.0.3之quartz集成，最佳实践
前言开心一刻快过年了,大街上,爷爷在给孙子示范摔炮怎么放,嘴里还不停念叨:要像这样,用劲甩才能响.示范了一个,两个,三个... 孙子终于忍不住了,抱着爷爷的腿哭起来:爷呀,你给我剩个吧! 新的一年 ...
Atlas+Keepalived系列二：管理Atlas
1:登录代理端口1234 [root@localhost bin]# mysql -uroot -p -P1234 -h127.0.0.1 proxy-address项配置,例如proxy-addre ...
《Vue2.0 实践揭秘》终于出版啦！
不知不觉间在园子开博都两年多了,最近一些园友问最近去哪了为何都没有新的文章了.最近确实发生了很多的事,一是忙工作二就是忙着写书.这还得多些园子的小编,自两年前发表的"架构师修炼"系 ...
spring-boot-2.0.3之quartz集成，数据源问题，源码探究
前言开心一刻着火了,他报警说:119吗,我家发生火灾了. 119问:在哪里? 他说:在我家. 119问:具体点. 他说:在我家的厨房里. 119问:我说你现在的位置. 他说:我趴在桌子底下. 11 ...
Kafka应用实践与生态集成
1.前言 Apache Kafka发展至今,已经是一个很成熟的消息队列组件了,也是大数据生态圈中不可或缺的一员.Apache Kafka社区非常的活跃,通过社区成员不断的贡献代码和迭代项目,使得Apa ...
MyEclipse_6.0.1GA_E3.3.1集成版下载地址
因在开发中经常使用到myeclipse 对比相关版本,还是觉得6.0 –6.5 比较适合开发,其他的开发起来比较卡,下面是下载地址 MyEclipse_6.0.1GA_E3.3.1集成版下载地址: ...

随机推荐

JDK 8 新特性，从入门到精通
default关键字在jdk1.8以前接口里面是只能有抽象方法,不能有任何方法的实现的. 在jdk1.8里面打破了这个规定,引入了新的关键字:default,使用default修饰方法,可以在接口里 ...
Gradle 是干什么吃的？
Gradle维基解释:Gradle是一个基于Apache Ant和Apache Maven概念的项目自动化建构工具.它使用一种基于Groovy的特定领域语言来声明项目设置,而不是传统的XML.当前其支 ...
Stream并行流详解
1.并行与并发的区别在说到并行的时候,相信很多人都会想到并发的概念.那么并行和并发两者一字之差,有什么区别呢? 并行:多个任务在同一时间点发生,并由不同的cpu进行处理,不互相抢占资源并行: 并发 ...
Windows7里面怎么实现FTP服务功能
1.安装FTP服务点击:计算机 -->属性 --> 控制面板主页 --> 程序 --> 打开或关闭Windows功能 2. 调出管理工具操作: 鼠标点击工具栏,选择属性,选 ...
[Machine Learning] 多变量线性回归(Linear Regression with Multiple Variable)-特征缩放-正规方程
我们从上一篇博客中知道了关于单变量线性回归的相关问题,例如:什么是回归,什么是代价函数,什么是梯度下降法. 本节我们讲一下多变量线性回归.依然拿房价来举例,现在我们对房价模型增加更多的特征,例如房间数 ...
C语言结构体参数传递
结构体的形参或实参传递和和一般的程序一样: #include<stdio.h> #include<string.h> struct student //结构体定义 { char ...
MySQL中的排序
在编写SQL 语句时常常会用到 order by 进行排序,那么排序过程是什么样的?为什么有些排序执行比较快,有些排序执行很慢?又该如何去优化? 索引排序索引排序指的是在通过索引查询时就完成了排序, ...
循序渐进VUE+Element 前端应用开发(30）--- ABP后端和Vue+Element前端结合的分页排序处理
在很多列表展示数据的场合中,大多数都会需要一个排序的处理,以方便快速查找排序所需的数据,本篇随笔介绍如何结合ABP后端和Vue+Element前端结合的分页排序处理过程. 1.Vue+Element前 ...
OpenGL投影矩阵(Projection Matrix)构造方法
(翻译,图片也来自原文) 一.概述绝大部分计算机的显示器是二维的(a 2D surface).在OpenGL中一个3D场景需要被投影到屏幕上成为一个2D图像(image).这称为投影变换(参见这或这 ...
解决使用Navicat等工具进行连接登录mysql的1130错误,无法使用Ip远程连接的问题(mysql为8.0版本)
错误:ERROR 1130: Host '192.168.1.3' is not allowed to connect to thisMySQL serve 错误1130:主机192.168.1.3& ...

Atlas 2.1.0 实践（3）—— Atlas集成HIve