万字保姆级长文——Linkedin元数据管理平台Datahub离线安装指南
元数据管理平台Datahub最近的热度越来越高。已经更新到了0.8.40的版本,来咨询我的小伙伴也越来越多,特别是安装过程有很多问题。
考虑到有些企业部分数据服务是部署在内网的,那么离线安装Datahub就显得非常重要了。
而且对于在线安装遇到很多问题的情况,或者是网络不好的情况,用离线安装方式也可以轻松搞定。
那么,如何进行Datahub的离线安装呢?
下面本文将一步一步的带大家进行Datahub的离线安装,并记录整个过程中遇到的问题,本文耗时整整一周,也咨询了slack上的很多datahub维护者,耗费了笔者大量的心血。
但主要还是考虑到抄袭的问题(防爬虫),本文决定开启我的第一篇付费文章。我在去年写作的文章:一站式元数据治理平台——Datahub入门宝典,被大量的抄袭,部分还对pdf进行的付费下载,而且大量的爬虫导致爬取的文章残缺不全,让很多同学花费了大量的时间去试错,这些都是我不能接受的。
但是付费文章对于技术分享来说未免太不友好的,所以这篇我会整理出一个更完整的PDF版本,并且将离线安装Datahub需要的所有安装包(大概7GB左右),都分享给大家。如果您是对Datahub纯学习目的同学,欢迎大家加入Datahub学习交流群,与我们一起讨论Datahub相关知识,共同分享资料。
希望大家可以支持与理解~
群已满200人,无法扫码进入,可以扫下面的二维码进入。
(注意:本群只做Datahub学习讨论,禁止任何形式的广告。希望多多分享自己的经验,而不是一味地提问,本群退出后不再允许加入~)

正文开始:
本文所使用离线安装的操作系统是CentOS7。这也是大多数生产机器的选择。
本文所选择的Python的版本为3.8.3,Docker版本为20.10.0,都可以很好的支持Datahub的安装。Datahub下载的最新0.8.40版本,这是目前功能最完善也最稳定的版本。
考虑到有些同学没有类似的CentOS环境,本文将从虚拟机搭建,CentOS 7安装,离线安装Python3,Datahub离线包安装,Docker离线安装,启动Datahub六部分来进行,并将安装过程中遇到的问题进行整理。
文章目录结构如下:

一、虚拟机安装
要想有一个本地稳定的调试环境,就必须安装虚拟机,本文使用的是Win10系统的Hyper-V管理器,也是一个系统自带的虚拟机工具,非常的方便。
安装之前先下载一个CentOS镜像,我这边用的是CentOS-7-x86_64-DVD-2009.iso。可以去官网下载:https://www.centos.org/download/。
网速不好的同学可以加入Datahub学习交流群,获取Datahub所有安装资料下载包。
加入方式,关注 大数据流动,后台回复 “加群”。
首先,打开Hyper-V管理器。可以搜索一下,有的话直接打开。没有的话是系统默认没有开启这个服务。

如果找不到,需要先打开。打开Hyper-V服务的方法如下:
打开步骤:
选择程序和功能,启用或关闭Windows功能。

在这里选择把Hyper-V的管理工具和平台都打开。

勾上Hyper-V重启电脑即可。再搜索就有Hyper-V了。
然后我们打开Hyper-V管理工具,新建一个虚拟机。

需要指定名称和位置,需要保证安装位置有足够大的空间。

选择虚拟机代数,选第一代。

这是第一代,第二代的区别,一般选择默认第一代。

分配内存,这个后面也是可以修改的。考虑到Datahub的基本需要,还有电脑的配置,我这里选择4096MB。
(补充一下,datahub建议内存就是4GB,所以这里我后来做了修改,建议5GB以上)

分配网络,因为本次要模拟离线环境,所以没有网络。

创建虚拟硬盘,硬盘大小修改很难,所以也要选择好。

导入镜像。

然后点击完成。

虚拟机成功创建!
二、CentOS 7 安装
启动Hyper-V管理器。
万字保姆级长文——Linkedin元数据管理平台Datahub离线安装指南的更多相关文章
- Hadoop生态元数据管理平台——Atlas2.3.0发布!
大家好,我是独孤风. 今天我们来聊一下另一个元数据管理平台Apache Atlas.Atlas其实有一些年头了,是在2015年的时候就开源. 相对于Datahub来说,Atlas显得有一些" ...
- 一站式元数据治理平台——Datahub入门宝典
随着数字化转型的工作推进,数据治理的工作已经被越来越多的公司提上了日程.作为新一代的元数据管理平台,Datahub在近一年的时间里发展迅猛,大有取代老牌元数据管理工具Atlas之势.国内Datahub ...
- 保姆级教程!手把手教你使用Longhorn管理云原生分布式SQL数据库!
作者简介 Jimmy Guerrero,在开发者关系团队和开源社区拥有20多年的经验.他目前领导YugabyteDB的社区和市场团队. 本文来自Rancher Labs Longhorn是Kubern ...
- DataPipeline丨LinkedIn元数据之旅的最新进展—Data Hub
作者:Mars Lan, Seyi Adebajo, Shirshanka Das 译者: DataPiepline yaran 作为全球最大的职场社交平台,LinkedIn的数据团队不断致力于扩展其 ...
- 1.1 大数据简介-hadoop-最全最完整的保姆级的java大数据学习资料
目录 1 hadoop-最全最完整的保姆级的java大数据学习资料 1.1 大数据简介 1.1.1 大数据的定义 1.1.2 大数据的特点 1.1.3 大数据的应用场景 1.1.4 大数据的发展趋势及 ...
- kettle系列-我的开源kettle管理平台[kettle-manager]介绍
kettle管理工具 专门为kettle这款优秀的ETL工具开发的web端管理工具. 项目简介 kettle作为非常优秀的开源ETL工具得到了非常广泛的使用,一般的使用的都是使用客户端操作管理,但问题 ...
- kettle系列-我的开源kettle调度、管理平台[kettle-manager]介绍
kettle管理工具 专门为kettle这款优秀的ETL工具开发的web端调度.管理工具. 新版本 项目简介 kettle作为非常优秀的开源ETL工具得到了非常广泛的使用,一般的使用的都是使用客户端操 ...
- 亿级用户下的新浪微博平台架构 前端机(提供 API 接口服务),队列机(处理上行业务逻辑,主要是数据写入),存储(mc、mysql、mcq、redis 、HBase等)
https://mp.weixin.qq.com/s/f319mm6QsetwxntvSXpKxg 亿级用户下的新浪微博平台架构 炼数成金前沿推荐 2014-12-04 序言 新浪微博在2014年3月 ...
- 保姆级别的RabbitMQ教程!一看就懂!(有安装教程,送安装需要的依赖包,送Java、Golang两种客户端教学Case)
保姆级别的RabbitMQ教程!一看就懂!(有安装教程,送安装需要的依赖包,送Java.Golang两种客户端教学Case) 目录 什么是AMQP 和 JMS? 常见的MQ产品 安装RabbitM ...
- 数据治理之元数据管理的利器——Atlas入门宝典
随着数字化转型的工作推进,数据治理的工作已经被越来越多的公司提上了日程.作为Hadoop生态最紧密的元数据管理与发现工具,Atlas在其中扮演着重要的位置.但是其官方文档不是很丰富,也不够详细.所以整 ...
随机推荐
- Python入门--字符串
字符串的使用和C语言 .java中一致 .使用" "(双引号)并且字符串可以与数字相乘,表示我使用这个字符串次数 字符串的连接:'+' Python中的变量直接赋值即可 ,如果赋予 ...
- CSS 尺寸单位概述
在本文中,我们将探讨 CSS 尺寸单位的四大类别.我们将了解这些尺寸单位的用途.它们的最佳工作原理,以及如何在每种情况下选择最佳尺寸单位,从而在各种媒体和设备尺寸下优化我们的布局. 关于 CSS 尺寸 ...
- UIPath初识和安装
即使没有人为你鼓掌,也要优雅的谢幕,感谢自己的认真付出. 一. UiPath组成 学习UiPath,我们一定先要了解Studio,Robot和Orchestrator这3个重要组成部分. UiPa ...
- 震荡指标(一)RSI指标
相对强弱指数RSI是根据一定时期内上涨点数和涨跌点数之和的比率制作出的一种技术曲线.能够反映出市场在一定时期内的景气程度.由威尔斯.威尔德(Welles Wilder)最早应用于期货买卖,后来人们发现 ...
- OpenSSL 使用AES对文件加解密
AES(Advanced Encryption Standard)是一种对称加密算法,它是目前广泛使用的加密算法之一.AES算法是由美国国家标准与技术研究院(NIST)于2001年发布的,它取代了原先 ...
- JAVA学习week1
本周: 认识到Java是一门面向对象的编程语言,不仅吸收了C++语言的各种优点,还摒弃了C++里难以理解的多继承.指针等概念,因此Java语言具有功能强大和简单易用两个特征.Java语言作为静态面向对 ...
- 有哪些可部署的, 无需编程的,基于WEB的数据可视化工具
基于Web的数据可视化工具在当今数字化时代具有重要的作用,可以帮助企业和个人更好地理解和利用数据.以下是一些无需编程即可部署的基于Web的数据可视化工具,详细描述如下:Tableau Public: ...
- 马云说的AI电商时代是什么
这两天非常火的就是马老师说的,我们已经进入了AI的电商时代.相信电商时代大家很容易理解,换一个简单的方式来说就是网上购物. AI相信大家已经很熟悉了,就是人工智能.早在十年前其实已经有AI人工智能的概 ...
- 神经网络优化篇:为什么正则化有利于预防过拟合呢?(Why regularization reduces overfitting?)
为什么正则化有利于预防过拟合呢? 通过两个例子来直观体会一下. 左图是高偏差,右图是高方差,中间是Just Right. 现在来看下这个庞大的深度拟合神经网络.知道这张图不够大,深度也不够,但可以想象 ...
- 深入 K8s 网络原理(二)- Service iptables 模式分析
目录 1. 概述 2. 准备 Service 和 Pods 资源 3. K8s 里 Service 的实现原理 3.1 kube-proxy 组件 3.2 iptables 简介 3.3 iptabl ...