ETL之apache hop系列3-hop Server环境部署与客户端发布管道工作流
前言
该文档主要是apache hop 2.5的 Windows 10和Linux docker环境部署和客户端发布工作流和管道的相关内容
不使用Docker直接使用应用程序包,下载压缩包文件后,需要解压缩文件并使用以下命令启动 Hop GUI:
在 Linux 上:
./hop-gui.sh
在 Windows 上(需要JDK11):
Hop-gui.bat
一、Windows 10系统部署
1.1、官网下载apache hop 2.5压缩包
下载地址:https://hop.apache.org/download/ 选择apache-hop-client-2.5.0.zip

1.2、解压文件,把里面的hop文件夹剪切或复制到系统其他文件夹下比如 C:\Program Files (x86)\hop

1.3、下载java 11 JDK,并设置环境变量(多个java版本SDK)
1)jdk下载地址
OpenJDK下载地址:http://jdk.java.net/
OracleJDK下载地址:https://www.oracle.com/java/technol
2)Java安装的地址

3)删除 C:\Windows\System32 下三个文件
在第一次安装jdk时,自动将java.exe、javaw.exe、javaws.exe三个可执行文件复制到了C:\Windows\System32目录,由于这个目录在Windows环境变量中的优先级高于JAVA_HOME设置的环境变量优先级。所以将C:\Windows\System32目录下的java.exe、javaw.exe、javaws.exe三个可执行文件 删除即可。
4)设置系统环境变量,新增如红色框中的四个环境变量

5)设置环境变量path

6)删除系统环境变量Path上面两个Oracle\Java\javapath变量

参考文章:
https://zhuanlan.zhihu.com/p/442291304
https://blog.csdn.net/m0_38090004/article/details/90610525(推荐)
1.4、Hop Server添加数据库连接驱动包
添加数据库连接驱动包,在hop安装的根目录下的plugins\databases下选择对应版本的数据库比如mysql,进入mysql文件夹选择lib文件夹,把数据库连接驱动包上传到这个文件夹(数据库驱动包已经在hop-web2.5安装入门那里已经下载过了,拷贝过来即可)


1.5、运行 hop-gui、hop-run、hop-server
Hop Web ,Hop Gui fat client 是帮助数据工程师通过可视化方式设计数据清洗流程的。
Hop run是本地命令行,来执行设计好的数据清洗流程的。
Hop server是管理和执行本地或远程的数据清洗流程的
1)双击运行hop-gui.bat,弹出hop-gui客户端界面,这里可以设计建模管道和工作流,和hop-web的功能基本是一样的(重点)

2)运行hop-run,在hop根目录下打开cmd命令行,执行下面命令,其中samples是项目,${PROJECT_HOME}/transforms/switch-case-basic.hpl是管道的路径
hop-run.bat -j samples -r local -f ${PROJECT_HOME}/transforms/switch-case-basic.hpl
3)运行hop-server,在hop根目录下打开cmd命令行,执行下面命令 比如ip地址:192.168.1.102 端口8080 (重点)
hop-server.bat 192.168.1.102 8080
设置用户名和密码,不设置用户名和密码默认都是cluster
hop-server.bat 192.168.1.102 8080 -u admin -p 123456(设置密码不成功)

使用浏览器访问 http://192.168.1.102:8080 ,输入用户名cluster,密码:cluster

最后展示:

二、Linux CentOS 7环境下 docker部署
2.1 下载镜像,截至目前是latest是2.5.0,也可以指定tag的版本
docker pull apache/hop:latest
#指定版本
docker pull apache/hop:2.5.0
2.2、运行容器
推荐使用第二种,第三种也能用
1)第一种:最简单的运行hop-server容器,默认用户名密码都是cluster,它还需要在/opt/hop/plugins/databases安装数据库驱动包参考第二种
docker run -d \
-p 8080:8080 \
-e HOP_SERVER_PORT=8080 \
apache/hop
2)第二种:设置用户名密码
在Linux系统的home目录下建hop文件夹,在hop文件夹里建三个文件夹,分别是config,audit,plugins

docker run -d -p 8080:8080 \
-e HOP_SERVER_PORT=8080 \
-e HOP_SERVER_USER=admin \
-e HOP_SERVER_PASS=admin \
--name my-hop-server \
apache/hop:latest
使用docker ps 查看my-hop-server的容器id,比如是c728f91ee95d,通过下图可以看出,文件路径主要在/opt/hop/plugins上

a、把容器里的文件复制到宿主机上
docker cp c728f91ee95d:/opt/hop/plugins /home/hop
b、参考windows 10系统部署,添加数据库连接驱动包在 /home/hop/plugins/databases里添加对应的数据库连接驱动包,它相当于上文中Windows 10环境安装下的plugins\databases文件夹
c、把宿主机上的文件复制到容器里去
docker cp /home/hop/plugins c728f91ee95d:/opt/hop
d、重启该容器
docker restart c728f91ee95d
3)第三种:设置用户名密码,并把容器里的文件挂载到宿主机中,日志默认存储在内存中
在Linux系统的home目录下建hop文件夹,在hop文件夹里建三个文件夹,分别是config,audit,plugins,
这个容器是运行不成功的
~~docker run -d --privileged=true -p 18182:8080 ~~
~~-v /home/hop/config:/opt/hop/config/ ~~
~~-v /home/hop/audit:/opt/hop/audit/ ~~
~~-v /home/hop/plugins:/opt/hop/plugins/ ~~
~~-e HOP_SERVER_PORT=8080 ~~
~~-e HOP_SERVER_USER=admin ~~
~~-e HOP_SERVER_PASS=admin ~~
~~--name my-hop-server ~~
apache/hop:latest
采用下面的代码在Linux系统的home目录下建hop文件夹,在hop文件夹下创建hop.err.log文件,再创建files文件夹,在files文件夹下分别创建
jdbc、metadata、demoProject三个文件夹
/home/hop/files/jdbc/
/home/hop/files/demoProject/
/home/hop/files/metadata/
/home/hop/hop.err.log
其中 jdbc文件夹里装的是数据库连接驱动包,它相当于上文中Windows 10环境安装下的hop\plugins\databases这个databases文件夹,metadata文件夹相当于hop\config\metadata文件夹,
把Windows10环境中的databases和metadata文件夹里的所有文件分别拷贝到Linux系统对应的/home/hop/files/jdbc/ 和/home/hop/files/metadata/两个文件夹中
-d 可以改-it都可以
docker run -d --privileged=true -p 18183:8080 \
-v /home/hop/hop.err.log:/opt/hop/hop.err.log/ \
-v /home/hop/files:/files/ \
-e HOP_SERVER_PORT=8080 \
-e HOP_SERVER_USER=admin \
-e HOP_SERVER_PASS=admin \
-e HOP_PROJECT_FOLDER=/files \
-e HOP_SERVER_METADATA_FOLDER=/files/metadata \
-e HOP_SHARED_JDBC_FOLDER=/files/jdbc \
-e HOP_PROJECT_NAME=demoProject \
-e HOP_ENVIRONMENT_NAME=Local \
--name my-hop-server3 \
apache/hop:latest
官方介绍文档:
Web Services in Apache Hop :: Apache Hop
Docker container :: Apache Hop
三、把在客户端上设计的工作流和管道发布到hop-server中
参考:https://blog.csdn.net/liuxianwen1990/article/details/122980028
3.1、在该项目的元数据里Hop Server创建一个服务

3.2、在该项目的元数据里Pipeline Run Configuration创建一个管道配置,配置如下图所示

官方文档:
Pipeline Run Configuration :: Apache Hop
Pipeline Run Configurations :: Apache Hop
3.3、在该项目的元数据里Workflow Run Configuration创建一个工作流配置,配置如下图所示

官方文档:
Workflow Run Config :: Apache Hop
Workflow Run Configurations :: Apache Hop
3.4、打开要发布到Hop Server的管道和工作流



3.5、打开hop server 的地址如http://192.168.1.102:8080/hop/status/ ,运行的示意图


详情页面

3.6、调用Hop Server接口
接口调用官方文档:Hop Server Web Services Overview :: Apache Hop
1)调用getPipelineStatus 接口获取管道状态 比如:http://192.168.1.102:8080/hop/pipelineStatus/?name=>&id=
PostMan调用接口示意图,授权这边的用户名和密码就是Hop Server上设置的用户名密码

2)调用startPipeline 接口启动管道 比如:http://192.168.1.102:8080/hop/startPipeline?name=
接口调用成功

ETL之apache hop系列3-hop Server环境部署与客户端发布管道工作流的更多相关文章
- 【Apache KafKa系列之一】KafKa安装部署
kafka是一种高吞吐量的分布式发布订阅消息系统,她有如下特性: 通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能. 高吞吐量:即使是非常普通的 ...
- Jmeter系列(1)- 环境部署
如果你想从头学习Jmeter,可以看看这个系列的文章哦 https://www.cnblogs.com/poloyy/category/1746599.html 官网下载Jmeter http://j ...
- nagios系列(一)centos6.5环境部署nagios服务端
nagios软件安装包存放目录:/home/oldboy/tools nagios服务安装目录:/usr/local/nagios 1.配置yum源 echo "------ step 1: ...
- 系列三VisualSvn Server
原文:系列三VisualSvn Server VisualSvn Server介绍 1 .VisualSvn Server VisualSvn Server是免费的,而VisualSvn是收费的.V ...
- apache kafka系列之Producer处理逻辑
最近研究producer的负载均衡策略,,,,我在librdkafka里边用代码实现了partition 值的轮询方法,,,但是在现场验证时,他的负载均衡不起作用,,,所以来找找原因: 下文是一篇描 ...
- Apache Shiro系列之五,概述 —— 配置
Shiro设计的初衷就是可以运行于任何环境:无论是简单的命令行应用程序还是复杂的企业集群应用.由于运行环境的多样性,所以有多种配置机制可用于配置,本节我们将介绍Shiro内核支持的这几种配置机制. ...
- Apache Shiro系列四,概述 —— Shiro的架构
Shiro的设计目标就是让应用程序的安全管理更简单.更直观. 软件系统一般是基于用户故事来做设计.也就是我们会基于一个客户如何与这个软件系统交互来设计用户界面和服务接口.比如,你可能会说:“如 ...
- Apache Shiro系列三,概述 —— 10分钟入门
一.介绍 看完这个10分钟入门之后,你就知道如何在你的应用程序中引入和使用Shiro.以后你再在自己的应用程序中使用Shiro,也应该可以在10分钟内搞定. 二.概述 关于Shiro的废话就不多说了 ...
- hbase(ERROR: org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet)
今天启动clouder manager集群时候hbase list出现 (ERROR: org.apache.hadoop.hbase.ipc.ServerNotRunningYetException ...
- PHP如何让apache支持.htaccess 解决Internal Server Error The server …错误
TP框架 打开 www.newtp.com/index.php/Home/Index/abc出现 如下错误: Internal Server Error The server encountered ...
随机推荐
- 【Python】爬虫下载视频
Python爬虫下载视频 前言 这两天我一时兴起想学习 PS ,于是去我的软件宝库中翻出陈年已久的 PhotoshopCS6 安装,结果发现很真流畅诶! 然后去搜索学习视频,网上的视频大多浮躁,收费, ...
- 每周更新 | Verilog测试用例及波形展示图功能上线
Hi,亲爱的技术伙伴,经过产研团队的努力,本周ShowMeBug有以下4个功能上线啦- 芯片语言 Verilog 支持测试用例 芯片语言 Verilog 支持测试用例,自动评分同步上线- 同时,Ver ...
- ping不通能curl通
今天发现一个域名或ip居然在ping不通的情况下能curl通,以前的思维定式直接给整破防了啊!!! 涨见识了,具体原因和原理后续补充~
- Python批量填补遥感影像的无效值NoData
本文介绍基于Python中ArcPy模块,对大量栅格遥感影像文件批量进行无效值(NoData值)填充的方法. 在处理栅格图像文件时,我们经常会遇到图像中存在有无效值(即NoData值)的情况. ...
- 如何在 Python 中实现遗传算法
前言 遗传算法是一种模拟自然进化过程与机制来搜索最优解的方法,它由美国 John Holland 教授于20世纪70年代提出.遗传算法的主要思想来源于达尔文生物进化论和孟德尔的群体遗传学说,通过数学的 ...
- 前端vue 宫格组件提供常见九宫格菜单组件,扩充性好,可切换九宫格 十二宫格 十五宫格
快速实现vue uni-app宫格组件提供常见九宫格菜单组件,扩充性好,可切换九宫格 十二宫格 十五宫格; 下载完整代码请访问uni-app插件市场地址:https://ext.dcloud.net. ...
- k8s驱逐篇(7)-kube-controller-manager驱逐-taintManager源码分析
概述 taintManager的主要功能为:当某个node被打上NoExecute污点后,其上面的pod如果不能容忍该污点,则taintManager将会驱逐这些pod,而新建的pod也需要容忍该污点 ...
- Java 写一个线程安全的单例模式(饱汉/饿汉)
饿汉单例 public class Singleton { private static Singleton singleton = new Singleton(); private Singleto ...
- TornadoFx 页面之间的数据传递
原文地址: TornadoFx 页面之间的数据传递 - Stars-One的杂货小窝 和Android开发一样,经常遇到两个页面之间需要进行数据的交互传输,本文讲解下TornadoFx框架中,页面之间 ...
- influxdb常用sql总结
本文为博主原创,转载请注明出处: 1.登录influxdb influx -username admin -password "password" 2.查看数据库 ##查看有哪些数 ...