DPDI实操演练第一讲

1.DPDI简介

DPDI Online 您的智能ETL任务调度专家
DPDI Online 是一款基于Kettle的强大在线任务调度平台,凭借其高效与灵活性,专为调度和监控Kettle客户端生成的ETL任务而设计
DPDI Online 具有一下特性
多服务器多版本支持:无缝整合不同服务器和Kettle版本,确保任务执行兼容性和一致性
联合开发:由三倍镜成员团队共同研发,确保平台的创新性和专业性
灵活部署:支持属地化部署,满足您的特定业务需求
定制化开发:提供个性化定制服务,以适应不断变化的市场需求

2.DPDI背景

Pentaho Data Integration简介
PDI也称为Kettle,Kettle是利用Spoon设计器设计转换(Transformation)和作业(Job),转换主要是针对数据的各种处理,⼀个转换⾥可以包含多个步骤(Step),作业是处理流程,⼀个作业⾥包括多个作业项(Job Entry),⼀个作业项代表了⼀项⼯作,转换也是⼀个作业项
Pentaho Data Integration调度监控
Pentaho Data Integration(kettle)作为用户规模最多的开源ETL工具,强大简洁的功能深受广大ETL从业者的欢迎。但kettle本身的调度监控功能却非常弱。Pentaho官方都建议采用crontab(Unix,linux平台)和计划任务(Windows平台)来完成调度功能。所以大家在实施kettle作业调度功能的时候,通常采用以下几种方式:使用spoon程序来启动Job,使用crontab或计划任务,自主开发java程序来调用kettle的类库
DPDI online在线调度管理
DPDI online是基于Pentaho Data Integration构建的一个高效、灵活的在线任务调度(Dispatch)平台。它允许开发人员和数据工程师以简单的方式定义、管理和执行定时的数据处理任务,是大数据环境中的ETL流程自动化的好帮手

3.DPDI官网

官方网站地址
DPDI安装包和产品文档下载地址
DPDI演示环境地址
联系我们

4.DPDI实操演练第一讲

利用Dispatch PDI调度PDI任务生成日期维度表
4.1PDI流程

4.2 PDI实现步骤说明
4.2.1生成20年日期记录
用到PDI组件:输入-生成记录

4.2.2增加日期序列
用到PDI组件:转换-增加序列

4.2.3生成日期属性
用到PDI组件:脚本-JavaScript代码

4.2.4日期属性筛选
用到PDI组件:转换-字段选择

4.2.5加载数据到数据仓库
用到PDI组件:输出-表输出

4.2.6数据仓库数据库连接配置

连接名称命名为Data_warehouse、连接类型选择mysql、连接方式采用JNDI、JNDI名称设置为Data_warehouse(DPDI连接配置需要设置的名称)

4.3 Dispatch PDI调PDI任务
4.3.1登录DPDI
输入用户名和密码勾选同意并接受DispatchPDI用户协议进行登录

4.3.2新建资源库
登录后在左侧菜单中 -> 资源管理下 -> 点击资源仓库 ->点击新增资源库

选择资源库类型为文件、填写资源库编码、资源库名称、资源库简介,点击保存即可完成资源库的创建

4.3.3上传PDI文件
点击查看明细进入名Dispatch PDI资源库明细页面

上传文件夹 -> 选择目录 -> 点击上传 ->选择要上传的文件夹

选择要上传的文件夹 ->上传

确定要上传的文件个数 ->上传

再次确认文件个数 -> 确定,完成文件上传

PDI文件导入完成后结果展示

4.3.4连接配置
数据仓库JNDI名称为Data_warehouse连接配置步骤:
资源管理->连接配置、修改数据库URL(IP,端口,数据库Schema)->新增->选择数据库类型->填写数据库名称、数据库描述、数据库用户名、数据库密码->点击测试连接->测试连接成功点击确定完成数据库连接配置

配置成功后结果

4.3.5任务配置
资源管理->任务配置->新增->选择调度方式为手工执行->任务环境/服务器类型为本地->任务信息/下拉选择资源库、下拉选择脚本目录、下拉脚本名称找到任务DIM_DATE.ktr->
点击保存

任务配置成功后结果

4.3.6预警配置
配置SMTP服务器地址、SMTP服务器端口、发件人、收件人、抄送人地址,点击发送测试邮件提示测试邮件成功代表配置正确,点击保存完成预警配置

4.3.7启动任务
点击播放按钮进行启动任务

可实时监控运行日志,也可以随时停止任务

4.3.8预警记录
如果任务失败会有异常邮件通知,DPDI可以查看预警记录
,

预警配置设置的接收人和抄送人邮箱中可以看到具体的错误日志

4.3.9日志管理
日志管理可以查看运行日志

4.4 结果展示

更多实操演练请关注三倍镜官网

DPDI(Dispatch PDI)kettle调度管理平台之实操演练第001讲--手工调度本地PDI任务生成日期维度数据的更多相关文章

  1. 号外号外:9月13号《Speed-BI云平台案例实操--十分钟做报表》开讲了

    引言:如何快速分析纷繁复杂的数据?如何快速做出老板满意的报表?如何快速将Speed-BI云平台运用到实际场景中?         本课程将通过各行各业案例背景,将Speed-BI云平台运用到实际场景中 ...

  2. kettle安装部署基本操作及实操文档

    一.kettle是什么? Kettle,简称ETL(Extract-Transform-Load的缩写,即数据抽取.转换.装载的过程),是一款国外开源的ETL工具,纯Java编写,可以在Window. ...

  3. vue管理平台的动态路由(后台传递路由,前端拿到并生成侧边栏)

    前端的路由从后台获取,包括权限: 大体步骤包括:路由拦截(钩子函数)---->后台获取路由数据 ----> 保存到本地或vuex中. 在router-->index.js中: rou ...

  4. Spark调度管理(读书笔记)

    Spark调度管理(读书笔记) 转载请注明出处:http://www.cnblogs.com/BYRans/ Spark调度管理 本文主要介绍在单个任务内Spark的调度管理,Spark调度相关概念如 ...

  5. kettle系列-我的开源kettle调度、管理平台[kettle-manager]介绍

    kettle管理工具 专门为kettle这款优秀的ETL工具开发的web端调度.管理工具. 新版本 项目简介 kettle作为非常优秀的开源ETL工具得到了非常广泛的使用,一般的使用的都是使用客户端操 ...

  6. kettle系列-kettle管理平台部署说明

    本介绍我的开源项目[kettle-manager]kettle管理平台如何获取并部署使用,该项目介绍请参看另一篇博文:http://www.cnblogs.com/majinju/p/5739820. ...

  7. 基于kettle8的web端调度监控平台

    发布时间:2018-11-16   技术:spring+springmvc +beetlsql+quartz+kettle8   概述 Kettle调度监控平台(以下简称KS)是一个自主开发的java ...

  8. 一个简单易用的容器管理平台-Humpback

    什么是Humpback? 在回答这个问题前,我们得先了解下什么的 Docker(哦,现在叫 Moby,文中还是继续称 Docker). 在 Docker-百度百科 中,对 Docker 已经解释得很清 ...

  9. 分布式缓存管理平台XXL-CACHE

    <分布式缓存管理平台XXL-CACHE> 一.简介 1.1 概述 XXL-CACHE是一个分布式缓存管理平台,其核心设计目标是"让分布式缓存的接入和管理的更加的简洁和高效&quo ...

  10. 容器、容器集群管理平台与 Kubernetes 技术漫谈

    原文:https://www.kubernetes.org.cn/4786.html 我们为什么使用容器? 我们为什么使用虚拟机(云主机)? 为什么使用物理机? 这一系列的问题并没有一个统一的标准答案 ...

随机推荐

  1. Educational Codeforces Round 168 (Rated for Div. 2)

    题目链接:Educational Codeforces Round 168 (Rated for Div. 2) 总结:题目较简单,但是发挥很一般.A,B题一直读假题,卡了半个小时:C题用char存i ...

  2. 3. 使用sql查询csv/json文件内容,还能关联查询?

    1. 简介 我们在前面的文章提到了calcite可以支持文件系统的数据源适配, 其实官方已经提供了相应的能力, 其支持csv和json的查询适配, 废话不多说, 直接展示. 2. Maven < ...

  3. NFS v3及v4协议区别

    本文分享自天翼云开发者社区<NFS v3及v4协议区别>,作者:章****凯 NFS v4相比v3,有部分功能的增强,如果应用需要实现如下功能,则必须使用NFS v4(建议和应用侧确实是否 ...

  4. 查看 OceanBase 执行计划

    使用benchmarksql压测数据库,产生高消耗的sql并测试数据库性能 压测环境部署 benchmarksql下载 git clone https://github.com/meiq4096/be ...

  5. datawhale-leetcode打卡:001-012题

    这次这十二个题目属于是极限肝出来的,有两个参考了一下题解,还是很有意思.我会按照我个人的感觉去写这个东西. 螺旋矩阵(leetcode 054) 这个题目比较恶心的就是跑圈的过程怎么描述.首先,顺时针 ...

  6. autMan奥特曼机器人对接新千寻Pro微信框架详细教程

    文件下载 1.安装指定版本微信 https://www.123865.com/s/3Wd9-q13jH 2.最新千寻pro下载 [点此网盘下载] 框架教程 1.安装上面的指定微信版本,跟最新的千寻框架 ...

  7. linux ssh 免密登录

    1.服务器端开启密钥登录模式 $ vim /etc/ssh/sshd_config # 是否允许 root 远程登录 PermitRootLogin yes # 密码登录是否打开 PasswordAu ...

  8. go mgo包 简单封装 mongodb 数据库驱动

    mgo是go编写的mongodb的数据库驱动,集成到项目中进行mongodb的操作很流畅,以下是对其的一些简单封装,具体使用可随意改动封装. 安装 go get gopkg.in/mgo.v2 使用 ...

  9. Win10下子系统Unbuntu18.04安装nginx

    1.Nginx的软件包在Ubuntu默认软件仓库中可用. 安装非常简单,只需键入以下命令: sudo apt update sudo apt install nginx 2.安装完成后,检查Nginx ...

  10. JOKER可视化开发工具迎来重大更新

    为紧跟行业前沿趋势,满足开发者日益增长的需求,我们于2025年3月13日对平台开展了全方位升级.此次更新聚焦前端交互的便捷性.服务端功能的强大性以及通用操作的流畅性,在多方面进行了深度优化.尤为值得一 ...