数据层交换和高性能并发处理(开源ETL大数据治理工具--KETTLE使用及二次开发 )

ETL是什么？为什么要使用ETL？KETTLE是什么？为什么要学KETTLE？

ETL是数据的抽取清洗转换加载的过程，是数据进入数据仓库进行大数据分析的载入过程，目前流行的数据进入仓库的过程有两种形式，一种是进入数据库后再进行清洗和转换，另外一条路线是首先进行清洗转换再进入数据库，我们的ETL属于后者。

大数据的利器大家可能普遍说是hadoop，但是大家要知道如果我们不做预先的清洗和转换处理，我们进入hadoop后仅通过mapreduce进行数据清洗转换再进行分析，垃圾数据会导致我们的磁盘占用量会相当大，这样无形中提升了我们的硬件成本（硬盘大，内存小处理速度会很慢，内存大cpu性能低速度也会受影响），因此虽然hadoop理论上解决了烂机器拼起来解决大问题的问题，但是事实上如果我们有更好的节点速度必然是会普遍提升的，因此ETL在大数据环境下仍然是必不可少的数据交换工具。

市场上流行的ETL很多，比如informatica等，但是开源的比较完善的却不是很多，而其中比较有名的要说是pentaho开源的kettle了，该工具被广泛用，并且开源的产品我们从中不仅可以学到ETL的简单应用，并且可以学习到ETL的原理以及通过源码学到更多的东西。

亮点一：KETTLE应用广泛，仅仅学会使用就可以找到一份不错的工作。

亮点二：本课程不仅讲解简单实用，同时讲解二次开发并且配有开发模板，提升工作质量。

亮点三：渗透了大数据的一些处理方法，与目前流行的hadoop配合使用。

亮点四：分析KETTLE源码，即使对ETL兴趣不大，至少可以了解国外开源项目的一些源码，并且KETTLE本身也使用了很多开源项目，因此可以从该工具上学到更多东西。

通过课程可以学到什么：

1.ETL过程原理

2.数据流引擎的原理

3.元数据和数据进行动态数据交换的设计

4.并发运算的原理

课时安排：（15课时）

1.ETL简介—开源KETTLE（1课时）

>介绍KETTLE在大数据应用的位置和作用。

>主要讲解ETL是什么，KETTLE进行简单介绍，并且使用例子进行KETTLE的使用介绍。

>介绍KETTLE流程的部署。

2.KETTLE使用（1课时）

>详细介绍KETTLE的spoon使用

>KETTLE的trans和job入门

>KETTLE的日志和调试工具使用

3. KETTLE之Step流程设计（3课时）

>编写例子介绍KETTLE常用的转换、清洗组件

>主要完成以下插件：

输入插件：

文本文件输入、生成记录、表输入、Fixed file input、Get data from XML

输出插件：

XML输出、删除、插入/更新、文本文件输出、更新、表输出

转换插件：

Add a checksum、Replace in string、Set field value、Unique rows（HashSet）、增加常量、增加序列、字段选择、拆分字段

Flow插件：

Abort、Switch/case、空操作、过滤记录

脚本插件：

Modified Java Script Value、执行SQL脚本

查询插件：

File exists、Table exists、调用DB存储过程

4. KETTLE之Job流程设计（2课时）

>编写例子介绍KETTLE常用的作业组件

>主要完成以下插件：

通用插件：

START、DUMMY、Transformation、Success

文件管理插件：

Copy Files、Compare folders、Create a folder、Create file、Delete files、Delete folders、File Compare、Move Files、Wait for file、Zip file、Unzip file

条件插件：

Check Db connections、Check files locked、Check if a folder is empty、Check if files exist、File Exists、Table exists、Wait for

脚本插件：

Shell、SQL

Utility插件：

Ping a host、Truncate tables

文件传输插件：

Upload files to FTPS、Get a file with FTPS、FTP Delete

>Kettle与Hadoop的联合使用

5. KETTLE之流程性能调优与监控（1课时）

>介绍KETTLE的流程监控功能

>介绍KETTLE的性能优化方法

6. KETTLE之嵌入开发（1课时）

>编写程序介绍KETTLE的流程如何嵌入到我们的java应用中

主要包括java嵌入trans以及job流程

7. KETTLE之自定义Step、Job插件制作（3课时）

>编写Step和Job模板，并给大家作为二次开发的基础工程使用，提高大家的开发效率。

>编写程序说明Step和Job插件的开发方法。

8. KETTLE之数据同步方案（1课时）

>介绍5种数据同步方案，并且这5种方案都是支持异构数据同步的。

包括全量快速同步方案和增量同步方案

9. KETTLE之分区、集群以及原理（1课时）

>介绍KETTLE的分区原理，并且讲解配置使用。

>介绍KETTLE的集群原理，并且讲解配置使用，以及监控方法。

10. KETTLE之源码分析与二次开发（1课时）

>介绍KETTLE的SRC导入ECLIPSE方法，以及打包和运行方法。

>分析KETTLE的包结构以及运行流程，讲解KETTLE的运行原理。

数据层交换和高性能并发处理(开源ETL大数据治理工具--KETTLE使用及二次开发 )的更多相关文章

Facebook 正式开源其大数据查询引擎 Presto
Facebook 正式宣布开源 Presto —— 数据查询引擎,可对250PB以上的数据进行快速地交互式分析.该项目始于 2012 年秋季开始开发,目前该项目已经在超过 1000 名 Faceboo ...
H2O是开源基于大数据的机器学习库包
H2O是开源基于大数据的机器学习库包 H2O能够让Hadoop做数学,H2O是基于大数据的统计分析机器学习和数学库包,让用户基于核心的数学积木搭建应用块代码,采取类似R语言 Excel或JSON等 ...
Druid：一个用于大数据实时处理的开源分布式系统——大数据实时查询和分析的高容错、高性能开源分布式系统
转自:http://www.36dsj.com/archives/28590 Druid 是一个用于大数据实时查询和分析的高容错.高性能开源分布式系统,旨在快速处理大规模的数据,并能够实现快速查询和分 ...
Elastic Stack 开源的大数据解决方案
目的本文主要介绍的内容有以下三点: 一. Elastic Stack是什么以及组成部分二. Elastic Stack前景以及业务应用三. Elasticsearch原理(索引方向) 四. El ...
CYQ.Data 轻量数据层之路使用篇-MProc 存储过程与SQL 视频[最后一集] H (二十八)
2019独角兽企业重金招聘Python工程师标准>>> 说明: 本次录制主要为使用篇:CYQ.Data 轻量数据层之路使用篇五曲 MProc 存储过程与SQL(十六) 的附加视 ...
奇点云数据中台技术汇(一) | DataSimba——企业级一站式大数据智能服务平台
在这个“数据即资产”的时代,大数据技术和体量都有了前所未有的进步,若企业能有效使用数据,让数据赚钱,这必将成为企业数字化转型升级的有力武器. 奇点云自研的一站式大数据智能服务平台——DataSimba ...
IT大数据服务管理高级课程(IT服务，大数据，云计算，智能城市)
个人简历金石先生是马克思主义中国化的研究学者,上海财经大学经济学和管理学硕士,中国民主建国会成员,中国特色社会主义人文科技管理哲学的理论奠基人之一.金石先生博学多才,对问题有独到见解.专于工作且乐于 ...
1.docker 数据卷的备份和恢复（非大数据量）
在生产环境中使用 Docker,很多时候需要对数据进行持久化,或者进行容器间的数据共享. 容器中的管理数据主要有两种方式: 数据卷 (Data Volumes): 容器内数据直接映射到本地主机环境: ...
齐博软件著名的老牌CMS开源系统 X1.0基于thinkphp开发的高性能免费开源PHP开放平台齐博x1.0基于thinkphp框架开发的高性能免费开源系统主推圈子论坛预定拼团分销商城模块
齐博X1--标签变量大全 1.网站名称: {$webdb.webname} 2.网址: {$webdb[www_url]} {:get_url('home')} 3.网站SEO关键词: 首页:{$we ...

随机推荐

dreamvc框架(三),dispartcher做了些什么
这一篇我会介绍一些dreamvc的核心类Dispatcher都做了些什么,首先我们先来看一看init方法,这是在DispatcherServlet和DispatcherFilter里面都会调用到的一个 ...
sql 合并相同条件的字段
案例:将 Albums 字段相同的数据的 PhotoUrl 字段拼接到一起(我写的是前9行,可以去掉) 一.表的结构二.sql 语句(为了方便我加了一个条件[Albums=783] ) ) '; ...
if语句之求一元二次方程
思路:1.首先明白什么叫做一元二次方程,当a不等于0的时候,此方程是一元二次方程 2.根据公式derta=b*b-4*a*c来判断根的情况 ①derta>0时,方程有两个不相等的实根 ②dert ...
【Hibernate】双向多对多Set查询
一个计划对于多个竞价,一个竞价对应多个计划. 1.实体 /** * @author Tidy * @Description 计划 */ public class EbgStockPlanContent ...
linux修改shell为zsh
以前使用的bash,如果目录很长,那么整个路径都被占满了. 询问一下一位大牛,答曰:zsh. 安装:ubuntu下sudo apt-get install zsh 修改默认登录shell: $chsh ...
hdu2289Cup(神坑题，精度+二分，以半径二分不能过，以高度为二分就过了)
Problem Description The WHU ACM Team has a big cup, with which every member drinks water. Now, we kn ...
FLUSH TABLES WITH READ LOCK 锁全局
[root@wx03 ~]# cat a3.sh mysql -uroot -p1234567<<eof use scan; FLUSH TABLES WITH READ LOCK; sy ...
libvirt(virsh命令总结）
virsh回车进入交互式界面: version pwd hostname 显示本节点主机名 nodeinfo 显示节点信息 list --all 显示所有云主机 7种状态: running 运行中 ...
第一次PS练习
嘿嘿,自己第一次的PS,虽然把在大神眼里是小KS,但是了,对我来说值得劲纪念.加油,我会努力的.
2008r2 显示桌面图标

数据层交换和高性能并发处理(开源ETL大数据治理工具--KETTLE使用及二次开发 )

数据层交换和高性能并发处理(开源ETL大数据治理工具--KETTLE使用及二次开发 )的更多相关文章

随机推荐

热门专题