ETL工具Datax、sqoop、kettle 的区别

一、Sqoop主要特点：

1.可以将关系型数据库中的数据导入到hdfs，hive，hbase等hadoop组件中，也可以将hadoop组件中的数据导入到关系型数据库中；

2.sqoop在导入导出数据时，充分采用了map-reduce计算框架（默认map数为4），根据输入条件生成一个map-reduce作业（只有map，没有reduce），在hadoop集群中运行。采用map-reduce框架同时在多个节点进行import或者export操作，熟读比单节点运行多个并行效率高，同时提供了良好的并发性和容错性；

3.支持insert，update模式，可以选择参数，若内容存在就更新，若不存在就插入；

4.对国外主流关系型数据库支持性更好。

二、Datax 主要特点：

1、异构数据库和文件系统之间的数据交换；

2、采用 Framework + plugin 架构构建，Framework 处理了缓冲，流控，并发，上下文加载等高速数据交换的大部分技术问题，提供了简单的接口与插件交互，插件仅需实现对数据处理系统的访问；

3、数据传输过程在单进程（单进程多线程）内完成，全内存操作，不读写磁盘，也没有 IPC（进程之间的通信）；

4、开放式的框架，开发者可以在极短的时间开发一个新插件以快速支持新的数据库/文件系统。

三、Kettle 主要特点：

1、kettle （数据抽取、清洗、转换、装载）是由 java 编写,可以在 Window、Linux、Unix 上运行。支持多数据源, 多种中间件的专业 ETL 工具。

2、支持图形化 GUI 设计界面，组件多样性，支持 http 请求,上手简单支持拖拽，支持 sql , 可以编写js ,可以编写一些 java 代码，然后以工作流的形式流转。如果没有冲突可以并行执行，并行开发。在工具内可以查看读写修改输出更新拒绝错误等一些参数，快速定位和纠错。

四、Sqoop 和 Datax 的区别：

1、sqoop 采用 map-reduce 计算框架进行导入导出，而 datax 仅仅在运行 datax 的单台机器上进行数据的

抽取和加载，速度比 sqoop 慢了许多；

2、sqoop 只可以在关系型数据库和 hadoop 组件之间进行数据迁移，而在 hadoop 相关组件之间，比如

hive 和 hbase 之间就无法使用 sqoop 互相导入导出数据，同时在关系型数据库之间，比如 mysql 和

oracle 之间也无法通过 sqoop 导入导出数据。与之相反，datax 能够分别实现关系型数据库 hadoop 组件

之间、关系型数据库之间、hadoop 组件之间的数据迁移；

3、sqoop 是专门为 hadoop 而生，对 hadoop 支持度好，而 datax 可能会出现不支持高版本 hadoop 的现象；

4、sqoop 只支持官方提供的指定几种关系型数据库和 hadoop 组件之间的数据交换，而在 datax 中，用户

只需根据自身需求修改文件，生成相应 rpm 包，自行安装之后就可以使用自己定制的插件；

五、Kettle 与 DataX 的区别：

1、Kettle 拥有自己的管理控制台，可以直接在客户端进行 etl 任务制定，不过是 CS 架构（服务器-客户机），而不支持 BS（浏览器-服务器）架构。DataX 并没有界面，界面完全需要自己开发，增加了很大工作量。

2、Kettle 可以与我们自己的工程进行集成，通过 JAVA 代码集成即可，可以在 java 中调用 kettle 的转换、执行、结束等动作，这个还是有意义的，而 DataX 是不支持的，DataX 是以执行脚本的方式运行任务的，当然完全吃透源码的情况下，应该也是可以调用的。

3、支持的数据库，都支持的比较齐全，kettle 支持的应该更多，DataX 是阿里开发，可以更好地支持阿里自身的数据库系列，如 ODPS、ADS 等

4、Kettle 已经加入 BI 组织 Pentaho，加入后 kettle 的开发粒度和被关注度更进一步提升

5、DataX 开源的支持粒度不高，关注度远没有 kettle 高，代码提交次数更是少的很。

六、Kettle 与 Sqoop 的区别

1、Kettle 中有两种脚本文件，transformation 和 job，transformation 完成针对数据的基础转换，job则完成整个工作流的控制；Sqoop 主要用于在 Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递

2、kettle 有图形化的操作界面，只需要描述你想做什么，而不是你想怎么做；sqoop 没有图形化界面，具体的数据流向需要手工配置。

3、kettle 底层使用多线程以提高效率；Sqoop 专为大数据批量传输设计，能够分割数据集并创建 Hadoop任务来处理每个区块。

4、kettle 可以利用 transformation 在数据传输过程中对数据的一些转换处理；Sqoop 只是一个用来将Hadoop 和关系型数据库中的数据相互转移的工具

5、kettle 数据的具体流向可以指定，可以是各种数据的存储工具；sqoop 只是完成 hdfs 到关系型数据库或者关系型数据库到 hdfs 的数据传输，在传输的过程中保证传输数据的类型

ETL工具Datax、sqoop、kettle 的区别的更多相关文章

【转】阿里出品的ETL工具dataX初体验
原文链接:https://www.imooc.com/article/15640 来源:慕课网我的毕设选择了大数据方向的题目.大数据的第一步就是要拿到足够的数据源.现实情况中我们需要的数据源分布在不 ...
【dataX】阿里开源ETL工具——dataX简单上手
一.概述 1.是什么? DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL.Oracle.SqlServer.Postgre.HDFS.Hive.ADS.HBase. ...
阿里ETL工具datax学习（一）
阿里云开源离线同步工具DataX3.0介绍一. DataX3.0概览 DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL.Oracle等).HDFS.Hive.Ma ...
开源作业调度工具实现开源的Datax、Sqoop、Kettle等ETL工具的作业批量自动化调度
1.阿里开源软件:DataX DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL.Oracle等).HDFS.Hive.ODPS.HBase.FTP等各种异构数据源之间稳 ...
大数据之ETL工具Kettle的--1功能介绍
Kettle是一款国外开源的ETL工具,纯java编写,可以在Window.Linux.Unix上运行. 说白了就是,很有必要去理解一般ETL工具必备的特性和功能,这样才更好的掌握Kettle的使用. ...
ETL工具的功能和kettle如何来提供这些功能
不多说,直接上干货! 大家会有一个疑惑,本系列博客是Kettle,那怎么扯上ETL呢? Kettle是一款国外开源的ETL工具,纯java编写,可以在Window.Linux.Unix上运行. 说白了 ...
ETL工具对比
ETL工具对比 Informatica Kettle 起源 1993年创立于 (美国加利福尼亚州)并于1999年4月在纳斯达克上市 2006年加入了开源BI组织自2017年9月起,已被(日立集团下 ...
六种主流ETL 工具的比较(DataPipeline，Kettle，Talend，Informatica，Datax ，Oracle Goldengate)
六种主流ETL 工具的比较(DataPipeline,Kettle,Talend,Informatica,Datax ,Oracle Goldengate) 比较维度\产品 DataPipeline ...
etl工具，kettle实现了周期
Kettle这是国外的来源ETL工具,纯java写.能Window.Linux.Unix在执行.绿色无需安装,稳定高效的数据提取. 业务模型: 在关系型数据库中有张非常大的数据存储表,被设计成奇偶库存 ...

随机推荐

GTID主从和lamp架构运行原理
目录 GTID主从 GTID概念介绍 GTID工作原理 GTID主从配置 lamp lamp简介 web服务器工作流程 cgi与fastcgi http协议是什么? lamp架构运行的原理 Apac ...
MySQL内存管理机制浅析
GreatSQL社区原创内容未经授权不得随意使用,转载请联系小编并注明来源. GreatSQL是MySQL的国产分支版本,使用上与MySQL一致. 目录一.placement new的定义二.pl ...
WebView2 通过 PuppeteerSharp 实现爬取王者壁纸 (案例版)
此案例是<.Net WebView2 项目,实现嵌入 WEB 页面 Chromium内核>文的续集. 主要是针对WebView2的一些微软自己封装的不熟悉的API,有一些人已经对 Pup ...
浅谈MySQL的sql_mode
SQL mode 今天我们来分享一下MySQL的SQL mode , 这也是我们比较容易忽略的一点,我们在一开始安装数据库的时候其实就要先考虑要保留哪些SQL mode,去除哪些,合理的配置能够减少很 ...
.NET异步编程模式(一)
.NET 提供了三种异步编程模型 TAP - task-based asynchronous pattern APM - asynchronous programming model EAP - ev ...
Jetpack架构组件学习(4)——APP Startup库的使用
最近在研究APP的启动优化,也是发现了Jetpack中的App Startup库,可以进行SDK的初始化操作,于是便是学习了,特此记录原文:Jetpack架构组件学习(4)--App Startup ...
第五篇:vue.js起步
<div id="vue_det"> //使改动全部在指定的 div 内,div 外部不受影响 <h1>site : {{site}}</h1> ...
专注效率提升「GitHub 热点速览 v.22.36」
本周最大的 GitHub 事件无疑是国内多家自媒体报道过的,GitHub 官方或将下架 GitHub Trending 页面.作为 GitHub Trending 长期用户,本周也是找到了实用且提升效 ...
PHP生成唯一不重复的编号
当我们要将一个庞大的数据进行编号时,而编号有位数限制,比如5位的车牌号.10位的某证件号码.订单流水号.短网址等等,我们可以使用36进制计算出符合位数的不重复的编号. 下载:https://url72 ...
Typora 最后免费版本也不能用了？简单一招搞定
作者:小牛呼噜噜 | https://xiaoniuhululu.com 计算机内功.JAVA底层.面试相关资料等更多精彩文章在公众号「小牛呼噜噜」 Typora是一款优秀的 Markdown 编辑 ...

ETL工具Datax、sqoop、kettle 的区别

ETL工具Datax、sqoop、kettle 的区别的更多相关文章

随机推荐

热门专题