一、Sqoop主要特点:

1.可以将关系型数据库中的数据导入到hdfs,hive,hbase等hadoop组件中,也可以将hadoop组件中的数据导入到关系型数据库中;

2.sqoop在导入导出数据时,充分采用了map-reduce计算框架(默认map数为4),根据输入条件生成一个map-reduce作业(只有map,没有reduce),在hadoop集群中运行。采用map-reduce框架同时在多个节点进行import或者export操作,熟读比单节点运行多个并行效率高,同时提供了良好的并发性和容错性;

3.支持insert,update模式,可以选择参数,若内容存在就更新,若不存在就插入;

4.对国外主流关系型数据库支持性更好。

二、Datax 主要特点:
1、异构数据库和文件系统之间的数据交换;
2、采用 Framework + plugin 架构构建,Framework 处理了缓冲,流控,并发,上下文加载等高速数据交换的大部分技术问题,提供了简单的接口与插件交互,插件仅需实现对数据处理系统的访问;
3、数据传输过程在单进程(单进程多线程)内完成,全内存操作,不读写磁盘,也没有 IPC(进程之间的通信);
4、开放式的框架,开发者可以在极短的时间开发一个新插件以快速支持新的数据库/文件系统。
 
三、Kettle 主要特点:
1、kettle (数据抽取、清洗、转换、装载)是由 java 编写,可以在 Window、Linux、Unix 上运行。支持多数据源, 多种中间件的专业 ETL 工具。
2、支持图形化 GUI 设计界面,组件多样性,支持 http 请求,上手简单支持拖拽,支持 sql , 可以编写js ,可以编写一些 java 代码,然后以工作流的形式流转。如果没有冲突可以并行执行,并行开发。在工具内可以查看 读 写 修改 输出 更新 拒绝 错误 等 一些参数,快速定位和纠错。
 
四、Sqoop 和 Datax 的区别:
1、sqoop 采用 map-reduce 计算框架进行导入导出,而 datax 仅仅在运行 datax 的单台机器上进行数据的
抽取和加载,速度比 sqoop 慢了许多;
2、sqoop 只可以在关系型数据库和 hadoop 组件之间进行数据迁移,而在 hadoop 相关组件之间,比如
hive 和 hbase 之间就无法使用 sqoop 互相导入导出数据,同时在关系型数据库之间,比如 mysql 和
oracle 之间也无法通过 sqoop 导入导出数据。与之相反,datax 能够分别实现关系型数据库 hadoop 组件
之间、关系型数据库之间、hadoop 组件之间的数据迁移;
3、sqoop 是专门为 hadoop 而生,对 hadoop 支持度好,而 datax 可能会出现不支持高版本 hadoop 的现象;
4、sqoop 只支持官方提供的指定几种关系型数据库和 hadoop 组件之间的数据交换,而在 datax 中,用户
只需根据自身需求修改文件,生成相应 rpm 包,自行安装之后就可以使用自己定制的插件;
 
五、Kettle 与 DataX 的区别:
1、Kettle 拥有自己的管理控制台,可以直接在客户端进行 etl 任务制定,不过是 CS 架构(服务器-客户机),而不支持 BS(浏览器-服务器)架构。DataX 并没有界面,界面完全需要自己开发,增加了很大工作量。
2、Kettle 可以与我们自己的工程进行集成,通过 JAVA 代码集成即可,可以在 java 中调用 kettle 的转换、执行、结束等动作,这个还是有意义的,而 DataX 是不支持的,DataX 是以执行脚本的方式运行任务的,当然完全吃透源码的情况下,应该也是可以调用的。
3、支持的数据库,都支持的比较齐全,kettle 支持的应该更多,DataX 是阿里开发,可以更好地支持阿里自身的数据库系列,如 ODPS、ADS 等
4、Kettle 已经加入 BI 组织 Pentaho,加入后 kettle 的开发粒度和被关注度更进一步提升
5、DataX 开源的支持粒度不高,关注度远没有 kettle 高,代码提交次数更是少的很。
 
六、Kettle 与 Sqoop 的区别
1、Kettle 中有两种脚本文件,transformation 和 job,transformation 完成针对数据的基础转换,job则完成整个工作流的控制;Sqoop 主要用于在 Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递
2、kettle 有图形化的操作界面,只需要描述你想做什么,而不是你想怎么做;sqoop 没有图形化界面,具体的数据流向需要手工配置。
3、kettle 底层使用多线程以提高效率;Sqoop 专为大数据批量传输设计,能够分割数据集并创建 Hadoop任务来处理每个区块。
4、kettle 可以利用 transformation 在数据传输过程中对数据的一些转换处理;Sqoop 只是一个用来将Hadoop 和关系型数据库中的数据相互转移的工具
5、kettle 数据的具体流向可以指定,可以是各种数据的存储工具;sqoop 只是完成 hdfs 到关系型数据库或者 关系型数据库到 hdfs 的数据传输,在传输的过程中保证传输数据的类型
 
 
 
 
 
 
 
 
 
 
 
 
 
 

ETL工具Datax、sqoop、kettle 的区别的更多相关文章

  1. 【转】阿里出品的ETL工具dataX初体验

    原文链接:https://www.imooc.com/article/15640 来源:慕课网 我的毕设选择了大数据方向的题目.大数据的第一步就是要拿到足够的数据源.现实情况中我们需要的数据源分布在不 ...

  2. 【dataX】阿里开源ETL工具——dataX简单上手

    一.概述 1.是什么? DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL.Oracle.SqlServer.Postgre.HDFS.Hive.ADS.HBase. ...

  3. 阿里ETL工具datax学习(一)

    阿里云开源离线同步工具DataX3.0介绍 一. DataX3.0概览 ​ DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL.Oracle等).HDFS.Hive.Ma ...

  4. 开源作业调度工具实现开源的Datax、Sqoop、Kettle等ETL工具的作业批量自动化调度

    1.阿里开源软件:DataX DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL.Oracle等).HDFS.Hive.ODPS.HBase.FTP等各种异构数据源之间稳 ...

  5. 大数据之ETL工具Kettle的--1功能介绍

    Kettle是一款国外开源的ETL工具,纯java编写,可以在Window.Linux.Unix上运行. 说白了就是,很有必要去理解一般ETL工具必备的特性和功能,这样才更好的掌握Kettle的使用. ...

  6. ETL工具的功能和kettle如何来提供这些功能

    不多说,直接上干货! 大家会有一个疑惑,本系列博客是Kettle,那怎么扯上ETL呢? Kettle是一款国外开源的ETL工具,纯java编写,可以在Window.Linux.Unix上运行. 说白了 ...

  7. ETL工具对比

    ETL工具对比 Informatica Kettle 起源 1993年创立于 (美国加利福尼亚州)并于1999年4月在纳斯达克上市 2006年加入了开源BI组织  自2017年9月起,已被(日立集团下 ...

  8. 六种 主流ETL 工具的比较(DataPipeline,Kettle,Talend,Informatica,Datax ,Oracle Goldengate)

    六种 主流ETL 工具的比较(DataPipeline,Kettle,Talend,Informatica,Datax ,Oracle Goldengate) 比较维度\产品 DataPipeline ...

  9. etl工具,kettle实现了周期

    Kettle这是国外的来源ETL工具,纯java写.能Window.Linux.Unix在执行.绿色无需安装,稳定高效的数据提取. 业务模型: 在关系型数据库中有张非常大的数据存储表,被设计成奇偶库存 ...

随机推荐

  1. GTID主从和lamp架构运行原理

    目录 GTID主从 GTID概念介绍 GTID工作原理 GTID主从配置 lamp lamp简介 web服务器工作流程 cgi与fastcgi http协议 是什么? lamp架构运行的原理 Apac ...

  2. MySQL内存管理机制浅析

    GreatSQL社区原创内容未经授权不得随意使用,转载请联系小编并注明来源. GreatSQL是MySQL的国产分支版本,使用上与MySQL一致. 目录 一.placement new的定义 二.pl ...

  3. WebView2 通过 PuppeteerSharp 实现爬取 王者 壁纸 (案例版)

    此案例是<.Net WebView2 项目,实现 嵌入 WEB 页面 Chromium内核>文的续集. 主要是针对WebView2的一些微软自己封装的不熟悉的API,有一些人已经对 Pup ...

  4. 浅谈MySQL的sql_mode

    SQL mode 今天我们来分享一下MySQL的SQL mode , 这也是我们比较容易忽略的一点,我们在一开始安装数据库的时候其实就要先考虑要保留哪些SQL mode,去除哪些,合理的配置能够减少很 ...

  5. .NET异步编程模式(一)

    .NET 提供了三种异步编程模型 TAP - task-based asynchronous pattern APM - asynchronous programming model EAP - ev ...

  6. Jetpack架构组件学习(4)——APP Startup库的使用

    最近在研究APP的启动优化,也是发现了Jetpack中的App Startup库,可以进行SDK的初始化操作,于是便是学习了,特此记录 原文:Jetpack架构组件学习(4)--App Startup ...

  7. 第五篇:vue.js起步

    <div id="vue_det"> //使改动全部在指定的 div 内,div 外部不受影响 <h1>site : {{site}}</h1> ...

  8. 专注效率提升「GitHub 热点速览 v.22.36」

    本周最大的 GitHub 事件无疑是国内多家自媒体报道过的,GitHub 官方或将下架 GitHub Trending 页面.作为 GitHub Trending 长期用户,本周也是找到了实用且提升效 ...

  9. PHP生成唯一不重复的编号

    当我们要将一个庞大的数据进行编号时,而编号有位数限制,比如5位的车牌号.10位的某证件号码.订单流水号.短网址等等,我们可以使用36进制计算出符合位数的不重复的编号. 下载:https://url72 ...

  10. Typora 最后免费版本也不能用了?简单一招搞定

    作者:小牛呼噜噜 | https://xiaoniuhululu.com 计算机内功.JAVA底层.面试相关资料等更多精彩文章在公众号「小牛呼噜噜 」 Typora是一款优秀的 Markdown 编辑 ...