目前市面上的ETL工具众多,为了方便广大企业用户在选择ETL工具时有一个更直观性能方面的参考值,我们选取了目前市面上最流行的三款ETL工具(ETLCloud、DataX、Kettle)来作为本次性能传输的代表,虽然性能测试数据有很多相关文章都有评测但是基本上也是各说各话或在不同条件下的对比,缺少一个在公平环境和数据量下的直观对比和一个可性的评测结果, ETLCloud作为国内ETL工具的代表本次我们采用线上直播的方式向广大用户进行了现场的性能评测,评测可以说是在相当公平公正的情况下直播进行的,如果用户想亲自进行评测也可以按照本文后面的配置要求和版本下载后进行对比评测。

本次直播的内容最主要是测试在不同数据量100W-1000W下,MySQL、SQLServer、Postgre SQL之间进行数据传输时ETL的最快传输速度,每种工具均采用最快的5通道进行批量数据插入,所有ETL工具采用公开的社区或开源版本进行对比评测,不针对任何一款ETL工具进行单独的调优,因为很多用户在下载后也是直接使用很少会进行高级别参数的调优,所以在这种情况下更能代表这款ETL工具真实使用场景时的传输性能。

本次评测的结果ETLCloud相对于kettle快了24.16%的性能,相对于DataX快了27.8%的性能,同时在不同数据量下ETLCloud和Kettle表现更为稳定,而DataX在不同的数据量下波动范围更多,数据量越大时DataX的性能有逐步提升的趋势。

对于评测结果来说ETLCloud的性能之所以相对于其他ETL工具性要快最主要取决于ETLCloud研发团队不断对工具底层引擎和算法调优的结果,我们经过大量的项目PK和大数据量的考验对底层的数据读取和写入以及中间过程的序列化均进行了长时间的不断优化和测试,同时ETLCloud很好的在性能和功能方面取得了比较好的平衡策略,有些ETL工具虽然性能更快但是功能很弱只适用于某一种场景,而像Kettle虽然功能很强但在性能方面受制于项目的体积逐步降低了性能。ETLCloud在性能和功能方面都取得了非常好的成绩,这也是我们一直追求极致产品的结果。

以下是针对不同数据量下的传输性能评测的汇总数据:

直播评测实验中,参与测试的工具均安装于windows Server2019数据中心版操作系统的阿里云服务器,服务器配置8内核,32G内存以及100G数据盘,公网宽带5M,各个工具均配置相同的内存参数,有些ETL工具由于不支持Windows操作系统的安装没有纳入本次评测范围。

测试过程使用3款主流ETL工具测试2种不同的数据集成场景下,3种不同数据量传输的情况,包括数据库的查询、写入和存储。为了保证测试数据的真实性和公平性,所有测试流程都采用相同的配置和传输模式,同时为避免因目标数据库被重复清空和写入带来的性能影响,相同数据量下所有工具依次进行测试。

通过测评结果看出,ETLCloud在每个场景下测评速度居于首位,从平均值来看,ETLCloud平均比kettle快24.16%,比DataX快27.8%,可以说,ETLCloud是国内大数据量下传输速度最快的数据集成工具。

具体的测评实验过程,请点击下方链接观看:主流ETL工具(ETLCloud、DataX、Kettle)数据传输性能大PK

ETL数据集成丨主流ETL工具(ETLCloud、DataX、Kettle)数据传输性能大PK的更多相关文章

  1. DataPipeline CTO陈肃:从ETL到ELT,AI时代数据集成的问题与解决方案

    引言:2018年7月25日,DataPipeline CTO陈肃在第一期公开课上作了题为<从ETL到ELT,AI时代数据集成的问题与解决方案>的分享,本文根据陈肃分享内容整理而成. 大家好 ...

  2. CDC+ETL实现数据集成方案

    欢迎咨询,合作! weix:wonter 名词解释: CDC又称变更数据捕获(Change Data Capture),开启cdc的源表在插入INSERT.更新UPDATE和删除DELETE活动时会插 ...

  3. ETL的两种架构——ETL架构和ELT架构优劣势对比

    ​ 导读: 作为现代企业和组织机构的重要资源,信息是进行科学管理与决策分析的基础.ETL 则是把数据转换为信息.知识的关键步骤之一.在 AI 应用场景下,数据集成有哪些特点?随着 AI 应用场景越来越 ...

  4. 三大主流ETL工具选型

    ETL(extract, transform and load)产品乍看起来似乎并不起眼,单就此项技术本身而言,几乎也没什么特别深奥之处,但是在实际项目中,却常常在这个环节耗费太多的人力,而在后续的维 ...

  5. 【ODI】| 数据ETL:从零开始使用Oracle ODI完成数据集成(一)

    0. 环境说明及软件准备 ODI(Oracle Data Integrator)是Oracle公司提供的一种数据集成工具,能高效地实现批量数据的抽取.转换和加载.ODI可以实现当今大多数的主流关系型数 ...

  6. 三大主流ETL工具选型 分类: H2_ORACLE 2013-08-23 11:17 426人阅读 评论(0) 收藏

    ETL(extract, transform and load)产品乍看起来似乎并不起眼,单就此项技术本身而言,几乎也没什么特别深奥之处,但是在实际项目中,却常常在这个环节耗费太多的人力,而在后续的维 ...

  7. Kafka ETL 之后,我们将如何定义新一代实时数据集成解决方案?

    上一个十年,以 Hadoop 为代表的大数据技术发展如火如荼,各种数据平台.数据湖.数据中台等产品和解决方案层出不穷,这些方案最常用的场景包括统一汇聚企业数据,并对这些离线数据进行分析洞察,来达到辅助 ...

  8. 主流ETL(Extract-Transform-Load)工具选型,Kettle Spoon、Datastage、Powercenter介绍

    参考:三大主流ETL工具选型 ETL工具 Kettle Spoon 开源ETL工具,所以免费,用java开发的. Ascential公司的Datastage(在2005年被IBM收购现在是 IBM 的 ...

  9. 六种 主流ETL 工具的比较(DataPipeline,Kettle,Talend,Informatica,Datax ,Oracle Goldengate)

    六种 主流ETL 工具的比较(DataPipeline,Kettle,Talend,Informatica,Datax ,Oracle Goldengate) 比较维度\产品 DataPipeline ...

  10. 【ODI】| 数据ETL:从零开始使用Oracle ODI完成数据集成(三)

    资料库的创建.体系结构的创建.模型反向工程都已经完成了,下面就是创建以及执行接口来完成工作了. 浏览前两节请点击: [ODI]| 数据ETL:从零开始使用Oracle ODI完成数据集成(一) [OD ...

随机推荐

  1. php/symfony执行生成密钥命令时报错Undefined constant 'OPENSSL_KEYTYPE_RSA'解决办法

    php/symfony执行 lexik:jwt:generate-keypair --overwrite命令生成密钥时报错Undefined constant 'OPENSSL_KEYTYPE_RSA ...

  2. .NET CORE API接口的分组、版本管理

    参照: Asp.net Core的Swagger接口根据模块.版本分组 (bbsmax.com)

  3. 9.9K star!大模型原生即时通信机器人平台,这个开源项目让AI对话更智能!

    嗨,大家好,我是小华同学,关注我们获得"最新.最全.最优质"开源项目和高效工作学习方法 "高稳定.支持插件.多模态 - 大模型原生即时通信机器人平台" 项目亮点 ...

  4. 一些软件、jar包下载链接、方法

    目录 jar包下载 dbutils C3P0 软件下载 TeamViewer 远程桌面 EV录屏 SublimeText 编辑器 feiQ 通信 文件共享 jdk 8u171 下载 jar包下载 db ...

  5. 开源的DeekWiki加入MCP,为您的Cursor提供开源项目分析,轻松让AI掌握开源项目使用文档!

    OpenDeekWiki加入MCP,为您的Cursor提供开源项目分析,轻松让AI掌握开源项目使用文档! OpenDeepWiki 是参考DeepWiki 作为灵感,基于 .NET 9 和 Seman ...

  6. 决策单调性DP

    决策单调性DP是一个非常重要的DP类别.在决策点随枚举点增加单调不降时,可以有效地优化复杂度. 一般而言,决策点指的是对于一个 \(f[i]\),它的值需要从另一个值j中转移,而对于所有j,令 \(f ...

  7. jsonp跨站请求

    本地端 url: url(r'req/',a2.req), commons.js alert(123); views.py from django.shortcuts import renderimp ...

  8. Go Gob编码

    gob(Go binary)是Goland包自带的一个数据结构序列化的编码/解码工具.编码使用Encoder,解码使用Decoder.一种典型的应用场景就是RPC(remote procedure c ...

  9. 卷积神经网络(CNN)模型

    一.概述   卷积神经网络(Convolutional Neural Network, CNN)是一种深度学习模型,广泛应用于图像识别.计算机视觉等领域.其设计理念源于对生物视觉皮层神经机制的模拟,核 ...

  10. 计算机图形学——Games101深度解析_第一章

    写在前面 关于Games101深度解析参考了很多佬的文章,并且加上了自己的理解.主要感觉games101课程里面还有很多由于时间原因都没讲的很详细,略过了很多,所以我对于课程中困难的知识点进行了更多的 ...