目前市面上的ETL工具众多,为了方便广大企业用户在选择ETL工具时有一个更直观性能方面的参考值,我们选取了目前市面上最流行的三款ETL工具(ETLCloud、DataX、Kettle)来作为本次性能传输的代表,虽然性能测试数据有很多相关文章都有评测但是基本上也是各说各话或在不同条件下的对比,缺少一个在公平环境和数据量下的直观对比和一个可性的评测结果, ETLCloud作为国内ETL工具的代表本次我们采用线上直播的方式向广大用户进行了现场的性能评测,评测可以说是在相当公平公正的情况下直播进行的,如果用户想亲自进行评测也可以按照本文后面的配置要求和版本下载后进行对比评测。

本次直播的内容最主要是测试在不同数据量100W-1000W下,MySQL、SQLServer、Postgre SQL之间进行数据传输时ETL的最快传输速度,每种工具均采用最快的5通道进行批量数据插入,所有ETL工具采用公开的社区或开源版本进行对比评测,不针对任何一款ETL工具进行单独的调优,因为很多用户在下载后也是直接使用很少会进行高级别参数的调优,所以在这种情况下更能代表这款ETL工具真实使用场景时的传输性能。

本次评测的结果ETLCloud相对于kettle快了24.16%的性能,相对于DataX快了27.8%的性能,同时在不同数据量下ETLCloud和Kettle表现更为稳定,而DataX在不同的数据量下波动范围更多,数据量越大时DataX的性能有逐步提升的趋势。

对于评测结果来说ETLCloud的性能之所以相对于其他ETL工具性要快最主要取决于ETLCloud研发团队不断对工具底层引擎和算法调优的结果,我们经过大量的项目PK和大数据量的考验对底层的数据读取和写入以及中间过程的序列化均进行了长时间的不断优化和测试,同时ETLCloud很好的在性能和功能方面取得了比较好的平衡策略,有些ETL工具虽然性能更快但是功能很弱只适用于某一种场景,而像Kettle虽然功能很强但在性能方面受制于项目的体积逐步降低了性能。ETLCloud在性能和功能方面都取得了非常好的成绩,这也是我们一直追求极致产品的结果。

以下是针对不同数据量下的传输性能评测的汇总数据:

直播评测实验中,参与测试的工具均安装于windows Server2019数据中心版操作系统的阿里云服务器,服务器配置8内核,32G内存以及100G数据盘,公网宽带5M,各个工具均配置相同的内存参数,有些ETL工具由于不支持Windows操作系统的安装没有纳入本次评测范围。

测试过程使用3款主流ETL工具测试2种不同的数据集成场景下,3种不同数据量传输的情况,包括数据库的查询、写入和存储。为了保证测试数据的真实性和公平性,所有测试流程都采用相同的配置和传输模式,同时为避免因目标数据库被重复清空和写入带来的性能影响,相同数据量下所有工具依次进行测试。

通过测评结果看出,ETLCloud在每个场景下测评速度居于首位,从平均值来看,ETLCloud平均比kettle快24.16%,比DataX快27.8%,可以说,ETLCloud是国内大数据量下传输速度最快的数据集成工具。

具体的测评实验过程,请点击下方链接观看:主流ETL工具(ETLCloud、DataX、Kettle)数据传输性能大PK

ETL数据集成丨主流ETL工具(ETLCloud、DataX、Kettle)数据传输性能大PK的更多相关文章

  1. DataPipeline CTO陈肃:从ETL到ELT,AI时代数据集成的问题与解决方案

    引言:2018年7月25日,DataPipeline CTO陈肃在第一期公开课上作了题为<从ETL到ELT,AI时代数据集成的问题与解决方案>的分享,本文根据陈肃分享内容整理而成. 大家好 ...

  2. CDC+ETL实现数据集成方案

    欢迎咨询,合作! weix:wonter 名词解释: CDC又称变更数据捕获(Change Data Capture),开启cdc的源表在插入INSERT.更新UPDATE和删除DELETE活动时会插 ...

  3. ETL的两种架构——ETL架构和ELT架构优劣势对比

    ​ 导读: 作为现代企业和组织机构的重要资源,信息是进行科学管理与决策分析的基础.ETL 则是把数据转换为信息.知识的关键步骤之一.在 AI 应用场景下,数据集成有哪些特点?随着 AI 应用场景越来越 ...

  4. 三大主流ETL工具选型

    ETL(extract, transform and load)产品乍看起来似乎并不起眼,单就此项技术本身而言,几乎也没什么特别深奥之处,但是在实际项目中,却常常在这个环节耗费太多的人力,而在后续的维 ...

  5. 【ODI】| 数据ETL:从零开始使用Oracle ODI完成数据集成(一)

    0. 环境说明及软件准备 ODI(Oracle Data Integrator)是Oracle公司提供的一种数据集成工具,能高效地实现批量数据的抽取.转换和加载.ODI可以实现当今大多数的主流关系型数 ...

  6. 三大主流ETL工具选型 分类: H2_ORACLE 2013-08-23 11:17 426人阅读 评论(0) 收藏

    ETL(extract, transform and load)产品乍看起来似乎并不起眼,单就此项技术本身而言,几乎也没什么特别深奥之处,但是在实际项目中,却常常在这个环节耗费太多的人力,而在后续的维 ...

  7. Kafka ETL 之后,我们将如何定义新一代实时数据集成解决方案?

    上一个十年,以 Hadoop 为代表的大数据技术发展如火如荼,各种数据平台.数据湖.数据中台等产品和解决方案层出不穷,这些方案最常用的场景包括统一汇聚企业数据,并对这些离线数据进行分析洞察,来达到辅助 ...

  8. 主流ETL(Extract-Transform-Load)工具选型,Kettle Spoon、Datastage、Powercenter介绍

    参考:三大主流ETL工具选型 ETL工具 Kettle Spoon 开源ETL工具,所以免费,用java开发的. Ascential公司的Datastage(在2005年被IBM收购现在是 IBM 的 ...

  9. 六种 主流ETL 工具的比较(DataPipeline,Kettle,Talend,Informatica,Datax ,Oracle Goldengate)

    六种 主流ETL 工具的比较(DataPipeline,Kettle,Talend,Informatica,Datax ,Oracle Goldengate) 比较维度\产品 DataPipeline ...

  10. 【ODI】| 数据ETL:从零开始使用Oracle ODI完成数据集成(三)

    资料库的创建.体系结构的创建.模型反向工程都已经完成了,下面就是创建以及执行接口来完成工作了. 浏览前两节请点击: [ODI]| 数据ETL:从零开始使用Oracle ODI完成数据集成(一) [OD ...

随机推荐

  1. 20241106,LeetCode 每日一题,用 Go 实现整数回文数判断

    题目 给你一个整数 x ,如果 x 是一个回文整数,返回 true :否则,返回 false . 回文数是指正序(从左向右)和倒序(从右向左)读都是一样的整数.* 例如,121 是回文,而 123 不 ...

  2. 适用于LixtBox的,开启UI虚拟化时,某些时候需要定位到还没加载的项,比如自动选中某项,视图自动移过去等等

    1 /// <summary> 2 /// 将指定父级的下级索引元素,显示在视野下,使其可见 3 /// </summary> 4 /// <param name=&qu ...

  3. LR_GD_MSE (公式补充)

    上篇是先撸了一把梯度下降的代码, 用来优先 LR 中的 MSE. 核心代码是在求解梯度这一步. # y = wx + b def step_gradient(b_current, w_current, ...

  4. 【实战】Rust与前端协同开发:基于Tauri的跨平台AI阅读器实践

    一.背景与目标:为什么做一个"非典型"的RSS阅读器? 在信息爆炸的时代,RSS依然是高效获取结构化内容的重要方式,但市面上主流阅读器要么功能冗余(如集成社交属性),要么技术栈陈旧 ...

  5. YashanDB V23.4 LTS全库闪回新特性解读

    柏杨 YashanDB存储研发技术专家 本文主要对YashanDB V23.4 LTS新版本的全库闪回新特性进行原理探讨与技术解析. 证券交易系统突发数据异常,三甲医院电子病历系统遭遇误操作...在这 ...

  6. 转-Spring Data JPA中对象属性自动更新数据库

    摘要:使用Spring Data JPA获取的对象,其属性变更后自动更新数据库问题排查与解决方案. §问题描述   使用继承了JpaRepository的Dao从数据库中获取到某个对象,然后操作这个对 ...

  7. 股票技术面分析方法-K线图

    看涨吞没形态 看跌吞没形态 启明星形态       图形信号:看涨信号.第三根K线实体越长,看涨信号越强. 关键要素: 第二根K线是纺锤线或十字星 第三根K线向上能覆盖第一根K线的大半部分实体 黄昏星 ...

  8. 「Note」字符串方向 - 自动机相关

    1. AC 自动机 ACAM 1.1. 简介 AC 自动机用于解决多模式串匹配问题,例如求多个模式串在文本串中的出现次数.显著地,它的应用实际上非常广泛. 借助 KMP 的思想,我们对 Trie 树上 ...

  9. 关于cc3复现以及绕过思路

    关于cc3复现以及绕过思路 (文章简略许多,可以的话,可以看看之前之前发布的文章) 绕过思路:动态加载字节码绕过Runtime,exec被过滤 在前面两个篇章中我们学习了cc1,cc6和动态加载字节码 ...

  10. Ingress学习笔记

    Ingress 我们已经知道,Service对集群之外暴露服务的主要方式有两种:NodePort和LoadBalancer,但是这两种方式,都有一定的缺点: NodePort方式的缺点是会占用很多集群 ...