Iceberg调研报告-腾讯数据集成工具报告
|
标题
|
测试报告
|
|---|---|
| 背景目标 |
大航海databus任务在合并阶段费资源,且大表执行时间较长,期望缩短同步时间可以10分钟抽10亿条数据。数据同步需要先建表,再建任务,配置不方便。 |
| 结论 | 在满足配置时可以达到期望速度,配置如下 |
| 所需环境信息 |
mysql=========CPU:16核 内存:32G IOPS:32000 数量2台 离线资源包=====CPU:8核 内存:16G 数量:16个 实时资源包=====CPU:16核 内存:32G 数量:16个 |
| 建议方案 |
离线同步: 方案1:直接走离线资源包,达到配置就可以满足10分钟抽10亿条。问题:离线资源包所属pod有瓶颈,128核才刚满足,需再快的话需要单独联系采用大核数服务器 实时同步: 方案1:全量抽取阶段走离线资源包,增量抽取走实时资源包。因为全量抽取可以满足快速抽数诉求,相对纯用实时资源,比较省资源。增量同步走实时资源包 方案2:纯走实时资源包,任务配置管理比较方便,可以分阶段配置资源,如全量抽取配置资源大一些,增量抽取使用小资源。缺点是实时任务每分钟要保留检查点,sink算子写入时也比较费资源,是离线资源的三倍。 |
| 概念 |
离线资源组:由固定cpu内存组成的资源组,是一台Pod虚拟隔离出来的资源。 Pod:隐藏概念,多个离线资源组组成一个Pod,Pod可以理解为一个虚拟物理机有资源上限,也是抽数速度上限,目前最大128核,如扩容需单独申请。 实时资源组:底层为腾讯oceanus,理论上可以无限扩,可以达到很高的同步能力 |
| 相关文档 |
mysql数据库性能介绍:https://cloud.tencent.com/document/product/236/19707 数据集成工具入口:腾讯云控制台,搜索数据集成 使用教程:腾讯数据集成工具使用 详细测试信息:腾讯数据集成工具性能测试 |
一、资源规格
1、mysql数据库
|
分组名称
|
名称
|
内存
|
CPU
|
IOPS
|
磁盘
|
版本
|
|---|---|---|---|---|---|---|
| 低配 | bdg-test | 8G | 4核 | 8000 | 200GB | MySQL5.7 |
| 中配 | test-wangshida | 16G | 8核 | 20000 | 1700GB | MySQL5.7 |
| 高配 | test-wangshida | 32G | 16核 | 32000 | 1700GB | MySQL5.7 |
2、测试数据表
|
数据库
|
测试表名
|
数据行数
|
列数
|
总存储量
|
数据存储量
|
索引存储量
|
存储引擎
|
|---|---|---|---|---|---|---|---|
| 低性能 | order_info | 162 8287 | 40 | 1.25 GB |
416 MB |
844MB | InnoDB |
| 低性能 | order_info1 |
2 6119 6181 |
40 |
77.28 GB |
58.03 GB |
16.12 GB |
InnoDB |
| 高性能 | order_info1 | 2 9359 9266 | 40 | InnoDB | |||
| 高性能 | ss_robot_task_test | 约11亿 | 25 | 1.19TB | 1.19TB | 0 | InnoDB |
3、数据集成资源包
离线资源包
|
分组名称
|
名称
|
内存
|
CPU
|
数量
|
|---|---|---|---|---|
| 低配 | 离线资源包 | 16G | 8核 | 1 |
| 中配 | 离线资源包 | 32G | 8核 | 2 |
| 高配 | 离线资源包 | 16G | 8核 | 8 |
实时资源包
|
分组名称
|
名称
|
内存
|
CPU
|
数量
|
|---|---|---|---|---|
| 低配 | 实时资源包 | 64G | 16核 | 1 |
| 中配 | 实时资源包 | 64G | 16核 | 2 |
二、离线同步
期望10分钟10亿条数据,以下为不同配置的最高速度
|
资源组 |
数据库 |
同步表 |
同步数据量 |
并发 |
同步花费时间 |
平均速度 |
平均速率 |
mysql资源 |
离线包资源 |
|---|---|---|---|---|---|---|---|---|---|
| 低配(1个) | 低配 | order_info | 162 8287 | 1 |
费时:61秒 |
6.26MB/s |
3.36万条/s |
CPU:5% |
CPU:26% 内存:24% |
| 低配(1个) | 低配 | order_info1 | 2 6119 6181 | 最优10 |
费时:43分钟 |
16.97MB/s |
10.36万条/s | CPU:11.46% |
CPU:95%以上 内存:95%以上 |
|
中配(2个) |
低配 | order_info1 | 2 6119 6181 | 最优20 | 费时:23.6分钟 |
30.94MB/s |
18.89万条/s |
CPU:21.91% |
CPU:95%以上 内存:40%以上,32G没用上 |
| 高配(8个) | 低配 | order_info1 | 2 6119 6181 | 最优10 |
费时:10分钟 |
73.95MB/s |
45.15万条/s |
CPU:86% IOPS:120% |
80%以上 |
| 高配(8个) | 高配 | order_info1 | 2 9359 9266 | 最优20 |
费时:6.73分钟 |
120.87MB/s |
73.39万条/s |
CPU:16% IOPS:37% |
80%以上 |
| 高配(8个) | 高配 | ss_robot_task_test | 约11亿 | 最优20 | 费时:19.58分钟 |
157.77MB/s |
96.24万条/s |
CPU:23.69% IOPS:120% |
80%以上 |
| 期望-高配(16个) | IOPS:64000 | 24个列的表 | 约10亿 | 20 | 期望10分钟 | 300MB/s | 200万条/s | - | - |
期望10分钟10亿,则需要以下配置:
|
类型 |
CPU |
内存 |
磁盘 |
数量 |
其它 |
月费用 |
|---|---|---|---|---|---|---|
| mysql | 32核 |
256GB |
最低1.7TB | 1 | 单节点IOPS:80000 | |
| mysql |
16核 |
32GB | 最低1.7TB | 2 | 单节点IOPS:32000 | |
| 数据集成-离线包 | 8核 | 16GB | - | 16 | 8*16=128核 |
调优方法:
1、根据资源包规格调整并发,单任务可以跨资源包,但不可以跨pod。单pod目前最大128核,目前最大抽数瓶颈是10分钟10亿条数据
注:
1、单任务只能在一个pod上跑,单pod有资源瓶颈,如单pod最大只能128核,再大需要走特殊申请
2、单pod最大能满足10分钟10亿条期望,如期望再高,则需要单独申请高核数和内存的服务器
3、并发根据资源包设置,低配10并发合适,高配20并发合适
三、实时同步
期望10分钟10亿条数据,以下为不同配置的最高速度
|
资源组 |
数据库 |
同步表 |
同步数据量 |
TaskManager规格 |
同步花费时间 |
速度 |
速率 |
mysql cpu使用 |
实时包使用率 |
|---|---|---|---|---|---|---|---|---|---|
| 低配(1个) | 低配 | order_info1 | 2 6119 6181 | 0.5CU*26 |
约40分钟 |
高40MB/s 低37MB/s |
高峰12.69万条/s 低峰11.24万条/s |
19% | 93.75% |
| 中配(2个) | 低配 | order_info1 | 2 6119 6181 | 1CU*30 |
约20分钟 |
高100MB/s 低95.96MB/s |
高峰26.71万条/s 低峰25.37万条/s |
45% |
100% |
| 中配(2个) | 低配 | order_info1 | 2 6119 6181 | 0.5CU*60 | 约20分钟 |
高96.63MB/s 低89.55MB/s |
高峰25.5万条/s 低峰23.70万条/s |
42% | 100% |
| 中配(2个) | 高配 | order_info1 | 2 9359 9266 | 1CU*30 | |||||
| 期望高配(16个) | IOPS:64000 | 订单表 | 约10亿 | 20 | 期望10分钟 | 300MB/s | 200万条/s | - | - |
期望10分钟10亿,调大实时资源包大小即可,没有扩容瓶颈,预估资源如下
|
类型 |
CPU |
内存 |
磁盘 |
数量 |
其它 |
月费用 |
|---|---|---|---|---|---|---|
| mysql | 32核 |
256GB |
最低1.7TB | 1 | 单节点IOPS:80000 | |
| mysql |
16核 |
32GB | 最低1.7TB | 2 | 单节点IOPS:32000 | |
| 数据集成-实时 | 16核 | 64GB | - | 16 | 16*16=256核 |
Iceberg调研报告-腾讯数据集成工具报告的更多相关文章
- 数据集成工具Kettle、Sqoop、DataX的比较
数据集成工具很多,下面是几个使用比较多的开源工具. 1.阿里开源软件:DataX DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL.Oracle等).H ...
- 数据集成工具Teiid Designer的环境搭建
由于实验室项目要求的关系,看了些数据汇聚工具 Teiid 的相关知识.这里总结下 Teiid 的可视化配置工具 Teiid Designer 的部署过程. 背景知识 数据集成是把不同来源.格式.特点性 ...
- 数据集成工具:Teiid实践
数据集成是把不同来源.格式.特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享.数据集成的方式多种多样,这里介绍的 Teiid 是其中的一种:通过抽象和联邦技术,实现分布式数据源的 ...
- 数据集成工具—Sqoop
数据集成/采集/同步工具 @ 目录 数据集成/采集/同步工具 Sqoop简介 Sqoop安装 1.上传并解压 2.修改文件夹名字 3.修改配置文件 4.修改环境变量 5.添加MySQL连接驱动 6.测 ...
- 数据集成工具—FlinkX
@ 目录 FlinkX的安装与简单使用 FlinkX的安装 FlinkX的简单使用 读取mysql中student表中数据 FlinkX本地运行 MySQLToHDFS MySQLToHive MyS ...
- 【ODI】| 数据ETL:从零开始使用Oracle ODI完成数据集成(一)
0. 环境说明及软件准备 ODI(Oracle Data Integrator)是Oracle公司提供的一种数据集成工具,能高效地实现批量数据的抽取.转换和加载.ODI可以实现当今大多数的主流关系型数 ...
- 【转载】soapui基于持续集成工具自动化运行的调研姿势
soapui中的testrunner.bat调研姿势,用于自动化测试副标题:soapui基于持续集成工具自动化运行的调研姿势 各位亲爱的同仁们,大家好吗?最近项目在搞持续集成工具,我们的测试用例都是基 ...
- 数据库设计_ERMaster安装使用_PowerDesigner数据设计工具
数据库设计 1. 说在前面 项目开发的流程包括哪些环节 需求调研[需求调研报告]-- 公司决策层 (1) 根据市场公司需求分析公司是否需要开发软件来辅助日常工作 (2) 公司高层市场考察,市场分析,决 ...
- [Hadoop 周边] Hadoop和大数据:60款顶级大数据开源工具(2015-10-27)【转】
说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱.弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,“100%的大公司”会采用Hado ...
- 用持续集成工具Travis进行构建和部署
用持续集成工具Travis进行构建和部署 用持续集成工具Travis进行构建和部署 摘要:本文简单说明了如何使用持续集成工具Travis进行构建和部署的过程. 1. 概述 持续集成(Continuou ...
随机推荐
- 你想有多pwn
第一章 1.1 认识程序 file.ldd 1.2 gdb调试 一.指令 1.start.run 2.断点 设置断点 b mian.b *0x123456 查看断点 info b.i b 让断点失效 ...
- 探索 TypeScript 编程的利器:ts-morph 入门与实践
我们是袋鼠云数栈 UED 团队,致力于打造优秀的一站式数据中台产品.我们始终保持工匠精神,探索前端道路,为社区积累并传播经验价值. 本文作者:贝儿 背景 在开发 web IDE 中生成代码大纲的功能时 ...
- 使用Tesseract进行图片文字识别
Tesseract介绍 Tesseract 是一个开源的光学字符识别(OCR)引擎,最初由 HP 在 1985 年至 1995 年间开发,后来被 Google 收购并开源.Tesseract 支持多种 ...
- 树莓派4B 微雪7寸触摸屏 双屏 触摸屏校正
树莓派4B+微雪7寸触摸屏+PC显示器,以触摸屏位主显示,PC显示器扩展,这时会有触摸不准的情况. 通过观察可以发现触摸被放大到了整个屏幕,即触摸屏+PC显示器. 1. 通过查看2个屏幕分辨率和位置, ...
- C++顺序结构(2)学习任务
在坚果云中注册免费个人云盘 一.视频下载存放在规划好的文件夹中,并观看学习 1.变量存储.注释 2.四则运算.输入 3.认识设置DEV-C++ 4.第一个C++程序 5.头文件 6.命名空间 7.co ...
- Flutter (2.5) - A splash screen was provided to Flutter, but this is deprecated
Flutter (2.5) - A splash screen was provided to Flutter, but this is deprecated 升级到Flutter 2.5 版本后,启 ...
- Springboot 指定外部配置文件启动
<resources> <resource> <directory>src/main/resources</directory> <filteri ...
- MySQL数据库建库时SQL语句中数据库名、表名用引号的问题以及COLLATE utf8_general_ci的含义
一.MySQL数据库建库时SQL语句中数据库名.表名用引号的问题解释:在创建MySQL数据库和表时,数据库名.表名和字段名外面的符号 ` 不是单引号,而是英文输入法的反单引号,同键盘~同一位置.为了避 ...
- Web网页端IM产品RainbowChat-Web的v7.0版已发布
一.关于RainbowChat-Web RainbowChat-Web是一套Web网页端IM系统,是RainbowChat的姊妹系统(RainbowChat是一套基于开源IM聊天框架 MobileIM ...
- IM通讯协议专题学习(四):从Base64到Protobuf,详解Protobuf的数据编码原理
本文由腾讯PCG后台开发工程师的SG4YK分享,进行了修订和和少量改动. 1.引言 近日学习了 Protobuf 的编码实现技术原理,借此机会,正好总结一下并整理成文. 接上篇<由浅入深,从根上 ...