Iceberg调研报告-腾讯数据集成工具报告

标题	测试报告
背景目标	大航海databus任务在合并阶段费资源，且大表执行时间较长，期望缩短同步时间可以10分钟抽10亿条数据。数据同步需要先建表，再建任务，配置不方便。
结论	在满足配置时可以达到期望速度，配置如下
所需环境信息	mysql=========CPU:16核内存:32G IOPS:32000 数量2台离线资源包=====CPU:8核内存:16G 数量:16个实时资源包=====CPU:16核内存:32G 数量:16个
建议方案	离线同步：方案1：直接走离线资源包，达到配置就可以满足10分钟抽10亿条。问题：离线资源包所属pod有瓶颈，128核才刚满足，需再快的话需要单独联系采用大核数服务器实时同步：方案1：全量抽取阶段走离线资源包，增量抽取走实时资源包。因为全量抽取可以满足快速抽数诉求，相对纯用实时资源，比较省资源。增量同步走实时资源包方案2：纯走实时资源包，任务配置管理比较方便，可以分阶段配置资源，如全量抽取配置资源大一些，增量抽取使用小资源。缺点是实时任务每分钟要保留检查点，sink算子写入时也比较费资源，是离线资源的三倍。
概念	离线资源组：由固定cpu内存组成的资源组，是一台Pod虚拟隔离出来的资源。 Pod：隐藏概念，多个离线资源组组成一个Pod，Pod可以理解为一个虚拟物理机有资源上限，也是抽数速度上限，目前最大128核，如扩容需单独申请。实时资源组：底层为腾讯oceanus，理论上可以无限扩，可以达到很高的同步能力
相关文档	mysql数据库性能介绍：https://cloud.tencent.com/document/product/236/19707 数据集成工具入口：腾讯云控制台，搜索数据集成使用教程：腾讯数据集成工具使用详细测试信息：腾讯数据集成工具性能测试

一、资源规格

1、mysql数据库

分组名称	名称	内存	CPU	IOPS	磁盘	版本
低配	bdg-test	8G	4核	8000	200GB	MySQL5.7
中配	test-wangshida	16G	8核	20000	1700GB	MySQL5.7
高配	test-wangshida	32G	16核	32000	1700GB	MySQL5.7

2、测试数据表

数据库	测试表名	数据行数	列数	总存储量	数据存储量	索引存储量	存储引擎
低性能	order_info	162 8287	40	1.25 GB	416 MB	844MB	InnoDB
低性能	order_info1	2 6119 6181	40	77.28 GB	58.03 GB	16.12 GB	InnoDB
高性能	order_info1	2 9359 9266	40				InnoDB
高性能	ss_robot_task_test	约11亿	25	1.19TB	1.19TB	0	InnoDB

3、数据集成资源包

离线资源包

分组名称	名称	内存	CPU	数量
低配	离线资源包	16G	8核	1
中配	离线资源包	32G	8核	2
高配	离线资源包	16G	8核	8

实时资源包

分组名称	名称	内存	CPU	数量
低配	实时资源包	64G	16核	1
中配	实时资源包	64G	16核	2

二、离线同步

期望10分钟10亿条数据，以下为不同配置的最高速度

资源组	数据库	同步表	同步数据量	并发	同步花费时间	平均速度	平均速率	mysql资源	离线包资源
低配（1个）	低配	order_info	162 8287	1	费时：61秒	6.26MB/s	3.36万条/s	CPU:5%	CPU:26% 内存:24%
低配（1个）	低配	order_info1	2 6119 6181	最优10	费时：43分钟	16.97MB/s	10.36万条/s	CPU:11.46%	CPU:95%以上内存:95%以上
中配（2个）	低配	order_info1	2 6119 6181	最优20	费时：23.6分钟	30.94MB/s	18.89万条/s	CPU:21.91%	CPU:95%以上内存:40%以上，32G没用上
高配（8个）	低配	order_info1	2 6119 6181	最优10	费时：10分钟	73.95MB/s	45.15万条/s	CPU:86% IOPS:120%	80%以上
高配（8个）	高配	order_info1	2 9359 9266	最优20	费时：6.73分钟	120.87MB/s	73.39万条/s	CPU:16% IOPS:37%	80%以上
高配（8个）	高配	ss_robot_task_test	约11亿	最优20	费时:19.58分钟	157.77MB/s	96.24万条/s	CPU:23.69% IOPS:120%	80%以上
期望-高配（16个）	IOPS:64000	24个列的表	约10亿	20	期望10分钟	300MB/s	200万条/s	-	-

期望10分钟10亿，则需要以下配置：

类型	CPU	内存	磁盘	数量	其它
mysql	32核	256GB	最低1.7TB	1	单节点IOPS:80000
mysql	16核	32GB	最低1.7TB	2	单节点IOPS:32000
数据集成-离线包	8核	16GB	-	16	8*16=128核

调优方法：

1、根据资源包规格调整并发，单任务可以跨资源包，但不可以跨pod。单pod目前最大128核，目前最大抽数瓶颈是10分钟10亿条数据

注：

1、单任务只能在一个pod上跑，单pod有资源瓶颈，如单pod最大只能128核，再大需要走特殊申请

2、单pod最大能满足10分钟10亿条期望，如期望再高，则需要单独申请高核数和内存的服务器

3、并发根据资源包设置，低配10并发合适，高配20并发合适

三、实时同步

期望10分钟10亿条数据，以下为不同配置的最高速度

资源组	数据库	同步表	同步数据量	TaskManager规格	同步花费时间	速度	速率	mysql cpu使用	实时包使用率
低配（1个）	低配	order_info1	2 6119 6181	0.5CU*26	约40分钟	高40MB/s 低37MB/s	高峰12.69万条/s 低峰11.24万条/s	19%	93.75%
中配（2个）	低配	order_info1	2 6119 6181	1CU*30	约20分钟	高100MB/s 低95.96MB/s	高峰26.71万条/s 低峰25.37万条/s	45%	100%
中配（2个）	低配	order_info1	2 6119 6181	0.5CU*60	约20分钟	高96.63MB/s 低89.55MB/s	高峰25.5万条/s 低峰23.70万条/s	42%	100%
中配（2个）	高配	order_info1	2 9359 9266	1CU*30
期望高配（16个）	IOPS:64000	订单表	约10亿	20	期望10分钟	300MB/s	200万条/s	-	-

期望10分钟10亿，调大实时资源包大小即可，没有扩容瓶颈，预估资源如下

类型	CPU	内存	磁盘	数量	其它
mysql	32核	256GB	最低1.7TB	1	单节点IOPS:80000
mysql	16核	32GB	最低1.7TB	2	单节点IOPS:32000
数据集成-实时	16核	64GB	-	16	16*16=256核

Iceberg调研报告-腾讯数据集成工具报告的更多相关文章

数据集成工具Kettle、Sqoop、DataX的比较
数据集成工具很多,下面是几个使用比较多的开源工具. 1.阿里开源软件:DataX DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL.Oracle等).H ...
数据集成工具Teiid Designer的环境搭建
由于实验室项目要求的关系,看了些数据汇聚工具 Teiid 的相关知识.这里总结下 Teiid 的可视化配置工具 Teiid Designer 的部署过程. 背景知识数据集成是把不同来源.格式.特点性 ...
数据集成工具：Teiid实践
数据集成是把不同来源.格式.特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享.数据集成的方式多种多样,这里介绍的 Teiid 是其中的一种:通过抽象和联邦技术,实现分布式数据源的 ...
数据集成工具—Sqoop
数据集成/采集/同步工具 @ 目录数据集成/采集/同步工具 Sqoop简介 Sqoop安装 1.上传并解压 2.修改文件夹名字 3.修改配置文件 4.修改环境变量 5.添加MySQL连接驱动 6.测 ...
数据集成工具—FlinkX
@ 目录 FlinkX的安装与简单使用 FlinkX的安装 FlinkX的简单使用读取mysql中student表中数据 FlinkX本地运行 MySQLToHDFS MySQLToHive MyS ...
【ODI】| 数据ETL：从零开始使用Oracle ODI完成数据集成（一）
0. 环境说明及软件准备 ODI(Oracle Data Integrator)是Oracle公司提供的一种数据集成工具,能高效地实现批量数据的抽取.转换和加载.ODI可以实现当今大多数的主流关系型数 ...
【转载】soapui基于持续集成工具自动化运行的调研姿势
soapui中的testrunner.bat调研姿势,用于自动化测试副标题:soapui基于持续集成工具自动化运行的调研姿势各位亲爱的同仁们,大家好吗?最近项目在搞持续集成工具,我们的测试用例都是基 ...
数据库设计_ERMaster安装使用_PowerDesigner数据设计工具
数据库设计 1. 说在前面项目开发的流程包括哪些环节需求调研[需求调研报告]-- 公司决策层 (1) 根据市场公司需求分析公司是否需要开发软件来辅助日常工作 (2) 公司高层市场考察,市场分析,决 ...
[Hadoop 周边] Hadoop和大数据：60款顶级大数据开源工具（2015-10-27）【转】
说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱.弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,“100%的大公司”会采用Hado ...
用持续集成工具Travis进行构建和部署
用持续集成工具Travis进行构建和部署用持续集成工具Travis进行构建和部署摘要:本文简单说明了如何使用持续集成工具Travis进行构建和部署的过程. 1. 概述持续集成(Continuou ...

随机推荐

Java开发
总结java开发中知识点和问题点基础: 常用加解密算法: [md5] import java.security.MessageDigest; public static final String e ...
Tornado框架之基础（一）
知识点了解什么是Tornado框架了解Tornado与Django的区别 Tornado的安装了解Tornado的原理掌握Tornado的基本写法掌握Tornado的基本模块 tornado ...
vue3 父子组件传值
父传子组件 <template> <div>  <Subassembly :value="doc"/ ...
nrm安装后无法使用
前情在使用node.js的过程中,经常会时不是遇到有些包下载安装慢或者失败,有时可以尝试切换源来解决这类问题坑通过npm install nrm -g安装完nrm后运行nrm一直报错 Why? ...
在PlatformIO IDE中对ESP32的CPU主频等进行配置
前言 rt,有一天开发中需要尽可能发挥ESP32的全部性能,提高主频自然是首选,在Arduino IDE中修改主频很方便,但在PlatformIO IDE中修改主频的方法网上说的却很少,今天就总结一下 ...
手撕vector
Myclass.h #pragma once #include<iostream> #include<Windows.h> #define SUCCESS 1 // 成功 #d ...
MySQL的安装、配置、卸载
Mysql的安装配置(基于Centos7) 安装mysql数据库 [root@master ~]# wget https://dev.mysql.com/get/mysql57-community-r ...
Ubuntu 22.04 LTS 代号已经公布：那就是 Jammy Jellyfish
Ubuntu 22.04 LTS 代号已在 Ubuntu 开发之家 Launchpad 上公布. 在字母系列中的字母"I"之后,是"J". 因此,Canonic ...
Netty中ByteBuf内存泄露及释放解析
近日在使用Netty框架开发程序中出现了内存泄露的问题,百度加调试了一番,做个整理. 直接看解决方法请移步Netty内存泄漏解决ERROR io.netty.util.ResourceLeakDete ...
Qt编写安防视频监控系统35-onvif抓拍图片
一.前言以前不知道onvif也可以做抓拍功能,直到近期重新用Onvif Device Test Tool工具测试的时候,发现还有抓图的接口,于是抓跑分析出要收发的数据,然后加入到自己封装的onvif ...

Iceberg调研报告-腾讯数据集成工具报告

Iceberg调研报告-腾讯数据集成工具报告的更多相关文章

随机推荐

热门专题