三个月我迁移了100PB数据

2023年马上结束，这一年做了不少事情，有一项我可以吹好几年，忍不住和大家分享一下啊。

需求

去年底收到一项需求，要求2个月内从某云存储迁移100PB数据到微软云存储，包含几百亿个文件。当时听到这个数字我都惊呆了，别说100PB，100TB之前我都没迁移过，心里完全没底。但是老板说部门目前没有开发人员可以干这个项目，希望我能带队参与。没办法，我只能顶着巨大的压力参与项目的推进，核心开发人员就4位，还有售前架构师若干。

第一步就是和客户对接了解业务需求和当前数据现状，分析下来发现有几点要处理：

客户有很多零碎小文件，这部分带宽利用率不高，肯定无法在规定时间内传完的，需要排除在本次任务范围外。
存在很多文件有事务性，文件级别传输无法保证业务数据一致性，这部分文件一般是各种数据表，但总量占比低，需要单独处理。
传输期间数据源不下线，意味着要做增量传输。
跨云传输带宽上限不确定有多大，一开始以500Gbps为目标，后来发现天真了。

以上只是一小部分问题，实际数个月项目做下来积攒了一堆问题。

这个项目工期太紧，而且数据量巨大，传输一次就要数十万美元的流量费，只能成功不能失败，代价及其巨大！

技术方案及开发

回到开发部分，我们是4人的小型敏捷团队，我担任开发兼项目经理兼架构师。我们只花了2天时间就完成了各种方案和工具调研，并给出了设计的传输方案。

开源数据迁移工具，如 Hadoop 集群 distcp 远程拷贝

Apache DistCp 是一个开源工具，可用于复制大量数据。用户可以将 DistCp 命令作为一个步骤添加到 Hadoop 集群中。使用 DistCp，用户可以高效地将大量数据从来源云存储复制到目标 HDFS 存储服务中。

DistCp使用MapReduce以分布式方式进行复制。它将文件和目录列表扩展为映射任务的输入，每个任务将复制源列表中指定的文件的分区。它跨多个服务器调度复制、错误处理、恢复和报告结果等任务。因此我们经常在Hadoop集群之间使用DistCp进行大规模分布式数据复制。

该方案优点如下：

- 开源工具，无任何许可成本
- 支持Hadoop集群间大规模复制数据
- 对HDFS支持很完善
- Apache基金会项目，项目持续被维护更新

缺点：

- 存在功能使用限制，如不能在预先存在的目标目录下创建父源目录等问题
- 云端Hadoop集群使用需要适配并集成DistCp驱动
- 难以定制复制逻辑，拓展性差
- 无法限制带宽占用
- 无法处理来源云存储中文件发生版本更新的情况，不满足需求
商用SaaS数据迁移方案，如Azure Data Factory、AWS Glue、GCP Cloud Data Fusion等

以Azure Data Factory为例，它是基于云的ETL和数据集成服务，可让你创建数据驱动型工作流，用于大规模调度数据移动和转换数据。可以使用Azure数据工厂创建和计划数据驱动型工作流（称为管道），以便从不同的数据存储引入数据，同时直观地转换数据到目标存储中。

但该类SaaS产品传输性能有限无法满足当前项目的高性能要求，适合常规数据迁移任务。

因此无论是商用的传输服务还是开源的Apache DistCp，都不能做到在规定时间内完成如此高的传输目标，最终还是决定自己定制化开发传输应用。

对此我们设计了如下关键特性：

采用1 Master Node，N个Work Node模式，实现分布式并行调度任务机制
采用高可用设计，单个复制任务应当能够自动重试
能够限制带宽调用
分布式数据存储
完整的任务记录
高性能。能够吞吐量达到250Gbps

我们对AzCpoy工具做了深度魔改，为此我临时学了Go语言，将其从单机程序修改为可以群集化弹性扩张的分布式并行数据复制应用，运行在复制节点上。针对大规模任务，我们还开发了控制程序，负责管理和派发复制任务给复制节点，并引入了额外的消息队列和Redis缓存，来实现整个分布式系统的调度。

针对并发任务的监控，我们额外引入了Azure CosmosDB作为高性能可弹性扩容的NoSQL数据库，能够承受每秒数万次的查询和写入。此外还针对增量更新文件的场景，开发了事件驱动的应用，用于侦听来源云存储的文件更新事件，异步触发数据复制任务。

整套系统我们只花了1周时间就开发完成第一个版本，额外花了1周进行测试。4个开发每天除了吃饭睡觉就在写代码，投入了巨大的心血，特别敬业。

上线

去年元旦我们的分布式复制系统正式上生产，结果第一天就出bug了，数据迁移数小时后卡住。经过紧急排查发现是调度程序的循环逻辑存在问题，永远跳不出来，这是相当低级的错误。主要原因还是工期太赶，大家各干各的，没有互联交叉审阅代码，因此质量不高。紧急修复后，重新上线。

结果第二天收到迁移来源的云存储厂商投诉，因为我们的复制速度太快，已经挤爆了他们公网400Gbps总带宽，影响其他客户的使用。如果不限制数据迁移任务，将会在平台层面封掉数据流量。

这点我很欣慰，至少证明我们开发的工具性能极高，有多少带宽可以占满多少。因此紧急着手限速工作，最后将传输的吞吐速度限制在200-250Gbps。

上线第一个月，我们就传输了50PB的数据。最终传输了100PB的数据，整个过程中我们的工具总体鲁棒性不错，比较符合设计预期。

总结

那几个月是我8年职业生涯以来压力最大的时间，也是我这些年来做过最具挑战性的项目。当然输出的成果也非常牛，这个牛我可以吹好多年。从来没想到我们可以做到这么超大规模的任务，仅仅流量费就要几十万美元，测试一次就要几千美元，烧掉好多台iPhone。

面对极限的压力，我们程序员总能爆发出超乎想象的能力，完全吹爆！！！

三个月我迁移了100PB数据的更多相关文章

mysql迁移之巨大数据量快速迁移方案
mysql迁移之巨大数据量快速迁移方案-增量备份及恢复 --chenjianwen 一.前言: 当mysql库的大小达到几十个G或者上百G,迁移起来是一件非常费事的事情,业务中断,导出导入耗费大量的时 ...
巧用 JuiceFS Sync 命令跨云迁移和同步数据
近年来,云计算已成为主流,企业从自身利益出发,或是不愿意被单一云服务商锁定,或是业务和数据冗余,或是出于成本优化考虑,会尝试将部分或者全部业务从线下机房迁移到云或者从一个云平台迁移到另一个云平台,业务 ...
利用Linode面板Clone克隆搬家迁移不同VPS数据及利用IP Swap迁移IP地址
在众多海外VPS服务商中,老蒋个人认为Linode提供的VPS方案和性价比还是比较高的,尤其目前基础1GB方案仅需10美元每月且全部是SSD固态硬盘,无论是流量还是硬盘大小,基本上可以满足我们大部分用 ...
[DeeplearningAI笔记]卷积神经网络2.9-2.10迁移学习与数据增强
4.2深度卷积网络觉得有用的话,欢迎一起讨论相互学习~Follow Me 2.9迁移学习迁移学习的基础知识已经介绍过,本篇博文将介绍提高的部分. 提高迁移学习的速度可以将迁移学习模型冻结的部分看 ...
Oracle 12C 新特性之在线重命名、迁移活跃的数据文件
Oracle 数据库 12c 版本中对数据文件的迁移或重命名不再需要太多繁琐的步骤,可以使用 ALTER DATABASE MOVE DATAFILE 这样的 SQL 语句对数据文件进行在线重命名和移 ...
impala 表迁移方式 partquet数据文件移动方法
1.原表查询:select count(*) from edm.ucard_wxd0123 where stat_dt = '2024-01-09' and id_no = '110101199003 ...
使用 FTP 迁移 SQL Server 数据_迁移数据_快速入门（SQL Server）_云数据库 RDS 版-阿里云
背景信息阿里云数据库 SQL Server 版导入数据有如下限制: 仅支持导入 SQL Server 2005.SQL Server 2008.SQL Server 2008R2 版本数据仅支持全 ...
laravel7 数据迁移及填充数据
1:置迁移数据表,创建生成模型和迁移文件: php artisan make:model Article -m 2:接着,在框架中的database/migrations文件夹中找到刚创建的用户表Ar ...
mysql查询出近一周，三个月，一年的数据
SELECT * FROM 表名 WHERE 时间字段>DATE_SUB(CURDATE(), INTERVAL YEAR) 一年 SELECT * FROM 表名 WHERE 时间字段> ...
Ubuntu18修改/迁移mysql5.7数据存放路径
1.停止mysql服务 sudo service mysql stop 2.修改mysql配置文件,一般是 /etc/mysql/my.cnf,或者/etc/mysql/mysql.conf.d/my ...

随机推荐

循序渐进介绍基于CommunityToolkit.Mvvm 和HandyControl的WPF应用端开发(4) -- 实现DataGrid数据的导入和导出操作
在我们设计软件的很多地方,都看到需要对表格数据进行导入和导出的操作,主要是方便客户进行快速的数据处理和分享的功能,本篇随笔介绍基于WPF实现DataGrid数据的导入和导出操作. 1.系统界面设计在 ...
mpi转以太网连接300PLC在气动系统中的应用
mpi转以太网连接300PLC在气动系统中的应用某企业装备有限公司摘要工业通讯迅速发展的今天,MPI转以太网通讯已经发展为成熟,稳定,高效通讯方式,兴达易控自主研发的MPI转以太网模块MPI- ...
聊聊 QianKun JS 沙箱的那些事
我们是袋鼠云数栈 UED 团队,致力于打造优秀的一站式数据中台产品.我们始终保持工匠精神,探索前端道路,为社区积累并传播经验价值. 本文作者:空山什么是沙箱沙箱即 SandBox,它是一种安全机制 ...
Go结构体深度探索：从基础到应用
在Go语言中,结构体是核心的数据组织工具,提供了灵活的手段来处理复杂数据.本文深入探讨了结构体的定义.类型.字面量表示和使用方法,旨在为读者呈现Go结构体的全面视角.通过结构体,开发者可以实现更加模块 ...
Python基础合集
入门介绍 01.python由来与发展介绍 02.WEB项目开发流程第一篇 markdown编辑器 01.markdown基本语法 02.Typora简介与安装 03.Windows上gitee+T ...
P6066 [USACO05JAN] Watchcow S
prologue 这个题这么水的一个板子题. analysis 这个题目我们正反建两条边,在跑欧拉回路的时候,看这个边是不是被走过,走过就不走,跳过这个边.如果没走,就走这条边并且标记这个边走过了. ...
javascript 如何开启调试功能
目录 javascript 如何开启调试功能方式一: 打开浏览器,点击源码,直接点击一个,就加上断点了 (基于浏览器) 方式二: 打开代码,在 js 中加入 debugger 关键字,就加上断点了( ...
k8s-单节点升级为集群（高可用）
单master节点升级为高可用集群对于生产环境来说,单节点master风险太大了. 非常有必要做一个高可用的集群,这里的高可用主要是针对控制面板来说的,比如 kube-apiserver.etcd. ...
19. 从零开始编写一个类nginx工具, 配置数据的热更新原理及实现
wmproxy wmproxy是由Rust编写,已实现http/https代理,socks5代理, 反向代理,静态文件服务器,内网穿透,配置热更新等, 后续将实现websocket代理等,同时会将实现 ...
C++基础杂记（2）
将数组传入函数禁止修改数组的值函数的地址与函数的指针函数的指针数组函数的 static 与 inline 引用左值和引用传参 C++11 的数组 for 循环 64 位 Linux 操作系统中 ...

三个月我迁移了100PB数据

需求

技术方案及开发

上线

总结

三个月我迁移了100PB数据的更多相关文章

随机推荐

热门专题