在大数据时代,企业对数据的依赖程度越来越高。然而,随着业务的不断发展和技术的快速迭代,大数据平台的集群迁移已成为企业数据中台发展途中无法回避的需求。在大数据平台发展初期,国内数据中台市场主要以国外开源 CDH、商业化 CDP、HDP 为主。然而,由于国际形势的转变,以海外大数据基础平台作为基石构建的数据中台面临着极为严峻的安全挑战。

● Cloudera 和 Hortonworks 产品开启付费订阅模式

自2021年1月31日起,Cloudera 旗下的所有软件不再提供社区版,转而采用需付费的订阅模式,并且订阅费用颇高。

● 企业版停止更新和服务

Cloudera 和 Hortonworks 合并后,推出的新平台 CDP 是 CDH 和 HDP 的最后版本,企业用户无法获取新功能和性能提升,并且2022年3月后停止售后支持。

● 国际事件导致的供应中断风险

如俄乌事件,Oracle、Google、苹果、英特尔等公司相继停止对俄业务,进一步暴露外国软件供应链的脆弱性和风险。

面对复杂多变的国际局势,我国陆续推出相应政策推动信创产业发展。比如国资委就要求,从23年初开始,每个季度要上报信创系统的替换进度。并要求在2027年底前,实现中央企业的信息化系统国产化替代。

因此,无论是因为 CDH 不再维护,还是为了实现国产化替代,或者是为了追求更高的性能和安全性,大数据集群迁移的需求都愈发迫切。

EasyMR 作为一款领先的大数据存储计算平台,深刻理解企业在集群迁移过程中面临的挑战和痛点,其 EasyManager 大数据运维管理平台推出了功能强大的「集群迁移」模块,为企业提供一站式的集群迁移解决方案,助力企业在确保数据安全和完整性的同时,轻松高效地完成集群迁移工作。

多集群配置支持:一站式管理

支持多种大数据平台的集群配置,包括 EMR、CDH、CDP、HDP 和 NDH。无论企业当前使用的是哪种平台,将要迁往哪种平台,EasyManager 都能无缝兼容,为企业提供灵活的迁移选择。

这种多集群配置支持,不仅简化了迁移操作,还提高了企业的灵活性,让企业能够根据实际业务需求,选择最合适的大数据平台。

集群跨域互信检测

集群迁移中源集群与目标集群可能分布在不同的物理位置或不同的网络环境中,甚至跨越不同的企业和组织。在这种复杂的环境下,确保集群之间的互信是保障数据安全和稳定运行的前提。

跨域互信检测的主要目的是:

· 确保集群间的安全通信:防止未经授权的访问和数据泄露

· 验证集群间的身份认证:确保只有可信的集群才能进行数据交换和协同计算

· 保障数据完整性和一致性:防止数据在传输过程中被篡改或丢失

迁移调度策略:灵活的任务控制

在集群迁移过程中,合理的任务调度和并发控制至关重要。EasyMR 提供了配置迁移调度策略的功能,允许企业根据自身的业务需求和资源状况,灵活地设定迁移任务的网络带宽和并发度。

通过灵活调度策略设定,企业可以最大化地利用现有网络、计算资源,确保迁移过程高效、有序地进行。同时,任务并发控制功能还能有效防止系统过载,保障系统的稳定运行。

数据一致性校验:保障数据准确性

在大数据集群迁移过程中,数据一致性校验是确保数据完整性和准确性的关键步骤。EasyMR针对数据一致性校验提供了一整套详细而强大的功能,帮助企业在迁移过程中保证数据的准确性和一致性。

● Schema 采集和表结构对比

· Schema 采集

Schema 采集是指从源集群和目标集群中提取数据库的结构信息,包括表名、字段名、字段类型、索引、约束等。这些信息是进行表结构对比的基础。

· 表结构对比

在迁移过程中,对比源集群和目标集群的表结构是确保数据一致性的第一步。表结构对比包括以下几个方面:

1)字段数量对比:确保源表和目标表的字段数量一致

2)字段名称和类型对比:确保字段名称和数据类型一致,避免因类型不匹配导致的数据错误

3)索引和约束对比:确保索引和约束在迁移后保持一致,保证数据操作的效率和安全性

● 记录数采集和记录数对比

· 记录数采集

记录数采集是指统计源集群和目标集群中各表的记录数量,记录数的对比可以快速检测出是否有数据丢失或重复。

· 记录数对比

记录数对比主要是对比源表和目标表中的记录数量是否一致。记录数不一致可能表明数据在迁移过程中丢失或重复,需要进一步的检查和处理。

● 数值 SUM 采集和数值字段对比

· 数值 SUM 采集

数值 SUM 采集是对源集群和目标集群中所有数值类型的字段进行求和操作。通过 SUM值 的对比,可以检查出数值数据的一致性。

· 数值字段对比

数值字段对比是对比源表和目标表中数值字段的 SUM 值,确保数值数据在迁移后的总和一致。这可以有效地发现数值数据在迁移过程中可能发生的偏差和错误。

● 字符 Max 采集和字符字段对比

· 字符 Max 采集

字符 Max 采集是指对源集群和目标集群中所有字符类型的字段进行最大值的提取,通过 Max 值的对比,可以检查出字符数据的一致性。

· 字符字段对比

字符字段对比是对比源表和目标表中字符字段的 Max 值,确保字符数据在迁移后的最大值一致。这可以有效地发现字符数据在迁移过程中可能发生的错误和遗漏。

● 抽样采集和 MD5 对比

· 抽样采集

从源集群和目标集群中随机抽取一定数量的数据样本进行对比。抽样采集可以提高数据对比的效率,减少全量对比的时间和资源消耗。

· MD5 对比

通过对源集群和目标集群中的数据进行 MD5 哈希计算,将哈希值进行对比,确保数据的一致性。

实时监控与日志定位

为了帮助用户及时了解迁移进度和处理迁移过程中出现的问题,EasyMR 提供了详细的页面查看和日志记录功能

● 迁移任务状态查看

用户可以在页面上实时查看迁移任务的状态,了解迁移进度和结果。

● 迁移日志记录和分析

系统会记录迁移过程中的详细日志,用户可以通过日志定位和解决迁移过程中出现的问题,确保迁移任务顺利完成。

总结

EasyMR为企业提供安全可靠、弹性伸缩、低成本的大数据存储与计算服务,同时支持一站式迁移解决方案。迁移流程产品化不仅简化了操作,还提升了迁移效率和安全性。无论是数据存储与管理,还是任务调度与控制,EasyMR 都能为企业提供全面支持。

特别是在集群国产化替代方面,EasyMR 通过优化的迁移流程和强大的技术支持,帮助企业顺利完成从现有环境到 EasyMR 国产环境的迁移,实现大数据集群的平稳过渡和国产化适配。

《行业指标体系白皮书》下载地址:https://www.dtstack.com/resources/1057?src=szsm

《数栈产品白皮书》下载地址:https://www.dtstack.com/resources/1004?src=szsm

《数据治理行业实践白皮书》下载地址:https://www.dtstack.com/resources/1001?src=szsm

想了解或咨询更多有关大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=szbky

从困境到突破,EasyMR 集群迁移助力大数据底座信创国产化的更多相关文章

  1. 我的ElasticSearch集群部署总结--大数据搜索引擎你不得不知

    摘要:世上有三类书籍:1.介绍知识,2.阐述理论,3.工具书:世间也存在两类知识:1.技术,2.思想.以下是我在部署ElasticSearch集群时的经验总结,它们大体属于第一类知识“techknow ...

  2. Kafka 集群在马蜂窝大数据平台的优化与应用扩展

    马蜂窝技术原创文章,更多干货请订阅公众号:mfwtech Kafka 是当下热门的消息队列中间件,它可以实时地处理海量数据,具备高吞吐.低延时等特性及可靠的消息异步传递机制,可以很好地解决不同系统间数 ...

  3. 【转】最近搞Hadoop集群迁移踩的坑杂记

    http://ju.outofmemory.cn/entry/237491 Overview 最近一段时间都在搞集群迁移.最早公司的hadoop数据集群实在阿里云上的,机器不多,大概4台的样子,据说每 ...

  4. redis5 集群迁移方案

    Redis5 集群迁移方案 一.KEY优化 1.按原来要求进行优化与大KEY分拆. 二.现Redis 集群缩容(对业务无影响) 主节点按要求合并至3个主节点. 业务配置为3主4从 删除没有槽的主节点与 ...

  5. Hive跨集群迁移

    Hive跨集群迁移数据工作是会出现的事情, 其中涉及到数据迁移, metastore迁移, hive版本升级等. 1. 迁移hdfs数据至新集群hadoop distcp -skipcrccheck ...

  6. KingbaseES V8R3集群管理维护案例之---集群迁移单实例架构

    案例说明: 在生产中,需要将KingbaseES V8R3集群转换为单实例架构,可以采用以下方式快速完成集群架构的迁移. 适用版本: KingbaseES V8R3 当前数据库版本: TEST=# s ...

  7. Nginx集群之WCF大文件上传及下载(支持6G传输)

    目录 1       大概思路... 1 2       Nginx集群之WCF大文件上传及下载... 1 3       BasicHttpBinding相关配置解析... 2 4       编写 ...

  8. hbase集群写不进去数据的问题追踪过程

    hbase从集群中有8台regionserver服务器,已稳定运行了5个多月,8月15号,发现集群中4个datanode进程死了,经查原因是内存 outofMemory了(因为这几台机器上部署了spa ...

  9. zookeeper集群迁移方案

    后来问同事是怎么做的迁移:先启动一套新的集群,然后关闭老的集群,同时在老集群的一个IP:2181起了一个haproxy代理新集群以为这样,可以做到透明迁移=.=,其实是触发了ZK的bug-832导致不 ...

  10. Redis集群迁移

    1:开发中断程序,登录各个主节点查看key信息 INFO # Keyspace db0:keys,expires,avg_ttl # Keyspace db0:keys,expires,avg_ttl ...

随机推荐

  1. [SDR] GNU Radio 系列教程 —— GNU Radio RX PDU (接收据包操作)的基础知识(超全)

    目录 1 接收概述 2 相关块介绍 2.1 相关性估计器(Correlation Estimator) 2.2 多相时钟同步(Polyphase Clock Sync) 2.3 线性均衡器(Linea ...

  2. 使用PowerPoint优雅地更改证件照底色

    使用PowerPoint优雅地更改证件照底色 首先我们打开一张空白的演示文稿,并将要修改的证件照进行粘贴.(图片来自窝窝摄影,侵删) 选中图片,点击 格式,再点击 删除背景. 点击标记要保留的区域,对 ...

  3. [每日算法 - 华为机试] leetcode463. 岛屿的周长

    入口 力扣(LeetCode)官网 - 全球极客挚爱的技术成长平台备战技术面试?力扣提供海量技术面试资源,帮助你高效提升编程技能,轻松拿下世界 IT 名企 Dream Offer.https://le ...

  4. Ink 和 TravisCI 更配哦

    前言 去年还是前年,无意间接触到ink,看到是用go写的,非常小巧和精简,于是乎fork了下,还整了个供ink用的docker镜像``. 不过那时候热衷于折腾博客...结果也没折腾出什么来, 今天整理 ...

  5. dxSpreadSheet的报表

    这个玩意还真的很棒.几乎把excel的都融进来了.现在说Repoert. In addition to all the functionality available in the Spreadshe ...

  6. study Python3 【1】

    用VSCode来编辑Python代码,作为IDE使用,有点头晕. https://www.runoob.com/python3/python-vscode-setup.html有介绍.还有更好的博客介 ...

  7. python,下载图片到本地自定文件夹内的方法

    比如,我们需要下载下面这张图,图片的网络地址:"https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000 ...

  8. NPOI,给指定的excle创建个下拉框验证

    NPOI,给指定的excle创建个下拉框验证 先大致看下效果吧 Nuget  搜索 NPOI,一般出来的第一个就是,安装NPOI基础环境 1 using NPOI.HSSF.UserModel; 2 ...

  9. FirstUI:Deepseek能帮我们做很多事情,而这款开源框架专为开发者设计的开源UI框架,让你的项目加速起飞

    嗨,大家好,我是小华同学,关注我们获得"最新.最全.最优质"开源项目和高效工作学习方法 开发者们总是在寻找能够提高工作效率.简化开发流程的工具.今天,我们要介绍的是一个名为Firs ...

  10. RNN - 梯度消失与爆炸

    Last we learned Recurrent Neural Netwoks (RNN) and why they'er great for Language Modeling (LM) 就之前整 ...