摘要:滚动升级作为大集群数据底座的必备能力,能够完美解决了传统大数据平台操作繁琐、业务停机、升级成本高等问题,实现一个架构的持续演进,业务无中断。

华为开发者大会2021(Cloud)大会期间,由华为技术专家天团打造的《名师大讲堂》系列专题演讲,围绕云原生、大数据、人工智能等话题,探讨技术创新带来的价值,分享创新实践。其中,华为云FusionInsight解决方案架构师许田立,分享了“千级节点的大数据集群如何无业务中断升级”主题。

华为云FusionInsight解决方案架构师许田立演讲照片

数据量激增,可持续发展的数据底座尤为重要

随着5G、IoT技术的飞速发展,数据已成为重要的战略资源。据预测未来4年数据量将激增4倍+,达180ZB,到35年呈50倍增长。同时,数据作为继土地、资本、技术、劳动力的第5种生产要素,已是数字经济发展的重要要素。但相关调查结果显示,企业运营中仅56%的数据被存储,仅32%的数据被利用。为应对呈指数级增长的数据资产,挖掘海量数据价值,政企客户采用大规模数据底座的需求越来越迫切。

众所周知,企业早期业务较小,各业务从数据集成到数据应用,系统自建,烟囱林立,伴随业务飞速发展,数据不统一、数据融合分析难、开发维护成本高等问题日益凸显,烟囱式的数据体系演进达到瓶颈。

为突破以上瓶颈,挖掘数据价值,驱动业务增长,传统烟囱式数据体系向统一数据湖架构演进,实现一致的数据清洁,做到同名同义,统一数据标准;通过一套技术架构减少维护成本;采用乐高积木式的指标体系,提升开发效率;拉通数据实现跨域融合分析,带来更多的业务创新。

立足于长远,大集群的数据湖架构不仅需满足当下,更应具备可持续演进的能力。

从技术角度来看,大数据开源、开放技术仍在蓬勃发展,以前,驾驭大数据“三驾马车”可转遍大数据的池塘,现如今,大数据技术已发展成一片海洋,社区已具有100+开源项目,大数据技术创新进入深水区。现在大数据不仅限于Hadoop生态,已是多种主流数据处理技术的集合,在不同场景有着丰富的组件进行支撑。华为云大数据技术与世界同步,积极拥抱开源,汲取全球顶尖大数据实践经验。

从业务角度来看,大数据平台承载了海量数据各业务分析场景,其中更涉及多个关键业务,如运营商的对内收入稽核、对外广告精准投放,金融领域的反欺诈、精准营销等场景,服务连续性要求高,7*24小时不中断;如何让大数据平台软件保持最新保本,实现最优的平台参数,达到最快的问题解决速度?这些都对平台运维部门提出了极高的要求。

为了保持业务的连续性和技术引领,一个超大规模、高效率、可持续发展的数据底座显得尤为重要,而不中断业务的滚动升级能力则成为其中的必备能力。

滚动升级实现架构平滑演进,业务无中断

华为云FusionInsight MRS云原生数据湖提供超大规模集群,支持单集群2万+节点规模,并可联邦无限扩容,同时,从500+节点集群的标配开始,华为云FusionInsight MRS云原生数据湖已提供滚动升级能力,截止目前升级成功率为100%。

当然,滚动升级的成功并不是一蹴而就的,在其升级过程中也将面临如下挑战:

  • 无处不在的兼容性:HDFS作为一个分布式架构组件,涉及的跨进程的接口众多,在中间状态,涉及到新老版本交互的场景众多,每一种组合都存在兼容性问题;
  • 可靠性:集群规模达到一定数量后,集群升级历时需数天,升级过程中需要应对各种突发事件,例如硬件的磁盘故障、网络拥塞等各种异常场景,面临这些挑战需要确保升级进度不受影响;
  • 业务无中断:大数据平台承载企业多场景应用,升级过程中,关键业务不允许中断。

为了保障大集群升级过程的平滑,华为云FusionInsight MRS云原生数据湖团队提供了升级管理可视化服务工具,可以端到端分步骤的完成滚动升级,实现升级过程中的可视化控制和管理,并应对上述挑战,主要做了如下处理:

  • 在接口中增加版本号,新版本客户端带上版本号标识;服务端提供两种RPC实现入口,在入口处进行消息格式不兼容的预处理,解决接口兼容性问题;面对社区大版本变更导致的不兼容问题,通过多版本并存的方式,解决滚动升级对业务的影响;
  • 为快速处理升级过程中出现的硬件故障,提供了故障节点隔离能力,在故障发生时,可以跳过该节点的升级动作,使得故障处理和升级可以有序进行;
  • 为降低在升级过程中对关键任务SLA的影响,提供了滚动升级暂停的能力,关键作业或者作业高峰时段,无论是同一批次内还是多批次间,都可暂停升级动作,保障关键任务平稳执行。

滚动升级不仅是一个升级动作,更是一个系统工程,华为云FusionInsight MRS云原生数据湖从兼容性、可靠性、工具自动化、保障团队等多方面入手,注重细节,通过滚动升级助力政企客户平台架构平滑演进。

工商银行实现首个金融行业1000+大集群滚动升级成功

工行大数据平台的Hadoop批量集群已超过1000节点,日均处理作业10万+,数据存储数十PB,承载了全行重点批量作业,其中包括反欺诈、精准营销等多个重要业务场景,服务连续性需求较高。而大数据技术迭代快,传统升级方式需断电、重启等操作,升级操作复杂,影响现网业务运行,且大集群升级耗时长,突发故障易中断升级动作。

大数据技术快速发展,为满足业务变化发展需求,工行采用了华为云FusionInsight MRS 滚动升级方案,借助于大数据核心组件的高可用机制, MRS按照依赖层次,多层次并行,在不影响集群整体业务的情况下,一次升级/重启少量节点,依据组件和实例的依赖关系,自动编排升级批次。升级过程中,隔离故障节点,待升级完成后,再进行故障处理。循环滚动,直至集群所有节点升级到新版本。

通过华为云FusionInsight滚动升级能力,实现大集群分批次滚动升级,业务0中断;故障节点隔离功能确保升级动作的稳定运行,实现7*24小时不间断服务;1000+精细化运维指标及可视化操作简化运维,实现一个架构持续演进。

结语

滚动升级作为大集群数据底座的必备能力,完美解决了传统大数据平台操作繁琐、业务停机、升级成本高等问题,实现一个架构的持续演进,业务无中断。同时,华为云FusionInsight MRS云原生数据湖还将持续创新,做大数字世界黑土地,携手800+ISV为客户提供持续演进的湖仓一体解决方案,可以在一个架构上实现离线数据湖、实时数据湖、逻辑数据湖,在千行百业构筑“一企一湖,一城一湖”。

本文分享自华为云社区《华为云FusionInsight MRS如何实现千余节点滚动升级无业务中断升级》,原文作者:沙漏。

点击关注,第一时间了解华为云新鲜技术~

华为云FusionInsight MRS:千余节点滚动升级业务无中断的更多相关文章

  1. 华为云FusionInsight MRS:助力企业构建“一企一湖,一城一湖”

    摘要:华为云FusionInsight MRS新一代的数据湖,让大数据越用越快.越用越易.越用越稳.越用越省!让数据价值近在眼前! 10月30日,以"携手共赢·数创未来"为主题的第 ...

  2. 解密华为云FusionInsight MRS新特性:一架构三湖

    摘要:华为云安全网关产品总监郭冕在"华为云TechWave云原生2.0专题日"上发表<华为云FusionInsight MRS,一个架构实现三种数据湖>的主题演讲,分享 ...

  3. 【技术干货】华为云FusionInsight MRS的自研超级调度器Superior Scheduler

    Superior Scheduler是一个专门为Hadoop YARN分布式资源管理系统设计的调度引擎,是针对企业客户融合资源池,多租户的业务诉求而设计的高性能企业级调度器. Superior Sch ...

  4. “3+3”看华为云FusionInsight如何引领“数据新基建”持续发展

    摘要:一个统一的现代化的数据基建需要三类架构来实践三种不同的应用场景. 近期,美国知名科技企业风投机构A16Z总结出一套通用的技术架构服务,分为以下三种场景. 一.数据基建架构全景 数据流向显示,左侧 ...

  5. 华为云FusionInsight湖仓一体解决方案的前世今生

    摘要:华为云发布新一代智能数据湖华为云FusionInsight时再次提到了湖仓一体理念,那我们就来看看湖仓一体的来世今生. 伴随5G.大数据.AI.IoT的飞速发展,数据呈现大规模.多样性的极速增长 ...

  6. 【华为云】MRS journey node HDFS 不一致

    HDFS JournalNode数据不同步告警 恢复指导 1 停止有问题的 JN 实例 2 清楚无效数据 登录有问题JN的后台,使用omm用户操作以下命令: cd /srv/BigData/journ ...

  7. 华为云 MRS 基于 Apache Hudi 极致查询优化的探索实践

    背景 湖仓一体(LakeHouse)是一种新的开放式架构,它结合了数据湖和数据仓库的最佳元素,是当下大数据领域的重要发展方向. 华为云早在2020年就开始着手相关技术的预研,并落地在华为云 Fusio ...

  8. FusionInsight MRS:你的大数据“管家”

    摘要:4月24日-26日,HDC.Cloud2021在深圳大学城成功举办,华为云FusionInsight MRS云原生数据湖带来最懂行的大数据解决方案,为政企客户提供湖仓一体.云原生的大数据解决方案 ...

  9. HDFS 细粒度锁优化,FusionInsight MRS有妙招

    摘要:华为云FusionInsight MRS通过FGL对HDFS NameNode锁机制进行优化,有效提升了NameNode的读写吞吐量,从而能够支持更多数据,更多业务请求访问,从而更好的支撑政企客 ...

  10. 华为云ModelArts2.0来袭

    [摘要] modelarts自发布以来,不断地更新增加新的功能来为AI工程师们带来新的服务,在这次的全联接大会上EI服务产品部总经理贾永利宣布--华为云AI重装升级,并重磅发布一站式AI开发管理平台M ...

随机推荐

  1. 从输入URL到页面加载完都发生了什么

    1.浏览器的地址栏输入URL并按下回车. 2.浏览器查找当前URL是否存在缓存,并比较缓存是否过期. 3.DNS解析URL对应的IP. 4.根据IP建立TCP连接(三次握手). 5.HTTP发起请求. ...

  2. keepalived部署+nginx高可用

    nginx+keepalived搞性能web网络架构实战配置: 环境准备: keepalived+nginx-1: 192.168.1.23 keepalived+nginx-2: 192.168.1 ...

  3. Java SPI机制总结系列之万字详细图解SPI源码分析

    原创/朱季谦 我在<Java SPI机制总结系列之开发入门实例>一文当中,分享了Java SPI的玩法,但是这只是基于表面的应用.若要明白其中的原理实现,还需深入到底层源码,分析一番. 这 ...

  4. Qt中QTabWidget添加控件(按钮,label等)以及使用方法

    今天遇到了一个问题,已经在QTabWidget每一行添加了一个按钮,我有一个需求就是,点击每一行的按钮都有各自的响应 首先说一下添加控件代码: 添加文字可以用setItem,添加控件就得用setCel ...

  5. JavaWeb项目练习(学生选课管理系统)一

    打算做一个选课管理系统,作为期末的复习. 上需求 2.1 页面要求 (1)系统可以通过浏览器直接访问:(1分) (2)各个功能页面整体风格统一:(2分) (3)首页为用户登录页面,管理员.教师.学生三 ...

  6. Android学习day04【Button】

    出现的一些小状况: 小状况 报错,代码显示运行成功 但是无法在模拟机上显示 原因是没有在包含应有id 其二是关于设置背景颜色中 关于background与backgroundTint的区别 //这是b ...

  7. 深入理解HarmonyOS UIAbility:生命周期、WindowStage与启动模式探析

    本文分享自华为云社区<深入理解HarmonyOS UIAbility:生命周期.WindowStage与启动模式探析>,作者:柠檬味拥抱. UIAbility组件概述 UIAbility组 ...

  8. lua完整学习笔记

    lua注释 -- 单行注释 --[[ 多行注释 ]]-- lua数据结构 nil          无效值与Java的Null类似,但是在条件表示中是false boolean      布尔值,tu ...

  9. SpringCore完整学习教程4,入门级别

    本章从第4章开始 4. Logging Spring Boot使用Commons Logging进行所有内部日志记录,但保留底层日志实现开放.为Java Util Logging.Log4J2和Log ...

  10. Linux笔记02: Linux环境_2.2 Linux系统安装

    2.2 Linux系统 本文使用的Linux系统为CentOS 7.9.2009,读者可以根据自己的需要选择不同的版本. 2.2.1 CentOS版本 CentOS基本上是安装在i386.x86_64 ...