摘要:华为云安全网关产品总监郭冕在“华为云TechWave云原生2.0专题日”上发表《华为云FusionInsight MRS,一个架构实现三种数据湖》的主题演讲,分享了智能数据时代的数据湖发展趋势、MRS云原生数据湖技术创新实现一个架构构建离线、实时、逻辑三种数据湖,以及业务实践中的成功案例等。

本文分享自华为云社区《华为云FusionInsight MRS云原生数据湖,一架构三湖,解密华为云FusionInsight MRS组件新特性》,原文作者: IT老磨。

5月20日,华为云安全网关产品总监郭冕在“华为云TechWave云原生2.0专题日”上发表《华为云FusionInsight MRS,一个架构实现三种数据湖》的主题演讲,分享了智能数据时代的数据湖发展趋势、MRS云原生数据湖技术创新实现一个架构构建离线、实时、逻辑三种数据湖,以及业务实践中的成功案例等。

进入智能数据时代,业界建设数据湖的十大共识

经过数十年的快速发展,大数据处理技术已日渐成熟,围绕数据仓库、数据湖衍生技术多如繁星,业界在多年的探索之中,也对未来数据湖形态有了十个重要共识,湖仓一体成为智能数据湖的首选架构。为应对智能数据时代对大数据技术提出的新挑战,华为云FusionInsight MRS云原生数据湖进行全面升级,引入了Hudi、ClickHouse热门组件,加强了自研的HetuEngine虚拟化引擎,同时新增IoTDB时序处理的能力,拓展数据使能应用的边界。

华为云FusionInsight MRS云原生数据湖

华为云FusionInsight MRS云原生数据湖为政企客户提供湖仓一体、云原生的数据湖解决方案,构建一个架构可持续演进的离线、实时、逻辑三种数据湖,支撑政企客户全量数据的实时分析、离线分析、交互查询、实时检索、多模分析、数据仓库、数据接入和治理等大数据应用场景,使政企客户高效用数、简化用数,助力政企客户实现一企一湖、一城一湖,业务洞见更准,价值兑现更快。

  • 离线数据湖:提供交互式、BI、AI等多个计算引擎,采用OBS实现存算分离,使得云原生数据湖的架构更灵活。支持单集群2万+节点的超大规模,通过集群联邦,可支持10万+规模。支持滚动升级,保障关键业务升级不中断。
  • 实时数据湖:通过Hudi支持ACID数据实时增量入湖、ClickHouse毫秒级OLAP分析等构建实时更新处理能力,使得供数时效从T+1到T+0。
  • 逻辑数据湖:HetuEngine提供跨湖、跨仓、跨云的协同分析,实现湖仓一体,减少80%数据搬迁,协同分析提效50倍。

一架构三湖新特性,覆盖数据分析全流程

  • Hudi:增量实时入湖,实现数据入湖时效快、开发易、性能高、资源利用率更高

传统数据湖不支持数据更新,导致数据采用T+1离线处理模式,完全无法满足灵活多变的业务诉求,针对数据时效性问题,华为云FusionInsight MRS云原生数据湖引入Hudi。

Hudi可以支持数据更新、数据删除,还有ACID保证,保证数据实时入湖更新操作。它提供多种视图,包括读优化视图、增量视图、实时视图,可以对不同的分析应用提供不同的视图,基于这些技术可轻松实现增量表、拉链表,镜像表这些数据存储模型。引入Hudi后,带来四大显著效果:

  1. 数据时效更快:在业务系统,通过CDC的系统实现分钟级数据入湖,数据时效性从T+1到T+0。
  2. 处理性能更高:面对数据有删除、更新的场景下,传统采用Hive更新方式,仅处理一行数据也可能需要对整个表,至少要对整个分区进行处理,引入Hudi后处理效率提升10倍+。
  3. 开发更简单:对于开发人员来说,传统数据入湖不支持更新或者删除,开发人员需新建临时表,将数据处理后再进行覆盖,对同一个任务可能需要写很多代码去完成,有了Hudi的加持之后,做一个数据更新的操作就跟使用数据库一样简单,单条语句即可完成。
  4. 资源利用率更高:传统T+1的模式并不是24小时跑任务,而是在晚上进行批量加工,早上出报表,整个处理过程中,计算高峰期仅晚上跑批的时间,而资源却是按照高峰期的计算需求来配比,导致白天的资源利用不足,引入Hudi后,数据实时采集入湖,把入湖处理的工作分散到全天的过程,实际上把整个资源消耗的高峰和低峰抹平掉。

某金融客户基于Hudi构建数据湖,数据入湖时延降至分钟级,且白天资源利用率提升2倍+,数据处理效率提升50%,开发人员通过单条语句即可完成开发,简化开发难度。

  • ClickHouse:实时OLAP引擎,实现报表全自助高性价比的实时分析

传统的OLAP引擎因其处理能力有限,数据一般按照专题或者主题进行组织后再与BI工具对接,导致BI用户和提供数据的数据工程师脱节。比如BI用户有一个新的需求,所需的数据没有在专题集市中,需要将需求给到数据工程师,以便开发相应的ETL任务,这个过程往往需要部门间协调,时间周期长,协作效益低。

现在,华为云FusionInsight MRS云原生数据湖可以将所有明细数据以大宽表的形式加载ClickHouse,BI用户可以基于ClickHouse大宽表进行自助分析,对数据工程师供数要求少,甚至在面对大部分新需求时,无需重新供数,开发效率和BI报表上线率都会得到极大提升。同时,ClickHouse在一张表里的数据分析可达毫秒级。

基于ClickHouse实现自助BI在华为内部实践也获得了很好的效果。华为集团HIS数据湖原来基于传统OLAP引擎建模,受限于开发效率,几年才上线了几十个报表。在引入Clickhouse后,三个月时间开发上线了400+报表,业务上线效率提升50倍。目前,华为内部ClickHouse的整体使用规模已经达到2000+节点,数据量规模达10+PB,日增数据量100TB。

  • HetuEngine:数据虚拟化引擎,突破地理限制,打破数据“墙”

伴随企业发展与数字化转型的需求,企业业务越来越复杂,创新需求越来越高。单系**立工作难以满足业务的变化需求,企业内可能同时存在多个湖、多个仓、多个系统,但传统方案烟囱式建设,湖仓之间、多引擎之间无直接的互联互通能力,需要通过ETL数据来回搬迁,造成数据流转链路长,数据多份冗余,产生数据孤岛。系统多份数据冗余也难以保证数据的一致性和可靠性。

为了让数据使用更简单,跨湖协同更容易,解决湖仓数据割裂的问题,华为推出了数据虚拟化引擎HetuEngine,实现跨湖、跨仓和云上、云下、多云协同分析的能力,突破地理限制,打破数据“墙”,跨湖协同分析效率提升50倍,跨仓协同分析减少80%的系统间数据搬迁同步,分析性能从分钟级提升至秒级。

金融某行通过引入HetuEngine数据虚拟化引擎,在数据湖查询分析方面该行提升了并发能力,仅1/5的资源即可支持45并发,峰值并发最大达200QPS,平均时延优化到8秒;在湖仓协同分析方面,通过HetuEngine打通数据湖与数仓间的数据壁垒,湖仓协同分析性能从分钟级提升至秒级,同时减少80%的系统间数据搬迁同步,大大提升数据治理效率。

  • IoTDB:时序数据库,云边端协同轻松构建时序数据集市

时序数据具备两大特点:在端、边、云都有处理,时序数据采集后不需要更新。传统时序处理方案中,在端、边、云采用不同的技术栈,异构的技术栈必将带来数据处理的复杂性。清华大学开发的时序数据库IoTDB(又称时序引擎),通过统一的时序数据文件格式TsFile,实现一份数据兼容全场景,一套引擎打通云边端、一套框架集成云边端。华为跟清华大学保持紧密的合作,最新发布的IoTDB集群版本,就是华为与清华主导开发的一个版本。

在上海、成都、重庆等城市均已采用IoTDB管理地铁监控数据,原本144辆列车需要9台服务器,现在仅需一个IoTDB实例即可满足要求,测点的采样时延也从原来的500ms降至200ms,日增4140亿数据点管理,大大提升资源利用率。

结语

目前,华为云FusionInsight MRS云原生数据湖携手800+生态伙伴,已服务于3000+政企客户,广泛应用于公用事业、金融、运营商、能源、医疗、制造、交通等行业。

点击关注,第一时间了解华为云新鲜技术~

解密华为云FusionInsight MRS新特性:一架构三湖的更多相关文章

  1. 华为云FusionInsight MRS:助力企业构建“一企一湖,一城一湖”

    摘要:华为云FusionInsight MRS新一代的数据湖,让大数据越用越快.越用越易.越用越稳.越用越省!让数据价值近在眼前! 10月30日,以"携手共赢·数创未来"为主题的第 ...

  2. 【技术干货】华为云FusionInsight MRS的自研超级调度器Superior Scheduler

    Superior Scheduler是一个专门为Hadoop YARN分布式资源管理系统设计的调度引擎,是针对企业客户融合资源池,多租户的业务诉求而设计的高性能企业级调度器. Superior Sch ...

  3. “3+3”看华为云FusionInsight如何引领“数据新基建”持续发展

    摘要:一个统一的现代化的数据基建需要三类架构来实践三种不同的应用场景. 近期,美国知名科技企业风投机构A16Z总结出一套通用的技术架构服务,分为以下三种场景. 一.数据基建架构全景 数据流向显示,左侧 ...

  4. 华为云FusionInsight湖仓一体解决方案的前世今生

    摘要:华为云发布新一代智能数据湖华为云FusionInsight时再次提到了湖仓一体理念,那我们就来看看湖仓一体的来世今生. 伴随5G.大数据.AI.IoT的飞速发展,数据呈现大规模.多样性的极速增长 ...

  5. SuperEdge 云边隧道新特性:从云端SSH运维边缘节点

    背景 在边缘集群的场景下边缘节点分布在不同的区域,且边缘节点和云端之间是单向网络,边缘节点可以访问云端节点,云端节点无法直接访问边缘节点,给边缘节点的运维带来很大不便,如果可以从云端SSH登录到边缘节 ...

  6. 【华为云】MRS journey node HDFS 不一致

    HDFS JournalNode数据不同步告警 恢复指导 1 停止有问题的 JN 实例 2 清楚无效数据 登录有问题JN的后台,使用omm用户操作以下命令: cd /srv/BigData/journ ...

  7. 华为云 MRS 基于 Apache Hudi 极致查询优化的探索实践

    背景 湖仓一体(LakeHouse)是一种新的开放式架构,它结合了数据湖和数据仓库的最佳元素,是当下大数据领域的重要发展方向. 华为云早在2020年就开始着手相关技术的预研,并落地在华为云 Fusio ...

  8. FusionInsight MRS:你的大数据“管家”

    摘要:4月24日-26日,HDC.Cloud2021在深圳大学城成功举办,华为云FusionInsight MRS云原生数据湖带来最懂行的大数据解决方案,为政企客户提供湖仓一体.云原生的大数据解决方案 ...

  9. HDFS 细粒度锁优化,FusionInsight MRS有妙招

    摘要:华为云FusionInsight MRS通过FGL对HDFS NameNode锁机制进行优化,有效提升了NameNode的读写吞吐量,从而能够支持更多数据,更多业务请求访问,从而更好的支撑政企客 ...

随机推荐

  1. $@ 与 $* 差在哪?-- Shell十三问<第九问>

    $@ 与 $* 差在哪?-- Shell十三问<第九问> 要说 $@ 与 $* 之前,需得先从 shell script 的 positional parameter 谈起.我们都已经知道 ...

  2. 《基于Kubernetes舵手集群的设计与实现》

    前言 <基于Kubernetes舵手集群的设计与实现>是我的毕业设计项目.本系统采用Kubernetes容器编排.基于Jenkins\Gitlab的CICD技术.EFK日志收集.Prome ...

  3. [树形DP]加分二叉树

    加 分 二 叉 树 加分二叉树 加分二叉树 题目描述 设一个n个节点的二叉树tree的中序遍历为(l,2,3,-,n),其中数字1,2,3,-,n为节点编号.每个节点都有一个分数(均为正整数),记第j ...

  4. 201871030134-余宝鹏 实验二 个人项目一 《D{0-1}KP》项目报告

    项目 内容 课程班级博客链接 班级博客 这个作业要求链接 作业要求 我的课程学习目标 1.掌握软件项目个人开发流程2.掌握Github发布软件项目的操作方法 这个作业帮助我在哪些方面实现学习目标 1. ...

  5. OO第二单元——电梯作业总结

    前言 本单元作业主要以设计电梯来实现多线程编程.本章主要学习了如何使用多线程以及如何确保多线程安全,从电梯的调度策略中学会了如何简单地使用synchronized锁来控制线程安全. 首先,明确锁的两个 ...

  6. Elasticsearch核心技术与实战,性能是真牛

    Elasticsearch 是一款非常强大的开源搜索及分析引擎.结合 Kibana.Logstash和Beats,Elasticsearch 还被广泛运用在大数据近实时分析,包括日志分析.指标监控.信 ...

  7. 理解和解决Java并发修改异常:ConcurrentModificationException

    參考文獻:https://www.jianshu.com/p/f3f6b12330c1 文獻来源:简书 关键字: Java Exception遇到异常信息Exception in thread &qu ...

  8. TP6学习笔记一:安装与基本配置

    1 说明与概述 1.1 说明 以下内容大部分来源于TP6完全开发手册,以手册为主附上个人理解,仅作学习使用. 1.2 概述 第一篇学习笔记,主要记录TP6的基础,包括TP6简介,安装,Hello Wo ...

  9. 如何查看spark版本

    使用spark-shell命令进入shell模式

  10. Searching the Web UVA - 1597

      The word "search engine" may not be strange to you. Generally speaking, a search engine ...