4月20日,袋鼠云成功举行了以“数实融合,韧性生长”为主题的2023春季生长大会。会上,袋鼠云自主研发的一站式大数据基础软件——数栈V6.0产品矩阵全新发布。对旗下大数据基础平台、大数据开发与治理、数据智能分析与洞察三大模块的全线产品进行全新升级,并重点发布了企业级数据计算与存储平台——自研大数据引擎 EasyMR

今年的集体学习会议上强调:“要打好科技仪器设备、操作系统和基础软件国产化攻坚战,提升国产化替代水平和应用规模,争取早日实现用我国自主的研究平台、仪器设备来解决重大基础研究问题。”

袋鼠云作为国内领先的数字化基础软件与应用服务商,自始自终坚持自主创新,专注大数据基础软件研发,利用先进技术赋能更多行业客户数字化转型,助力发掘和释放数据资源的潜在价值。

全新发布数栈V6.0产品矩阵

袋鼠云产研负责人思枢首先介绍了数栈V6.0全新产品矩阵的落地进展以及产品升级方向。通过对多年数字化实践沉淀的梳理、重构和升级,数栈V6.0形成了大数据基础平台层+大数据开发与治理层+数据分析与洞察平台层的全新数字化产品矩阵,以迭代的新组合、新能力、新技术,为数实融合应用注入更强劲的“数栈”驱动力。

整个矩阵中,大数据基础平台是底座,包含全新升级的两款产品:大数据计算引擎EasyMR湖仓一体EasyLake。EasyMR 主要提供 Hadoop、Spark、Flink、HBase、Trino 等一键式组件的安装、运维、部署。EasyLake 则主要提供面向数据湖的统一元数据管理,及数据服务和分析。大数据基础平台旨在为各行业的数字化转型提供随时可用的强劲动力和坚实基础。

往上看,中间层大数据开发与治理,它融合了 DataOps 数据理念,包含离线开发BatchWorks实时开发StreamWorks数据服务DataAPI数据资产DataAssets指标管理DataIndex 五大模块。以自主可控、安全创新为技术内核,将全域数据资产进行汇聚、加⼯、治理、服务、分析,为客户提供安全、稳定、易⽤的⼤数据平台,加速释放数据价值,赋能数智应用。

最上层的数据智能分析与洞察层,提供客户数据洞察UserInsight数据可视化分析EasyBI两大应用功能。助力企业构建以业务价值为导向的数据分析与应用体系,驱动业务增长。

以下为数栈本次重点升级的大数据计算引擎产品 EasyMR,根据思枢演讲整理而成。

EasyMR:大数据计算引擎

EasyMR 的丰富功能

EasyMR 内包含 Hadoop、Hive、Spark、Trino、HBase、Kafka 等计算组件,完全兼容 Apache 开源生态,一键开启 LDAP+Kerberos+Ranger 认证权限体系,支持库/表/行/列级权限控制,提供企业级安全管控。

EasyMR 的集群管理包括以下五大功能:

· 主机管理:可以对接x86服务器、ARM 服务器、Kubernetes 集群等主机类型,进行包括批量接入、主机下架、主机监控等在内的主机操作

· 安装部署:包含自动部署、手动部署、补丁包升/降级、组件回滚等丰富功能

· 集群运维:包含组件启停、健康检查、服务日志查看等功能,以及根据客户业务侧的使用情况实现动态扩缩容

· 监控告警:随着业务的运行,发生主机运行的异常情况,能够实现自动告警

· 基础管理:包括用户管理、操作权限管理、审计日志等功能

EasyMR 的丰富功能能够帮助企业,更全面、更智能、更安全地运用数据,加速企业数字化转型。

EasyMR 的核心特性

● 信创国产化

EasyMR 完成了与主流信创生态厂商的适配互认工作,支持统信UOS、龙蜥、麒麟等国产操作系统,鲲鹏920、飞腾等国产芯片,长城擎天CF520、华为公有云等国产服务器的适配,以及大部分国产数据库、国产中间件的适配。

EasyMR 的更多信创兼容情况请看下图:

● 开源/自主可控

EasyMR 作为袋鼠云自研的大数据基础平台,其大数据组件100%基于开源 Hadoop,完全兼容 Apache 开源生态,与开源社区同步迭代,时刻保持技术的领先性。并且 EasyMR 对 Spark、Flink、Trino、Iceberg 等部分组件特性进行优化增强,回馈社区,以开放心态共建 Hadoop 生态

● 运维托管服务

EasyMR 提供大数据集群监控告警、安全保障、数据质量保障以及平台运维服务;提供定期巡检、深度体检、成本优化以及高阶调优服务;以及提供包括大数据集群迁移、集群容灾建设、架构设计规划等在内的实施服务,全链路一站式运维托管服务

● 安全

通过 LDAP+Kerberos+Ranger 这套认证权限体系,对库/表/行/列级进行权限控制,实现企业级安全管控。

EasyMR 国产化适配:中间件,元数据库

Hive 的子组件 Hive Metastore,在开源的方案中通过 redis 进行缓存加速,而现在可以通过宝兰德BCS 这样的国产中间件对 redis 进行国产化替代。

Hive Metastore 本身的元数据信息在开源方案中存储在 MySQL 和 OracleSQL 中,现在也可以通过适配国产数据库,如 TDSQL、OceanBase,对开源数据库进行替代。基于此,EasyMR 实现真正的国产化,完全自主可控。

EasyMR 深知只有实现关键技术的自主化、国产化,才能真正实现技术创新,攻克“卡脖子”难题。

EasyMR 对大数据组件的功能增强

袋鼠云作为国内领先的数字化基础软件与应用服务商,十分重视强化产品的基础能力和技术能力,在开源技术的基础上,EasyMR 对 Spark、Flink、Trino、Iceberg 等多个大数据核心组件进行了功能及性能增强。具体优化见下图:

仅在2022年袋鼠云技术同学就完成了上百次的 commit,为 Hadoop 生态的技术发展贡献了属于袋鼠云的力量。

赠人玫瑰手有余香,回馈社区的同时袋鼠云实现了对整个 Hadoop 体系核心代码的完全自主掌握,对于 EasyMR 大数据平台迁移、大数据组件维保等做到了100%自主可控。

EasyMR 自主研发能力:技术开源

从2016年数栈V1.0发布开始,到如今的数栈V6.0,数栈已经历经了七年六个大版本的迭代实践。随着对技术能力的不懈探索,数栈内部也沉淀了一些优秀的大数据组件,如流批一体的数据同步集成组件ChunJun,DAG分布式任务调度组件Taier、大数据平台运维组件ChengYing等,这些组件数栈已经全部贡献给了Github,下面是袋鼠云开源的地址,欢迎使用。

Github地址:https://github.com/DTStack

技术无界,创新不止。袋鼠云数栈技术团队连续两年荣获“年度优秀开源技术团队”的称号,ChunJun 也顺利晋级“2022 年中国开源创新大赛”决赛,并荣获“优秀开源项目/社区”奖项。这些鼓励都源于数栈技术团队出众的产品技术能力和自主研发能力。

CDP/CDH 平滑迁移到 EasyMR 解决方案

基于国家对于国产信创的政策要求,以及 CDH 停止服务(EoS),用户没办法再获取售后支持的大背景,各行各业的大数据平台底座需要进行国产化替代的需求越来越强烈。基于此,数栈支持 CDP/CDH 平滑迁移到 EasyMR 的解决方案,大大降低企业迁移成本低。

生产业务不能停,该方案支持双轨运行,即客户的原 CDH 集群和信创的 EasyMR 集群可以同时运行。整个迁移过程操作简单,配置灵活,通过4步即可完成所有的迁移工作。

第一步,进行计算平台和开发套件的替换。

第二步,进行数据迁移。包括历史数据和元数据的迁移,在迁移过程中,EasyMR 支持数据检验,保证在数据迁移过程中的数据一致。

第三步,执行任务迁移。包括采集任务、数据加工任务、任务依赖关系以及分析引擎。

第四步,业务切割。包含集群的切换,及老服务器下线,新服务器上线等动作切换,最终达到 CDP/CDH 平滑迁移到 EasyMR 的目的,并且实现对客户侧的业务无感知。

EasyMR 积累了大量的迁移成功案例,经验丰富,可以保障整个迁移过程安全可靠。

Hadoop 平滑升级解决方案

大数据组件每年的版本更新速度比较快,不少企业还停留在 Hadoop2.0 的阶段。许多客户想升级到 Hadoop3.0 版本,体验新的特性和性能优化,但是客户的业务在版本更新中又不能停止,这时应该怎么做?

EasyMR 可实现节点的动态替换,将一个节点先升级到 Hadoop3.0 的节点,在这个节点上印证没有问题之后,再进行剩下节点的逐步替换,这样就真正实现了 Hadoop 的无感知平滑升级。

EasyMR 的实践应用

在介绍完 EasyMR 的具体功能和特性之后,下文将为大家介绍2个 EasyMR 的经典实践应用落地,更深地感受 EasyMR 是如何帮助企业更高效、平滑、安全地实现实现国外进口产品的国产化替代。

某全国性股份制商业银行:CDH 迁移至 EasyMR

某全国性股份制商业银行,为解决分行数据应用建设效率差等问题,数栈帮助该客户实现了 CDH 平滑迁移至 EasyMR,并且为该客户建立了“总行统一调度+分行数据协同共享”的数据应用云平台

EasyMR 使用 Trino 替换 Impala,解决了客户 Impala 内存过度占用导致节点宕机的问题,提升查询性能,实现了资源动态隔离;并且采用「云平台」的模式,总行+各个分行是平台上的单独租户,底层存储、计算资源共享提升数据下发效率,数据权限隔离保证安全,不用再担心出现分行数据误删除、丢失等安全问题。EasyMR 兼容信创生态体系,平滑迁移至国产化环境,符合金融行业的信创国产化要求。

通过 EasyMR 大数据基础平台的建设,该全国性股份制商业银行实现了成本管理和业务管控的双效提升。

某支付行业云服务品牌:EasyMR + 数栈Saas化

金融行业正逐渐从数字化时代迈向智能化时代,该客户的需求是将 EasyMR 和数栈进行 Saas 化,依托数据中台产品,赋能客户,加快走向智能化时代的步伐。

面对客户需求,数栈 + EasyMR 与云平台的网络架构、服务器、云平台的统一权限管控等各项内容实现全面兼容适配,保证在客户开通权限资源后,依然能够保障 EasyMR 的稳定运行。并且数栈 + EasyMR 实现了「订购—自动化部署—一键扩缩容」等各类操作。

作为大数据基础软件国产化的重要推动者之一,数栈还拥有大量成熟大数据解决方案,可以更好地支持各行业智能化、数字化应用建设。

首发数栈V6.0产品白皮书

此外,会上还发布了《数栈产品白皮书》:从数字技术、产品能力、应用实践、服务支持四个方面进行深度研判,针对性克服数字化转型短板,从数据治理、湖仓一体、数据集成、DataOps 等八个方面进行解决方案解读,重点提升客户数据管控能力。此外,本白皮书总结了有效的大数据基础软件建设经验,为各行业企业的数字化转型提供参考和指导。

欢迎大家扫码进行免费获取。

数栈始终坚持自主可控,积极致力于帮助客户打造国产创新的企业级大数据基础软件,帮助客户夯实数据基座,建立从数据获取生产到数据消费利用的全生命周期管理体系,使数据“可见、可用、可管”,洞察数字化机遇,明确转型方向,创造数据新价值。

今后,数栈产品也将更加贴合实际场景,用数智化方式解题,践行“用数据产生价值”的使命。

《数栈产品白皮书》:https://www.dtstack.com/resources/1004?src=szsm

《数据治理行业实践白皮书》下载地址:https://www.dtstack.com/resources/1001?src=szsm

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=szbky

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术qun」,交流最新开源技术信息,qun号码:30537511,项目地址:https://github.com/DTStack

数栈V6.0全新产品矩阵发布,数据底座 EasyMR 焕新升级的更多相关文章

  1. LightningChart JS v.3.3.0全新版本现已发布!

    LightningChart JS v.3.3.0已经发布啦!!! 欢迎了解更多关于最新的性能改进.新的用户界面功能和新的图表类型的信息! WebGL兼容性和新的UI功能 WebGL是Lightnin ...

  2. 袋鼠云研发手记 | 开源·数栈-扩展FlinkSQL实现流与维表的join

    作为一家创新驱动的科技公司,袋鼠云每年研发投入达数千万,公司80%员工都是技术人员,袋鼠云产品家族包括企业级一站式数据中台PaaS数栈.交互式数据可视化大屏开发平台Easy[V]等产品也在迅速迭代.在 ...

  3. 袋鼠云研发手记 | 数栈·开源:Github上400+Star的硬核分布式同步工具FlinkX

    作为一家创新驱动的科技公司,袋鼠云每年研发投入达数千万,公司80%员工都是技术人员,袋鼠云产品家族包括企业级一站式数据中台PaaS数栈.交互式数据可视化大屏开发平台Easy[V]等产品也在迅速迭代.在 ...

  4. 袋鼠云出品!数栈UI 5.0全新体验升级,设计背后的故事

    我们是袋鼠云数栈 UED 团队,致力于打造优秀的一站式数据中台产品.我们始终保持工匠精神,探索前端道路,为社区积累并传播经验价值. 前言 数栈作为云原⽣⼀站式⼤数据开发平台,从2016年发布第⼀个版本 ...

  5. 开源微信管家平台——JeeWx 捷微4.0 微服务版本发布,全新架构,全新UI,提供强大的图文编辑器

    JeeWx捷微4.0   微服务版本发布^_^ 换代产品(全新架构,全新UI,提供强大的图文编辑器) JEEWX 从4.0版本开始,技术架构全新换代,采用微服务架构,插件式开发,每个业务模块都是独立的 ...

  6. [转帖]银河麒麟Kydroid 2.0全新发布:原生支持海量安卓APP

    银河麒麟Kydroid 2.0全新发布:原生支持海量安卓APP https://news.cnblogs.com/n/652299/将手机操作系统 转移到 桌面 跟chromebook 类似的策略吧 ...

  7. FineUIPro v6.0.0 大版本更新,快来围观!

    本月末(2019-09-20),我们会发布激动人心的 FineUI v6.0.0 版本,这个版本将带来一系列的重要更新! 在列举新版本特性之前,我们先来回顾下每次发布大版本的关键时间点: v1.0.0 ...

  8. (转)重磅出击:MongoDB 3.0正式版即将发布

    MongoDB 今天宣布 3.0 正式版本即将发布.这标志着 MongoDB 数据库进入了一个全新的发展阶段,提供强大.灵活而且易于管理的数据库管理系统. MongoDB 3.0 在性能和伸缩性方面都 ...

  9. 【转】MongoDB 3.0 正式版本即将发布,强力推荐

    MongoDB 今天宣布3.0 正式版本即将发布.这标志着 MongoDB 数据库进入了一个全新的发展阶段,提供强大.灵活而且易于管理的数据库管理系统. MongoDB 3.0 在性能和伸缩性方面都有 ...

  10. 基于数据库的代码自动生成工具,生成JavaBean、生成数据库文档、生成前后端代码等(v6.0.0版)

    TableGo v6.0.0 版震撼发布,此次版本更新如下: 1.UI界面大改版,组件大调整,提升界面功能的可扩展性. 2.新增BeautyEye主题,界面更加清新美观,也可以通过配置切换到原生Jav ...

随机推荐

  1. element-ui和ant-design-vue 数字输入框只能输入大于等于1的整数

    限制输入的是大于等于1的整数 <template> <div> <h1>ant-design-vue 1.xx</h1> <a-input-num ...

  2. 通过 openpyxl 操作 excel 表格

    博客地址:https://www.cnblogs.com/zylyehuo/ STEP1: 导入相关库 import os from openpyxl import load_workbook STE ...

  3. Nginx 配置 HTTPS 完整过程

    配置站点使用 https,并且将 http 重定向至 https. 1. nginx 的 ssl 模块安装 查看 nginx 是否安装 http_ssl_module 模块. $ /usr/local ...

  4. 【Maven】在 Idea 中使用 Maven

    在 Idea 中使用 Maven 1 在 Idea 中配置 Maven Idea 中也自带 Maven 插件,而且我们也可以给自带的 Maven 插件进行配置,所以我们可以使用自带的 Maven,也可 ...

  5. 【C语言】格式符

    对于很多人来说,用格式符都是熟能生巧,而不清楚为什么是那样的格式符,所以我在这列了一个表,翻译了其对应的英文. 进制名称 英文 缩写 二进制 Binary B 八进制 Octal O 十进制 Deci ...

  6. 【Java】Java UDP 套接字编程乱码问题

    零.发现问题 用Java写了个UDP收发程序,发现中文有问题! package socket; import java.io.IOException; import java.net.Datagram ...

  7. 创建windows脚本bat/cmd或jar为windows服务完整教程

    ​ 一.将windows bat/cmd脚本创建为windows服务 1.下载winsw工具 https://gitee.com/colinisg/winsw/releases/download/v2 ...

  8. 继承 QPaintEngine 利用 QSvgRenderer 从SVG 图片中提取路径(QPainterPath)的方法

    SVG 作为为可缩放矢量图形(Scalable Vector Graphics),易于编辑和维护,基于XML的文本文件存储,在网页设计.图标制作.数据可视化和其他图形相关的领域应用广泛.在应用工程中总 ...

  9. C#/.NET/.NET Core技术前沿周刊 | 第 35 期(2025年4.14-4.20)

    前言 C#/.NET/.NET Core技术前沿周刊,你的每周技术指南针!记录.追踪C#/.NET/.NET Core领域.生态的每周最新.最实用.最有价值的技术文章.社区动态.优质项目和学习资源等. ...

  10. 一、C语言概述

    声明 本文内容大多取自<高级语言程序设计一书>,为本人学习笔记记录,切勿用于商业用途. 第一节 计算机发展 电子计算机已经历的四个发展时代: 第一代:20 世纪 50 年代,主要采用真空电 ...