袋鼠云思枢:数驹DTengine,助力企业构建高效的流批一体数据湖计算平台
7月28日,以“数智进化,现在即未来”为主题的袋鼠云2022产品发布会于线上正式开幕。发布会上,袋鼠云宣布将集团进行全新升级:从“数字化基础设施供应商”,升级为“全链路数字化技术与服务提供商”,并由袋鼠云产研负责人思枢对外正式发布了全新的四大产品体系:数据智能分析与洞察平台“数雁EasyDigit”、低代码数字孪生平台EasyV、一站式大数据开发与治理平台“数栈DTinsight”和极速湖仓引擎“数驹DTengine”。
他表示,“当前,数字化转型已然成为几乎所有企业的必选项,越来越多的企业将数据视为核心资产,加快数字化转型的战略部署。行业的变革、客户的需求不断督促着我们向前,袋鼠云产品研发迭代升级的脚步从未停止。
回顾过去,袋鼠云秉承让数据创造价值的使命,在大数据领域的多个方面实现突破;在未来,袋鼠云要深耕行业,实现业务与数据的双向驱动,进一步夯实企业数字化转型的数据基座,最大化帮助企业释放数据价值。”
思枢重点向大家分享了全新四大产品体系中的坚实底座——袋鼠云自主研发的极速湖仓引擎「数驹DTengine」。
以下为思枢演讲全文:
大家好,我是袋鼠云产研负责人——思枢。非常感谢大家参与袋鼠云2022产品发布会,也很荣幸能够有机会在这里向大家介绍袋鼠云焕新升级后的系列产品。
首先想问大家一个问题,这也是很多数字化企业面临的问题:数据革命时代来临时,如何加快数据价值化呈现?
在这个过程中会面临4个问题:一是部署问题,如何简单快速部署一套大数据组件;二是数据源接入问题,如何对接多源多种异构的数据源,这些海量的结构化,半结构化和非结构化数据如何存储;三是数据处理效率问题,在面对这些海量的数据时,如何降低数据开发处理的门槛,并提高数据分析的效率;四是数据安全问题,数据透出的时候如何做到精细化权限管控。
有理由相信,许多数字化企业都迫切需要一套系统来解决上述问题,而数驹也正是由此而生。
数驹是什么?
下面首先请大家先重点看一下数驹的产品架构图:
数驹主要包括两个平台产品:一是大数据基础平台——EasyMR,负责Hadoop、Hive、Spark、Flink、Kafka、Hbase等大数据组件的自动化集群部署、监控、迁移、升级等功能。
EasyMR除了能监管Hadoop生态体系组件,也可以根据EasyMR提供的Schema规范自动编排,快速集成客户侧自定义的开发应用。
所以使用EasyMR部署一套Hadoop组件,即使是零技术基础的小白,也可以通过可视化的界面进行一步步的引导操作,半个小时就能完成部署。
这里也说下EasyMR的开源版ChengYing已经在Github上开源,大家有兴趣可以下载试用。
Github:https://github.com/DTStack/chengying;
Gitee:https://gitee.com/dtstack_dev_0/chengying
二是数据湖平台——DataLake,在存储层通过流批一体数据同步框架ChunJun,将结构化、半结构化和非结构化数据统一高效入湖,入湖后对数据文件做统一的规范管理和高效索引,极大的提高查询效率。
在元数据层做统一的Catalog管理,Schema的自动推导,分区的动态生成和表结构演进。并且DataLake在计算层可以支持Flink、Spark、Trino等多种引擎做跨数据存储的联邦查询。
让业务响应更加及时,让企业运转更加高效,数驹诞生的目的就是让企业产生的所有数据,都能够被采集、被存储、被计算,赋予数据全新价值。
数驹好在哪?
除了数据高效入湖、联邦查询外,数驹还有其他几大领先产品特性和技术内核,接下来进行简单分享,帮助大家更好的理解数驹。
产品特性
· 数据入湖:集成流批一体框架ChunJun一键生成湖表信息
· 联邦查询:内置多种数据连接器高效索引,跨源联合分析查询
· 自主可控,安全保障:360°数据访问安全体系,细粒度的数据权限划分
· 极致便捷:一站式服务,开箱即用可视化操作
· 流批一体:统一存储逻辑,统一SQL语言,支持流批一体化分析
· 兼容并蓄,优化提升:对Spark、Flink、Trino等计算组件深度优化加速计算
袋鼠云一直以来都希望帮助企业充分发挥数字化能力,打造数字经济时代助力企业智能化“蝶变”的利器。基于此目标,我们为数驹打造的流批一体主要应用场景,一套代码实现多种业务场景,高效分析。
企业平台在支撑上层多种业务应用的过程中,依赖多种计算任务,包含离线和实时,二者独立运行,业务逻辑相同,但因数据延迟、代码语言差异等导致最终结果存在差异,需要额外的人力进行两套计算引擎的维护,造成大量的成本损耗。
基于数驹平台的数据存储管理能力,可以同时支持上层计算引擎批和流的计算能力,帮助企业构建流批一体的数仓平台,实现一套架构同时满足流批业务操作,降低学习、使用、维护成本,提高开发效率。
数驹将如何?
数驹作为袋鼠云今年推出的全新产品,近期有四大规划:
未来规划
·湖表管理优化:周期性的清理过期数据、快照,合并压缩小文件提升读取表的性能
·索引加速:通过bloom index、data skipping index、zorder index等一系列索引构建,提升数据湖查询性能,做到毫秒级响应
· 智能优化:相同特征的查询请求可以直接通过查询缓存和湖表数据变更快速返回结果,做到智能加速
· 智能运维:对事件、监控等运维对象深入透视,通过规则、算法等决策服务及时发布异常警告、自动进行运维决策
作为袋鼠云全新产品矩阵的排头兵,数驹将不断进化,继续在追求更极致的查询效率,更快捷的部署运维的道路上砥砺前行,坚持为企业数字化转型保驾护航。
袋鼠云思枢:数驹DTengine,助力企业构建高效的流批一体数据湖计算平台的更多相关文章
- 袋鼠云研发手记 | 数栈·开源:Github上400+Star的硬核分布式同步工具FlinkX
作为一家创新驱动的科技公司,袋鼠云每年研发投入达数千万,公司80%员工都是技术人员,袋鼠云产品家族包括企业级一站式数据中台PaaS数栈.交互式数据可视化大屏开发平台Easy[V]等产品也在迅速迭代.在 ...
- 袋鼠云出品!数栈UI 5.0全新体验升级,设计背后的故事
我们是袋鼠云数栈 UED 团队,致力于打造优秀的一站式数据中台产品.我们始终保持工匠精神,探索前端道路,为社区积累并传播经验价值. 前言 数栈作为云原⽣⼀站式⼤数据开发平台,从2016年发布第⼀个版本 ...
- 华为云FusionInsight MRS:助力企业构建“一企一湖,一城一湖”
摘要:华为云FusionInsight MRS新一代的数据湖,让大数据越用越快.越用越易.越用越稳.越用越省!让数据价值近在眼前! 10月30日,以"携手共赢·数创未来"为主题的第 ...
- Zoho Projects助力企业项目高效管理
挑选项目管理工具,就和人买衣服.买鞋子是一样的,除了看外观,最重要的是合适.随着项目管理工具的不断发展,市面上有很多工具都非常优秀,也能解决企业.团队的实际需求. 对于项目管理来说,最重要的在于人员协 ...
- 使用 Iceberg on Kubernetes 打造新一代云原生数据湖
背景 大数据发展至今,按照 Google 2003年发布的<The Google File System>第一篇论文算起,已走过17个年头.可惜的是 Google 当时并没有开源其技术,& ...
- Apache Hudi表自动同步至阿里云数据湖分析DLA
1. 引入 Hudi 0.6.0版本之前只支持将Hudi表同步到Hive或者兼容Hive的MetaStore中,对于云上其他使用与Hive不同SQL语法MetaStore则无法支持,为解决这个问题,近 ...
- 袋鼠云研发手记 | 开源·数栈-扩展FlinkSQL实现流与维表的join
作为一家创新驱动的科技公司,袋鼠云每年研发投入达数千万,公司80%员工都是技术人员,袋鼠云产品家族包括企业级一站式数据中台PaaS数栈.交互式数据可视化大屏开发平台Easy[V]等产品也在迅速迭代.在 ...
- 华夏基金X袋鼠云:基金业数字化转型,为什么说用户才是解题答案?
"精准营销是以客户为中心,运用各种可利用的方式,在恰当的时间,以恰当的价格,通过恰当的渠道,向恰当的顾客提供恰当的产品." 这是学者许瑾在科特勒精准营销理论的基础上,从实践的角度对 ...
- 袋鼠云研发手记 | 袋鼠云EasyManager的TypeScript重构纪要
作为一家创新驱动的科技公司,袋鼠云每年研发投入达数千万,公司80%员工都是技术人员,袋鼠云产品家族包括企业级一站式数据中台PaaS数栈.交互式数据可视化大屏开发平台Easy[V]等产品也在迅速迭代.在 ...
- 袋鼠云旗下新公司云掣科技启航,深耕云MSP业务助推企业数字化转型
1983年3月15日,国际消费者联盟组织将3月15日确立为国际消费者权益日. 2019年3月15日,袋鼠云举办三周年年会. 一生二,二生三,三生万物.植树节后,万物生长. 年会现场,袋鼠云宣布成立新公 ...
随机推荐
- 利用队列的内置模块(deque)模拟 Linux 下的 tail 命令(输出文件中最后几行的内容)
博客地址:https://www.cnblogs.com/zylyehuo/ # -*- coding: utf-8 -*- from collections import deque def tai ...
- 什么是VMware vSphere
VMware vSphere不是特定的产品或软件.VMware vSphere是整个VMware套件的商业名称.VMware vSphere堆栈包括虚拟化,管理和界面层.VMware vSphere的 ...
- [SDR] 蓝牙专项教程 —— 从 0 到 1 教小白基于 SDR 编写蓝牙协议栈
目录 前言 一.开题之作 二.动态发送 BLE 广播包 三.基于 PlutoSDR 实现 BLE 广播包的收发一体能力 四.基于 PlutoSDR 的 BLE 广播包的收发实现接入涂鸦智能 APP 教 ...
- 行为识别TSM训练ucf101数据集
序言 最近有个行为检测的需求,打算用行为识别做,纯小白入这个方向,啃了两周的TSM原理和源码,训练好自己的数据集后,发现好像没法应用到自己的需求场景??玛德!算了,还是要记录一下.原理就没别要讲了,网 ...
- L2-3 锦标赛
先画图理解 具体就是先存入每个左右子树的lose,然后存入根的lose和win 然后往下建树,左右的win也可以交换 可以学习这样的完全二叉树存储结构 #include <bits/stdc++ ...
- exe4j工具使用-jar包转exe可执行文件
exe4j介绍 exe4j可以将java打包的jar包转为exe可执行文件,实现在没有jdk环境下运行jar包. 下载链接 https://pan.baidu.com/s/1sfEJyxPABmhsl ...
- shell子字符串截取
http://c.biancheng.net/view/1120.html Shell 截取字符串通常有两种方式:从指定位置开始截取和从指定字符(子字符串)开始截取. 从指定位置开始截取 这种方式需要 ...
- 解决React Warning: Function components cannot be given refs. Attempts to access this ref will fail. Did you mean to use React.forwardRef()?
问题 当我使用如下方式调用组件子组件UploadModal并且绑定Ref时React报错"Warning: Function components cannot be given refs. ...
- java处理http请求之Apache httpClient入门教程
说明 本文示例代码基于 4.5.13 版本 转载请注明出处:https://www.cnblogs.com/qnlcy/p/15378446.html 一.项目介绍 Apache 提供用来做http请 ...
- 【UEFI】PEI阶段从概念到代码
总述 UEFI开发过程中,BIOS工程师主要关注点和工作都在于PEI和DXE阶段. DXE阶段是我们的主战场,可以进行丰富且大量的功能驱动开发. 实际上,在UEFI Spec中,就指出 ---- Th ...