在7月28日的袋鼠云2022产品发布会上,基于对现在与未来的畅想,袋鼠云产研负责人思枢正式发布了全新的四大产品体系。

其中的数栈DTinsight,相信大家都很熟悉了,不同于数驹这位新朋友,数栈作为袋鼠云和大家经常见面的“老朋友”,在保持初心的同时,这次也有了一些不一样的变化。

作为袋鼠云打造的一站式大数据开发与治理平台——数栈DTinsight,包括离线数据开发、实时数据开发、数据服务、数据资产四款产品,在数据采集、加工、统一服务的基础上,将全域数据资产汇聚、数据治理融合其中,极大地缩短了数据价值的萃取过程,提高企业提炼数据价值的能力。

以下为思枢演讲全文:

接下来我来为大家介绍一下“老朋友”数栈DTinsight,如何面向数据提供一站式数据开发与治理能力,帮助企业实现数据价值呈现。

一、惊喜变化 数栈全新起航

早期企业在进行数据价值化建设过程中,为了更好的服务上层业务需求,从业务需求出发,驱动后端业务系统及对应数据库建设,这在一定程度上满足了上层业务需求。但随着业务需求的增多,业务复杂性的增加,相关的问题也暴露了出来:如超过TB级以上海量数据的分析能力差,各个业务板块数据进行融合分析难度高,面向多变市场的灵活性业务需求难满足等。

原有的基于业务需求快速迭代开发而形成的烟囱式业务系统,无法满足当下数字化场景需求,迫切需要一个能够处理多源异构数据源、PB级数据存储、强大分析引擎、标准数据规范,且灵活便捷的全新“系统”,而数栈DTinsight也由此而生。



数栈DTinsight,对标一站式数据开发与治理,在面向多源异构数据源时,通过数据汇聚能力实现全域数据打通,而后通过数栈多年经验形成的数据治理方法论,在数据开发过程中,形成数据资产,完成数据治理工作,并通过数据服务能力,将高质量的数据高效共享,为报表分析、决策分析等提供数据支撑,赋能各行各业。

在整个过程中数栈聚焦数据问题,打通数据链路,将全域数据资产汇聚,统一数据治理融合其中,缩短数据价值的萃取过程,增强企业提炼数据价值的能力,为企业提供一站式解决方案。

请大家看数栈的产品架构图:



在数栈整个产品的设计过程中,主要分为四大模块,分别是用于批任务的离线开发平台、用于实时任务的实时开发平台、用于数据治理的数据资产平台、用于数据服务的数据共享服务平台。

整个数栈通过集成自研的数据集成框架ChunJun对接30+异构数据源,包括传统的关系型数据库、NoSQL数据库HBase、文档数据库MongoDB、国产数据库达梦等,将数据统一存储在数驹或其他大数据平台,包括开源Hadoop体系以及商业版CDH、TDH、FI等,也可以存储在数仓引擎中包括GP、TiDB等,而后在这之上开展基于DataOps理念的数据价值化流程。

同时数栈各个板块基于解耦化的设计,能够基于客户需求灵活搭配,如离线+API完成传统数仓体系搭建,离线+资产+API构建数据治理体系,实时+API构建实时数仓等。

在这里也重点讲下数栈在DataOps理念下的实践。DataOps是一种协作式数据管理的实践,致力于改善组织中数据管理者与使用者之间数据流的沟通,集成和自动化。



数据开发同学在完成一个ETL任务的过程中,一般需要经过数据源的准备—数据同步—数据检查—数据处理—数据校验—数据分析这6个步骤。在这过程中:

● 持续开发

数栈提供了SQL IDE、Gitlab等开发工具,来支持敏捷的数据开发任务;

● 连续测试

数栈提供丰富的sql测试集和性能测试,达到保障数据准确性的作用;

● 持续部署

数栈提供一键式测试任务到生产任务的发布和大规模工作流的自动化编排;

● 数据治理

数栈提供元数据的自动化生命周期管理和全链路的数据血缘解析。

二、五大特性 数栈核心理念

说了这么多,接下来重点聊聊数栈的产品特性,主要包含以下几点:

● DataOps

基于DataOps设计理念,数栈实现了数据全生命周期的质量监管和数据开发流程规范,为数据治理保驾护航;

● 数据还原

数栈不仅仅能够实现数据实时同步,也能实现源端数据结构到目的端的实时还原,真正做到数据复现,完整统一;

● 金融级安全

数据的全域打通在加快了数据价值化呈现进程的同时,也放大了数据安全隐患问题。数栈基于系统安全、数据安全、服务安全和行为审计四大维度,实现数据安全管控,操作有迹可循,避免数据泄露,保证数据安全高效地共享服务;

● 全域数据治理

通过打通数据壁垒,建立基于统一数据标准和数据模型,监控数据质量,形成高质量的数据资产,为上层业务提供便捷的数据服务,并能生成质量报告,不断优化数据,持续赋能数字化场景;

● 兼容开放

数栈秉承开放兼容的设计理念,兼容多种底层计算引擎包括开源Hadoop体系、商业Hadoop版本和多种数仓引擎,在国产信创道路上兼容多种国产操作系统、国产数据库、国产服务器以及国产芯片。同时本着基于开源回馈开源的思想,数栈也将核心组件进行了开源,包括数据集成框架ChunJun、百万级调度引擎Taier。

三、赋能业务 数栈应用场景

说完产品特性,接下来通过介绍三个数栈的实际应用场景,以点及面地帮助大家更好得理解数栈。

数栈X金融场景

我们都知道随着移动APP的兴起,我们的金融交易不再局限于银行柜台,通过手机就可以实现各种各样的金融活动,这加大了金融交易的安全隐患,社会上因金融诈骗而被骗取钱财的新闻屡见不鲜。如何保证在海量金融交易过程中,进行金融交易行为的风险评估,保证消费者的权益是时下金融客户急需解决的问题。传统的数据分析模式,因数据标准不统一、数据质量差,导致数据分析逻辑复杂,耗时周期长,无法做到及时反馈结果,等发现时已为时已晚。

袋鼠云帮助金融客户借助数栈一站式数据开发与治理的能力,汇聚金融各种交易数据,构建金融的实时数仓,实现数据分析的毫秒级响应,让消费者在享受金融交易便捷性的同时,无感分析交易风险,避免金融诈骗等高危操作,同时对交易行为进行实时推送、异常行为实时预警,助力安全金融的构建。

数栈X水务场景

我们知道在夏季,一些河流较多的城市容易发生洪涝,一旦降雨增多,还会附带泥石流等灾害因素,对应的各级政府在雨季对于洪涝抢险救灾一向是时刻关注。但传统的监控无法做到精准的灾害预警和灾后的应急响应,造成大量的国家资产损耗,甚至是人员伤亡。

袋鼠云数栈基于河流以及环境监测数据等,制定事前、事中、事后三步走策略,通过事前实时监测,包括降雨、水位等,实时将数据反馈到监控大屏中;然后在事中进行实时预测,包括降雨预测、灾害预警等,将未来可能发生的事情实时展示到大屏中,为灾害做好预防准备,及时通知人群疏散,最大程度避免人员伤亡;最后实现事后响应,对当前灾情进行统计分析,为抢险救灾提供数据决策支撑,合理调配人员安排,最大程度避免国家财产损失。

数栈X集团港口场景

对于一个港口而言,货物吞吐量是衡量港口能力的一个因素,如何最大化提高港口货物吞吐是所有港口一直在思考的问题。传统的港口调度因各个区域的职责所属,无法感知全港口的货物走向,只能基于自身区域进行人员的调配和车辆的调配,实现区域内的“局部最优”,某种程度上提高了港口的货物吞吐量,无法实现“全局最优”。

袋鼠云数栈从全港口角度出发,打通全港口数据信息,感知全港口货物走向,了解各区域货物吞吐速率,针对“拥挤”区域,进行资源倾斜和人员调配,同时感知“未来货物”量,及时做好资源准备,最大程度上提高全港口的人员与车辆调度能力,实现港口货物吞吐量的最大化,让“信息化”港口升级为“智慧化”港口。

四、不忘初心 数栈砥砺前行

从2016年推出数栈算起,一晃眼,数栈已经走过了第六个年头,未来数栈将继续秉持初心,在不断打磨自身的同时,追求更深层次的突破。

未来规划

· 资源分配:从传统的定值设定,到结合任务负载,进行精细化参数调节,实现更加高效的资源利用。

· 数据共享:建立按需共享模式,实现企业内的跨业态、跨部门的经验分享,沉淀企业内的数据知识库,满足更高的数据共享需求。

· 数据监控:实现自动化干预数据,根据每日的任务运行情况等多维度信息建立系统自诊断能力,及早预测、发现、干预数据问题,变被动为主动。

· 数据校验:实现智能化规则创建,自动扫描SQL和表信息,获取不合规因素,自动建立合理的数据校验规则,降低手动配置工作量。

袋鼠云开源框架钉钉技术交流qun(30537511),欢迎对大数据开源项目有兴趣的同学加入交流最新技术信息,开源项目库地址:https://github.com/DTStack

袋鼠云思枢:数栈DTinsight,创新升级,全新出发,驶入数智转型新赛道的更多相关文章

  1. 袋鼠云出品!数栈UI 5.0全新体验升级,设计背后的故事

    我们是袋鼠云数栈 UED 团队,致力于打造优秀的一站式数据中台产品.我们始终保持工匠精神,探索前端道路,为社区积累并传播经验价值. 前言 数栈作为云原⽣⼀站式⼤数据开发平台,从2016年发布第⼀个版本 ...

  2. 华夏基金X袋鼠云:基金业数字化转型,为什么说用户才是解题答案?

    "精准营销是以客户为中心,运用各种可利用的方式,在恰当的时间,以恰当的价格,通过恰当的渠道,向恰当的顾客提供恰当的产品." 这是学者许瑾在科特勒精准营销理论的基础上,从实践的角度对 ...

  3. 袋鼠云研发手记 | 开源·数栈-扩展FlinkSQL实现流与维表的join

    作为一家创新驱动的科技公司,袋鼠云每年研发投入达数千万,公司80%员工都是技术人员,袋鼠云产品家族包括企业级一站式数据中台PaaS数栈.交互式数据可视化大屏开发平台Easy[V]等产品也在迅速迭代.在 ...

  4. 袋鼠云研发手记 | 数栈·开源:Github上400+Star的硬核分布式同步工具FlinkX

    作为一家创新驱动的科技公司,袋鼠云每年研发投入达数千万,公司80%员工都是技术人员,袋鼠云产品家族包括企业级一站式数据中台PaaS数栈.交互式数据可视化大屏开发平台Easy[V]等产品也在迅速迭代.在 ...

  5. 袋鼠云研发手记 | 袋鼠云EasyManager的TypeScript重构纪要

    作为一家创新驱动的科技公司,袋鼠云每年研发投入达数千万,公司80%员工都是技术人员,袋鼠云产品家族包括企业级一站式数据中台PaaS数栈.交互式数据可视化大屏开发平台Easy[V]等产品也在迅速迭代.在 ...

  6. 数栈运维实例:Oracle数据库运维场景下,智能运维如何落地生根?

    从马车到汽车是为了提升运输效率,而随着时代的发展,如今我们又希望用自动驾驶把驾驶员从开车这项体力劳动中解放出来,增加运行效率,同时也可减少交通事故发生率,这也是企业对于智能运维的诉求. 从人工运维到自 ...

  7. Molecule实现数栈至简前端开发新体验

    Keep It Simple, Stupid. 这是开发人耳熟能详的 KISS 原则,也像是一句有调侃意味的善意提醒,提醒每个前端人,简洁易懂的用户体验和删繁就简的搭建逻辑就是前端开发的至简大道. 这 ...

  8. 袋鼠云旗下新公司云掣科技启航,深耕云MSP业务助推企业数字化转型

    1983年3月15日,国际消费者联盟组织将3月15日确立为国际消费者权益日. 2019年3月15日,袋鼠云举办三周年年会. 一生二,二生三,三生万物.植树节后,万物生长. 年会现场,袋鼠云宣布成立新公 ...

  9. 灵雀云CTO陈恺应邀出席国泰君安信息产业投资峰会,探讨全球科技产业新格局

    2019年7月9-10日,国泰君安信息产业投资峰会在上海陆家嘴举办.作为国内容器PaaS领域的龙头公司,灵雀云受邀出席本次大会,在“数字化转型从云做起”的论坛中,CTO陈恺发表了<云原生助力企业 ...

  10. 【算法训练营day7】LeetCode454. 四数相加II LeetCode383. 赎金信 LeetCode15. 三数之和 LeetCode18. 四数之和

    [算法训练营day7]LeetCode454. 四数相加II LeetCode383. 赎金信 LeetCode15. 三数之和 LeetCode18. 四数之和 LeetCode454. 四数相加I ...

随机推荐

  1. bug|初始化项目|sass-loader报错:TypeError: this.getResolve is not a function at Object.loader

    Module build failed: TypeError: this.getResolve is not a function at Object.loader的解决 npm uninstall ...

  2. Delphi编写的一款锁屏小工具

    Delphi编写的一款锁屏小工具,双击程序立即锁屏,木有界面的.解除锁屏密码:alt+空格. unit Unit1; interface uses Windows, Messages, SysUtil ...

  3. 头晕的android SDK Manager and 找不到真机

    这张图很完美!可是出问题就头晕了. 问题场景:执行Andriod.bat出现下面界面后,然后跳出Andriod SDK的界面: android SDK Manager的界面就孤零零的几条记录挂在那里. ...

  4. [T.4] 团队项目:团队代码管理准备

    团队的代码仓库地址 [GitHub - Meng-XuanYu/JayJay-TeamVersionControl: A public repo for BUAASE2025 course homew ...

  5. STM32串口缓冲区

    在嵌入式开发中,外设通信(如UART.SPI.I2C)的数据接收常面临两大挑战:不定时.不定量数据的实时处理和高频率数据流下的稳定性保障.传统的轮询方式效率低下,而中断驱动的接收逻辑又容易因处理延迟导 ...

  6. Vue(10)——Vue组件二(data选项、局部组件、组件通信)

    Vue组件二--data选项.局部组件.组件通信 data选项 data选项用于储存组件数据 与实例data差别 必须存储在有返回值的函数当中 数据设置在返回值对象里 1.方式一 data:funct ...

  7. 拆解 Cursor Pro 自动化工具,看看它是怎么实现的?

    深入解析Cursor Pro自动化工具的核心实现 ‍ 从源码角度剖析关键技术 完整解读:注册.认证.机器码重置的自动化方案 项目概述 大家好,我是松哥.这篇文章将为大家详细解析一个Cursor自动化管 ...

  8. Json工具类之"Json格式转换总结"

    一.HashMap转Json HashMap<String, String> oldContentMap = new HashMap<>(); oldContentMap.pu ...

  9. 莫想到有一天得重新写个 etcd client

    莫想到有一天得重新写个 etcd client 其实8年前搞过一个, 不过经过8年时间,etcd 多了很多功能 ,原来的多半不行了 虽然暂时我也没啥需求,但是怕kv和watch有变化 而且其实通过 g ...

  10. django实例(2)

    S14day19---->urls.py from django.contrib import adminfrom django.conf.urls import url,includeurlp ...