简介: 阿里巴巴提出的OneData方法论帮助企业捋清了数据全生命周期的管理思路,更将其植入到产品Dataphin(智能数据构建与管理)中,通过阿里云为企业提供服务。

Dataphin 智能数据构建与管理平台

面向各行各业大数据建设、管理及应用诉求,一站式提供从数据接入到数据消费全链路的智能数据构建与管理的大数据能力,包括产品、技术和方法论等,助力打造标准统一、融会贯通、资产化、服务化、闭环自优化的智能数据体系,以驱动创新。

Dataphin产品直达:https://www.aliyun.com/product/dataphin

困难是最好的教练

阿里巴巴从2008年开始建设自有的大数据体系,致力于构建好数据服务多样的业务。一路上,经历了各种各样的困难。

技术陷在临时取数不可知:阿里内部曾经通过建设专门的“临时取数需求管理系统”,给每个业务线分配临时取数的时间额度,每次还没到月底,额度已经为零,业务同学追着数据技术同学加班取数的情况时有发生......为了改变这一局面,专门建立了“业务人员SQL技能培训”,希望用这样的方式让业务人员自己掌握临时取数技能,美其名曰“赋能”。而这背后的本质是:资源

数据口径定义有差别:曾经就因为数据口径差异,差点造成商家损失。商家在后台看到的数据预测,显示可以达到活动报名要求,于是提前备货,准备大干一场,但是最终报名却没有通过,原因是小二侧的数据口径与商家侧的数据口径不一致,小二系统评估商家的数据未达标,导致不通过。虽然最终通过协调解决了问题。但这背后的本质是:标准

加班做报表,汇报还被骂加班取数是常态,通常取数花费2-3小时,而之后的核对差异则要花费巨大精力,动辄1-2天;最后的汇报环节,也会因为一些口径差异及数据质量问题造成尴尬,甚至会出现错误数据导致决策失误的情况。这背后的本质是:质量

除了上述这几个典型的场景,阿里巴巴也曾因业务增长而出现数据量爆发增长,对数据不治理不管理,意味着数据的存储和计算成本不断攀升。成本,也是大数据领域面临的困难之一

探索中前行,实战中沉淀带着克服困难的决心,阿里巴巴开始了B2B业务数据建设、电商业务数据建设、阿里系业务数据建设。过程中,边探索、边沉淀、边前行,通过更体系化的数据建设提升数据质量,降低数据重构的风险,提升数据服务的效率。经历近十年的打磨,基于实战,阿里巴巴沉淀了OneData大数据建设的方法论(OneModel+OneID+OneService)。OneModel通过对数据体系化架构、数据元素规范定义、数据指标结构化拆解,对数据进行统一的构建及管理;OneID通过建立实体对象、对象相关的行为数据及标签构建方法,对企业的核心商业要素进行资产化;对数据资产进行统一的主题式数据单元构建,配置构建数据API并提供API服务,以提升数据资产消费的便捷性,提升数据资产价值。

克服痛点 创造领先的大数据能力

随着全球数字化进程的加速,企业面临着更加严峻的市场竞争,而数智化转型所遇到的困境也曾是阿里巴巴最初之痛。于是,阿里云数据中台应运而生,与各行各业的企业在数据领域开展了合作,解决企业凸显的数据问题:

数据标准问题:烟囱式开发及局部业务服务支撑,导致指标同名不同口径问题频发;历史上不同业务系统逐步迭代上线,相同对象属性编码不一致等问题突出;

数据质量问题:重复建设导致任务链冗长、任务繁多,计算资源紧张,数据时效性不好;口径梳理定义的文档沉淀到开发代码实现之间存在脱节,数据准确性保障风险高;

需求响应问题:烟囱式开发周期长、效率低,面向应用的服务化不足,导致业务响应速度慢,业务不满意的同时技术又觉得没有沉淀与成长;既懂业务又懂数据的人才不足,需求理解到开发实现涉及大量沟通,服务效率较差;

成本资源问题:烟囱式开发的重复建设浪费技术资源;上线难下线更难,源系统或业务变更不能及时反映到数据上,加之数据不标准,研发维护难上加难的同时,大量无用计算和存储造成资源浪费。

阿里巴巴提出的OneData方法论帮助企业捋清了数据全生命周期的管理思路,更将其植入到产品Dataphin(智能数据构建与管理)中,通过阿里云为企业提供服务。 Dataphin除了大数据处理全链路涉及到的数据集成、开发、发布、调度、运维能力,同时提供了数据规范定义、逻辑模型定义、代码自动化生成、数据主题式服务能力,高效地完成好数据的构建。

Dataphin产品核心模块

Dataphin自2018年问世以来,已发展出了丰满的大图,到目前为止经历了多轮大版本升级,产品核心的能力模块清晰显现。
1、环境适配
最底层为Dataphin的环境适配能力。Dataphin支持不同的云环境,为不同规模以及不同部署要求的客户提供不同的选择,包括公共云多租户、公共云VPC、专有云企业版及敏捷版,以及本地IDC部署。
2、引擎支持
在云环境之上,根据不同的云环境可以支持不同的计算引擎。离线的计算引擎包括阿里云MaxCompute,Hadoop生态引擎包括阿里云E-MapReduce、CDH5、CDH6、以及即将支持的FusionInsight、CDP等。实时计算引擎支持阿里云Blink和Flinkvvp。开源版本的Flink也即将支持。
3、数据构建
基于不同的云环境和计算引擎,Dataphin提供了大数据处理全链路涉及的数据集成、开发、发布、调度、运维能力,提供了数据规范定义、逻辑模型定义、代码自动化生成、主题是查询的数据构建能力。
4、资产
Dataphin提供了配套的资产地图、资产血缘、资产质量管理和监控、资源成本管理和提效的资产管理能力,并提供了配置化的资产服务研发和管理能力,可将数据资产快速服务业务、反哺业务。

原文链接
本文为阿里云原创内容,未经允许不得转载。

智能数据构建与管理平台Dataphin的前世今生:缘起的更多相关文章

  1. 阿里云智能数据构建与管理 Dataphin公测,助力企业数据中台建设

    阿里云智能数据构建与管理 Dataphin (下简称“Dataphin”)近日重磅上线公共云,开启智能研发版本的公共云公测!在此之前,Dataphin以独立部署方式输出并服务线下客户,已助力多家大型客 ...

  2. Dataphin公共云重磅发布,提供一站式智能数据构建与管理能

    点击订阅新品发布会! 新产品.新版本.新技术.新功能.价格调整,评论在下方,下期更新!关注更多内容,了解更多 最新发布 Dataphin公共云重磅发布 2019年6月26日15时,阿里云Dataphi ...

  3. 快速完成智能数据构建,Dataphin公共云版本全面解读

    公测两个月,Dataphin公共云版本已经受到了阿里云上众多轻量级用户的关注.事实上,Dataphin作为一款大数据智能构建与管理的产品,其核心功能是面向各行各业大数据建设.管理及应用诉求,一站式提供 ...

  4. 风险识别系统-大数据智能风控管理平台-企业风控解决方案– 阿里云 https://www.aliyun.com/product/saf

    风险识别系统-大数据智能风控管理平台-企业风控解决方案– 阿里云 https://www.aliyun.com/product/saf

  5. 基于SpringBoot+SSM实现的Dota2资料库智能管理平台

    Dota2资料库智能管理平台的设计与实现 摘    要 当今社会,游戏产业蓬勃发展,如PC端的绝地求生.坦克世界.英雄联盟,再到移动端的王者荣耀.荒野行动的火爆.都离不开科学的游戏管理系统,游戏管理系 ...

  6. Volcano:在离线作业混部管理平台,实现智能资源管理和作业调度

    摘要:本文结合华为CCE团队在混合部署方面的研究和实战,介绍了混合部署的背景.概念.混部技术的设计方案和实际落地情况,以及对未来的计划和展望. 现代互联网数据中心的规模随着应用服务需求的快速增长而不断 ...

  7. Rancher 快速构建k8s容器管理平台解决方案(图片见原文链接)

    转载自Rancher 快速构建k8s容器管理平台解决方案_IT干货的博客-CSDN博客_k8s容器管理平台 一.Rancher 概述 Rancher 是企业级多集群Kubernetes管理平台,一个为 ...

  8. vue2.0+elementUI构建单页面后台管理平台

    git:https://github.com/reg21st/vue2-management-platform 访问:https://reg21st.github.io/vue2-management ...

  9. 企业级容器管理平台 Rancher 介绍入门及如何备份数据

    企业级容器管理平台 Rancher 介绍入门及如何备份数据 是什么 Rancher 是一个为 DevOps 团队提供的完整的 Kubernetes 与容器管理解决方案的开源的企业级容器管理平台.它解决 ...

  10. Polaristech 刘洋:基于 OpenResty/Kong 构建边缘计算平台

    2019 年 3 月 23 日,OpenResty 社区联合又拍云,举办 OpenResty × Open Talk 全国巡回沙龙·北京站,Polaristech 技术专家刘洋在活动上做了<基于 ...

随机推荐

  1. 对TCP/IP协议的理解

    话说两台电脑要通讯就必须遵守共同的规则,就好比两个人要沟通就必须使用共同的语言一样.一个只懂英语的人,和一个只懂中文的人由于没有共同的语言(规则)就没办法沟通.两台电脑之间进行通讯所共同遵守的规则,就 ...

  2. display标签交替显示不同行颜色

    问题 想要一个更加简单的支持列表数据分页和排序的方法. 解决方案 使用Display标签库和JSP标签库. 例4.13介绍了一个JSP页,它使用4.5节中的数据模型显示美国总统列表.这个JSP页面使用 ...

  3. HttpClient 详解

    作者:小白豆豆5链接:https://www.jianshu.com/p/14c005e9287c来源:简书著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 1.HTTP 请求创建 ...

  4. 专访OV季军|毕业转为freelancer,他如何斩获大量CG奖项?

    "新锐先锋,玩转未来"--首届实时渲染3D动画创作大赛由瑞云科技主办,英伟达.青椒云.3DCAT实时渲染云协办,戴尔科技集团.Reallusion.英迈.万生华态.D5渲染器.中视 ...

  5. C# Demo 资源汇总

    1.OCR 相关OCRService Onnx版 https://lw112190.blog.csdn.net/article/details/132082357 OCRService Sdcb.Pa ...

  6. C# 平台调用过程

    (1)调用LoadLibrary加载非托管DLL到内存中,并调用GetProcAddress 获得内存中非托管函数的指针. (2)  为包含非托管函数地址的托管签名生成一个DllImport存根(st ...

  7. PLC:自动纠正数据集噪声,来洗洗数据集吧 | ICLR 2021 Spotlight

     论文提出了更通用的特征相关噪声类别PMD,基于此类噪声构建了数据校准策略PLC来帮助模型更好地收敛,在生成数据集和真实数据集上的实验证明了其算法的有效性.论文提出的方案理论证明完备,应用起来十分简单 ...

  8. KingbaseES 数据表复制语句的功能差异

    Kingbase 数据表复制操作 数据库使用过成中,经常会遇到在现有的表结构基础上,对表结构进行复制.在KingbaseES数据库可以采用select into,create table as sel ...

  9. KingbaseES 数据库逻辑优化规则

    SQL 优化的过程可以分为逻辑优化和物理优化两个部分.逻辑优化主要是基于规则的优化,简称 RBO(Rule-Based Optimization).物理优化会为逻辑查询计划中的算子选择某个具体的实现, ...

  10. java实战字符串+栈5:解码字符

    题目: 有形如 (重复字符串)<重复次数n> 的片段,解码后相当于n个重复字符串连续拼接在一起,求展开后的字符串.  求解: public static String zipString( ...