一.需求场景分析 在实际的数据平台运营管理过程中,数据表的规模往往随着更多业务数据的接入以及数据应用的建设而逐渐增长到非常大的规模,数据管理人员往往希望能够利用元数据的分析来更好地掌握不同数据表的血缘关系,从而分析出数据的上下游依赖关系.本文将介绍如何去根据MaxCompute InformationSchema中作业ID的输入输出表来分析出某张表的血缘关系. 二.方案设计思路 MaxCompute Information_Schema提供了访问表的作业明细数据tasks_history,该表中…
SQLFlow 是用于追溯数据血缘关系的工具,它自诞生以来以帮助成千上万的工程师即用户解决了困扰许久的数据血缘梳理工作. 数据库中视图(View)的数据来自表(Table)或其他视图,视图中字段(Column)的数据可能来自多个表中多个字段的聚集(aggregation). 表中的数据可能通过ETL从外部系统中导入.这种从数据的源头经过各个处理环节,到达数据终点的数据链路关系称为数据血缘关系(data lineage). SQLFlow 通过分析各种数据库对象的定义(DDL).DML 语句.ET…
一.需求场景分析 在实际的数据平台运营管理过程中,数据表的规模往往随着更多业务数据的接入以及数据应用的建设而逐渐增长到非常大的规模,数据管理人员往往希望能够利用元数据的分析来更好地掌握不同数据表的使用情况,从而优化数据模型.一个MaxCompute项目中经常使用的表简称为热门表,使用次数较少或者很长时间不使用的表简称为冷门表,本文将介绍如何去通过MaxCompute元数据信息去分析热门表和冷门表. 二.方案设计思路 MaxCompute Information_Schema提供了项目中全量的表元…
使用grabit分析mysql数据库中的数据血缘关系 Grabit 是一个辅助工具,用于从数据库.GitHub 等修订系统.bitbucket 和文件系统等各种来源收集 SQL 脚本和存储过程,然后将其推送到 SQLFlow 服务器进行分析并生成元数据和数据沿袭. Grabit 官方获取地址:https://www.gudusoft.com/grabit/ 1.Grabit 的主要用途 连接到数据库 从Oracle.SQL Server等数据库中提取创建表.创建视图和存储过程等SQL查询,并发送…
SQLFlow 摘要 本文主要介绍SQLFlow是什么,以及它的功能及使用场景 SQLFlow是什么 SQLFlow是一个可视化的在线处理SQL对象依赖关系的工具,只需要上传你的SQL脚本,它可以自动分析SQL里的数据对象,包括database.schema.table.view.column.procedure.function.trigger等等,并且能够分析这些数据对象之间的依赖关系,并将这些依赖关系可视化展现出来. SQLFlow有哪些功能 SQL语法分析,可以对SQL进行语法校验,检查…
马哈鱼数据血缘分析器是一个分析数据血缘关系的平台,可以在线直接递交 SQL 语句进行分析,也可以选择连接指定数据库获取 metadata.从本地上传文件目录.或从指定 git 仓库获取脚本进行分析. 本文介绍如果利用马哈鱼来分析SQL的case-when语句中字段依赖关系. 一个简单的Case 考虑如下SQL: select case when a.kamut=1 and b.teur IS null then 'no locks' when a.kamut=1 then b.teur else…
随着公司平台用户数量与表数量的不断增多,各种表之间的数据流向也变得更加复杂,特别是某个任务中会对源表读取并进行一系列复杂的变换后又生成新的数据表,因此需要一套表血缘关系解析机制能清晰地解析出每个任务所形成的表血缘关系链. 实现思路: spark对sql的操作会形成一个dataframe,dataframe中的logicplan包含了sql的语法树,通过对logicplan的语法树解析可以获取当前stage所操作的输入表和输出表,将整套表关系链连接起来,再去除中间表即可获取当前作业的输入表和输出表…
摘要: 2019年1月18日,由阿里巴巴MaxCompute开发者社区和阿里云栖社区联合主办的“阿里云栖开发者沙龙大数据技术专场”走近北京联合大学,本次技术沙龙上,人人车大数据平台负责人吴水永从人人车数据平台的整体架构.如何基于阿里云打造一个轻盈的数据平台以及人人车企业基于阿里云技术开发的BI数据报表平台等三个方面进行了精彩分享. 以下内容根据演讲视频以及PPT整理而成. 一.人人车数据平台 快速搭建,一年时间完成6大平台的搭建 基于阿里云平台上成熟的技术,人人车企业只用了一年时间便实现了6大数…
摘要:随着自媒体的发展,传统媒体面临着巨大的压力和挑战,新华智云运用大数据和人工智能技术,致力于为媒体行业赋能.通过媒体大数据开放平台,将媒体行业全网数据汇总起来,借助平台数据处理能力和算法能力,将有价值数据内容和能力开放给用户.本文主要从新华智云数芯平台,媒体行业数据特征,批流处理数据架构,以及通用的媒体大数据平台能力等几个方面介绍了如何基于MaxCompute做媒体大数据开放平台建设. 演讲嘉宾简介:李金波,新华智云首席数据官.负责阿里巴巴大数据通用计算平台MaxCompute(原ODPS)…
声明 本文中介绍的非功能性规范均为建议性规范,产品功能无强制,仅供指导. 参考文献 <大数据之路——阿里巴巴大数据实践>——阿里巴巴数据技术及产品部 著. 背景及目的 数据对一个企业来说已经是一项重要的资产,既然是资产,肯定需要管理.随着业务的增加,数据的应用越来越多,企业在创建的数仓过程中对数据的管理也提出了更高的要求,而数据质量也是数仓建设过程不容忽视的环节.本文针对MaxCompute数仓建设过程中如何做数据质量给出规范建议,为实际数据治理提供依据及指导. 数据质量保障原则 评估数据质量…