一款好用的数据血缘关系在线工具--SQLFlow

【一款好用的数据血缘关系在线工具--SQLFlow】的更多相关文章

一款好用的数据血缘关系在线工具--SQLFlow

l 数据血缘关系(data lineage) 数据血缘属于数据治理中的一个概念,是在数据溯源的过程中找到相关数据之间的联系,它是一个逻辑概念.数据治理中经常提到血缘分析,血缘分析是保证数据融合的一个手段,通过血缘分析实现数据融合处理的可追溯.数据血缘是指数据产生的链路,直白点说,就是我们这个数据是怎么来的,经过了哪些过程和阶段. l SQLFlow是什么? SQLFlow 通过分析各种数据库对象定义(DDL)语句.数据操作(DML) 语句.ETL/ELT中使用的存储过程(Proceud…

血缘关系分析工具SQLFLOW--实践指南

SQLFlow 是用于追溯数据血缘关系的工具,它自诞生以来以帮助成千上万的工程师即用户解决了困扰许久的数据血缘梳理工作. 数据库中视图(View)的数据来自表(Table)或其他视图,视图中字段(Column)的数据可能来自多个表中多个字段的聚集(aggregation). 表中的数据可能通过ETL从外部系统中导入.这种从数据的源头经过各个处理环节,到达数据终点的数据链路关系称为数据血缘关系(data lineage). SQLFlow 通过分析各种数据库对象的定义(DDL).DML 语句.ET…

使用grabit分析mysql数据库中的数据血缘关系

使用grabit分析mysql数据库中的数据血缘关系 Grabit 是一个辅助工具,用于从数据库.GitHub 等修订系统.bitbucket 和文件系统等各种来源收集 SQL 脚本和存储过程,然后将其推送到 SQLFlow 服务器进行分析并生成元数据和数据沿袭. Grabit 官方获取地址:https://www.gudusoft.com/grabit/ 1.Grabit 的主要用途连接到数据库从Oracle.SQL Server等数据库中提取创建表.创建视图和存储过程等SQL查询,并发送…

马哈鱼数据血缘分析器分析case-when语句

马哈鱼数据血缘分析器是一个分析数据血缘关系的平台,可以在线直接递交 SQL 语句进行分析,也可以选择连接指定数据库获取 metadata.从本地上传文件目录.或从指定 git 仓库获取脚本进行分析. 本文介绍如果利用马哈鱼来分析SQL的case-when语句中字段依赖关系. 一个简单的Case 考虑如下SQL: select case when a.kamut=1 and b.teur IS null then 'no locks' when a.kamut=1 then b.teur else…

数据治理中Oracle SQL和存储过程的数据血缘分析

数据治理中Oracle SQL和存储过程的数据血缘分析数据治理中的一个重要基础工作是分析组织中数据的血缘关系.有了完整的数据血缘关系,我们可以用它进行数据溯源.表和字段变更的影响分析.数据合规性的证明.数据质量的检查等. 分析数据血缘的方法主要分为四类自动解析系统跟踪机器学习人工收集自动解析主要是利用工具解析 SQL 语句.存储过程和 ETL等文件. 本文以 Oracle 为例,来说明如何分析 SQL 和存储过程中的数据血缘. 产生数据血缘的 SQL 语句 SELECT INSE…

基于spark logicplan的表血缘关系解析实现

随着公司平台用户数量与表数量的不断增多,各种表之间的数据流向也变得更加复杂,特别是某个任务中会对源表读取并进行一系列复杂的变换后又生成新的数据表,因此需要一套表血缘关系解析机制能清晰地解析出每个任务所形成的表血缘关系链. 实现思路: spark对sql的操作会形成一个dataframe,dataframe中的logicplan包含了sql的语法树,通过对logicplan的语法树解析可以获取当前stage所操作的输入表和输出表,将整套表关系链连接起来,再去除中间表即可获取当前作业的输入表和输出表…