从此告别写 SQL!DataLeap 帮你零门槛完成“数据探查”
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群
在日常数据处理工作中,产品、运营、研发或数据分析师经常会面临数据量大且混乱、质量参差不齐的问题,需要花费大量时间和精力校验表数据是否完整、是否有空值,表数据是否有异常、主键是否重复等。
这种校验工作也被称为“数据探查”,即数据负责人在上线前对数据进行测试,保证数据符合业务预期,避免下游用户因为数据错误导致决策失误;或者数据使用者在启用数据表时,对表中数据的质量进行核对,尽早发现缺陷并处理,加强数据质量保障。
一般来说,数据从业者会通过写 SQL 的方式来进行数据探查。但作为数据库查询语句,SQL 具备一定专业门槛,并且重复操作、花费时间。
火山引擎 Dataleap 推出的“数据探查”功能,可一举解决以上问题,帮助数据从业者校验数据量、主键、空值、枚举值等数值。用户只要进行简单的勾选操作,就能轻松获得详细、准确的可视化校验报告,极大节约时间成本,提升工作效率。
具体来说,用户从 DataLeap 进入「数据质量」即可找到「数据探查」模块,从这一界面中点击「确定」按钮即可创建校验。除此之外,用户在 DataLeap 中创建 EMR/LAS SQL 相关类型任务之后,也可以通过任务面板上的「数据校验」button 进入「数据探查」模块。

第一步:选择数据源
根据引擎侧选择探查对象,用户可在页面中选择表和库,并设置分区,和对应的探查设置,随后提交确认。

第二步:选择校验内容
如下图所示,在随后的详细设置页面中,使用者对表 NULL 值、0 值、数值分布、字段枚举值、字段空值等需要校验的项目进行勾选。

第三步:高级参数设置
在参数设置中,支持以传参方式设置探查滤条件,点击确定,即可完成。

管理探查结果
数据探查创建成功后,可以执行查看探查报告、搜索探查结果、查看运行日志等操作,点击探查结果列表前的折叠图标或点击全部展开按钮,展开列表信息

校验报告一览
最后,用户通过「数据探查」能够得到什么信息呢?DataLeap 将表中的数据信息以概览和图表的方式进行呈现。

①标题及概览
用户可以一目了然看到校验的基本参数:如谁发起的校验、探查完成时间、分区字段及过滤条件等。
在校验概览中,用户可以看到整张表的探查规则下行数的枚举值分布,主键重复的行数,出现空值的字段数。
②字段枚举值
左侧可选择用户指定的枚举字段,右侧以列表展示该枚举字段下的所有枚举值及其出现次数,以及在各个分组取值下的枚举值数量。

除了数据探查能力之外,作为大数据研发治理套件,DataLeap 还可以提供数据集成、开发、运维、治理、资产、安全等能力,帮助用户提升数据研发效率、降低管理成本,加速推动企业的数字化转型。
点击跳转 大数据研发治理DataLeap 了解更多
从此告别写 SQL!DataLeap 帮你零门槛完成“数据探查”的更多相关文章
- 个人永久性免费-Excel催化剂功能第20波-Excel与Sqlserver零门槛交互-数据上传篇
Excel作为众多数据存储的交换介质,在不同的系统内的数据很少可以很连贯地进行整合分析,一般的业务系统都会提供导出Excel作为标配功能供用户使用系统内生成的数据. 此时最大的问题是,Excel很维去 ...
- 个人永久性免费-Excel催化剂功能第21波-Excel与Sqlserver零门槛交互-执行SQL语句篇
在前两波中,已完成了Excel与Sqlserver的查询和上传功能,但难免许多临时的或更深入地操作数据库需要用Sql语句来操作,对一般用户电脑里,不可能有条件轻易安装一个数据库客户端软件,就算安装了对 ...
- 在mybatis中写sql语句的一些体会
本文会使用一个案例,就mybatis的一些基础语法进行讲解.案例中使用到的数据库表和对象如下: article表:这个表存放的是文章的基础信息 -- ------------------------- ...
- 一文让你从此告别HTTP乱码(一)Request篇
#circle { background-color: #8fcbec; border: 3px } 概述 开发Web项目的过程中,经常遇到浏览器中显示的内容乱码,或者服务器获取浏览器请求参数时乱码的 ...
- Java开发者写SQL时常犯的10个错误
首页 所有文章 资讯 Web 架构 基础技术 书籍 教程 我要投稿 更多频道 » - 导航条 - 首页 所有文章 资讯 Web 架构 基础技术 书籍 教程 我要投稿 更多频道 » - iOS ...
- hive--构建于hadoop之上、让你像写SQL一样编写MapReduce程序
hive介绍 什么是hive? hive:由Facebook开源用于解决海量结构化日志的数据统计 hive是基于hadoop的一个数据仓库工具,可以将结构化的数据映射为数据库的一张表,并提供类SQL查 ...
- 写sql语句分别按日,星期,月,季度,年统计
--写sql语句分别按日,星期,月,季度,年统计销售额 --按日 ' group by day([date]) --按周quarter ' group by datename(week,[date]) ...
- (摘至)程序员老鸟写sql语句的经验之谈
做管理系统的,无论是bs结构的还是cs结构的,都不可避免的涉及到数据库表结构的设计,sql语句的编写等.因此在开发系统的时候,表结构设计是否合理,sql语句是否标准,写出的sql性能是否优化往往会成为 ...
- Java 程序员在写 SQL 时常犯的 10 个错误
Java程序员编程时需要混合面向对象思维和一般命令式编程的方法,能否完美的将两者结合起来完全得依靠编程人员的水准: 技能(任何人都能容易学会命令式编程) 模式(有些人用“模式-模式”,举个例子,模式可 ...
- 程序员老鸟写sql语句的经验之谈
做管理系统的,无论是bs结构的还是cs结构的,都不可避免的涉及到数据库表结构的设计,sql语句的编写等.因此在开发系统的时候,表结构设计是否合理,sql语句是否标准,写出的sql性能是否优化往往会成为 ...
随机推荐
- DP:摆动序列
问题描述 如果一个序列满足下面的性质,我们就将它称为摆动序列: 1. 序列中的所有数都是不大于k的正整数: 2. 序列中至少有两个数. 3. 序列中的数两两不相等: 4. 如果第i – 1个数比第i ...
- UIPath变量和参数
一. UIPath变量 变量(Variables),变量是所有编程语言中必不可少的部分.对于UIPath来说自然也是如此,其承载了我们RPA流程中数据传递的重要作用.对于接触过编程的开发者来说,变 ...
- offline RL | IQL:通过 sarsa 式 Q 更新避免 unseen actions
题目:Offline Reinforcement Learning with Implicit Q-Learning,Sergey Levine 组,2022 ICLR,5 6 8. pdf 版本:h ...
- 2021年前端面试题——JS
目录: DOM事件流有那些阶段? 解释事件冒泡以及如何阻止它? 事件委派/事件委托是什么? 如何理解 JS 中的this关键字? 更改this指向的方法有那些? apply.call.bind 区别? ...
- 【Android】Android Bmob后端云配置
简介 开发一个具有网络功能的应用,在Bmob移动应用云存储平台中,只需要注册一个账号,就可以实现申请创建任意多个数据库,获得对应的key,下载对应版本的SDK,并嵌入到移动应用中,调用存取的KPI,进 ...
- 【结对作业】第一周 | 学习体会day02
今天我们想要实现线路的查询 发现了几个错误 1 <%-- 下拉表单的命名使用错误,导致无法接收前端数值--%> 首先我们很少使用下拉表单,之前用的也忘了,然后格式出现了错误 2 遇到typ ...
- [ABC261D] Flipping and Bonus
Problem Statement Takahashi will toss a coin $N$ times. He also has a counter, which initially shows ...
- 使用SPEL自定义表达式
自定义表达式 Spring提供了一个可以自定义表达式的接口 package com.qbb.qmall.item; import org.junit.Test; import org.springfr ...
- Java使用线程池和缓存提高接口QPS
1.什么是QPS? QPS:Queries Per Second意思是"每秒查询率",是一台服务器每秒可以相应的查询次数,是对一个特定的查询服务器在规定时间内所处理流量多少的衡量标 ...
- 聊一聊 C# 的线程本地存储TLS到底是什么
一:背景 1. 讲故事 有朋友在后台留言让我说一下C#的 ThreadStatic 线程本地存储是怎么玩的?这么说吧,C#的ThreadStatic是假的,因为C#完全是由CLR(C++)承载的,言外 ...