更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群

在日常数据处理工作中,产品、运营、研发或数据分析师经常会面临数据量大且混乱、质量参差不齐的问题,需要花费大量时间和精力校验表数据是否完整、是否有空值,表数据是否有异常、主键是否重复等。

这种校验工作也被称为“数据探查”,即数据负责人在上线前对数据进行测试,保证数据符合业务预期,避免下游用户因为数据错误导致决策失误;或者数据使用者在启用数据表时,对表中数据的质量进行核对,尽早发现缺陷并处理,加强数据质量保障。

一般来说,数据从业者会通过写 SQL 的方式来进行数据探查。但作为数据库查询语句,SQL 具备一定专业门槛,并且重复操作、花费时间。

火山引擎 Dataleap 推出的“数据探查”功能,可一举解决以上问题,帮助数据从业者校验数据量、主键、空值、枚举值等数值。用户只要进行简单的勾选操作,就能轻松获得详细、准确的可视化校验报告,极大节约时间成本,提升工作效率。

具体来说,用户从 DataLeap 进入「数据质量」即可找到「数据探查」模块,从这一界面中点击「确定」按钮即可创建校验。除此之外,用户在 DataLeap 中创建 EMR/LAS SQL 相关类型任务之后,也可以通过任务面板上的「数据校验」button 进入「数据探查」模块。

第一步:选择数据源

根据引擎侧选择探查对象,用户可在页面中选择表和库,并设置分区,和对应的探查设置,随后提交确认。

第二步:选择校验内容

如下图所示,在随后的详细设置页面中,使用者对表 NULL 值、0 值、数值分布、字段枚举值、字段空值等需要校验的项目进行勾选。

第三步:高级参数设置

在参数设置中,支持以传参方式设置探查滤条件,点击确定,即可完成。

管理探查结果

数据探查创建成功后,可以执行查看探查报告、搜索探查结果、查看运行日志等操作,点击探查结果列表前的折叠图标或点击全部展开按钮,展开列表信息

校验报告一览

最后,用户通过「数据探查」能够得到什么信息呢?DataLeap 将表中的数据信息以概览和图表的方式进行呈现。

①标题及概览

用户可以一目了然看到校验的基本参数:如谁发起的校验、探查完成时间、分区字段及过滤条件等。

在校验概览中,用户可以看到整张表的探查规则下行数的枚举值分布,主键重复的行数,出现空值的字段数。

②字段枚举值

左侧可选择用户指定的枚举字段,右侧以列表展示该枚举字段下的所有枚举值及其出现次数,以及在各个分组取值下的枚举值数量。

除了数据探查能力之外,作为大数据研发治理套件,DataLeap 还可以提供数据集成、开发、运维、治理、资产、安全等能力,帮助用户提升数据研发效率、降低管理成本,加速推动企业的数字化转型。

点击跳转 大数据研发治理DataLeap 了解更多

从此告别写 SQL!DataLeap 帮你零门槛完成“数据探查”的更多相关文章

  1. 个人永久性免费-Excel催化剂功能第20波-Excel与Sqlserver零门槛交互-数据上传篇

    Excel作为众多数据存储的交换介质,在不同的系统内的数据很少可以很连贯地进行整合分析,一般的业务系统都会提供导出Excel作为标配功能供用户使用系统内生成的数据. 此时最大的问题是,Excel很维去 ...

  2. 个人永久性免费-Excel催化剂功能第21波-Excel与Sqlserver零门槛交互-执行SQL语句篇

    在前两波中,已完成了Excel与Sqlserver的查询和上传功能,但难免许多临时的或更深入地操作数据库需要用Sql语句来操作,对一般用户电脑里,不可能有条件轻易安装一个数据库客户端软件,就算安装了对 ...

  3. 在mybatis中写sql语句的一些体会

    本文会使用一个案例,就mybatis的一些基础语法进行讲解.案例中使用到的数据库表和对象如下: article表:这个表存放的是文章的基础信息 -- ------------------------- ...

  4. 一文让你从此告别HTTP乱码(一)Request篇

    #circle { background-color: #8fcbec; border: 3px } 概述 开发Web项目的过程中,经常遇到浏览器中显示的内容乱码,或者服务器获取浏览器请求参数时乱码的 ...

  5. Java开发者写SQL时常犯的10个错误

        首页 所有文章 资讯 Web 架构 基础技术 书籍 教程 我要投稿 更多频道 » - 导航条 - 首页 所有文章 资讯 Web 架构 基础技术 书籍 教程 我要投稿 更多频道 » - iOS ...

  6. hive--构建于hadoop之上、让你像写SQL一样编写MapReduce程序

    hive介绍 什么是hive? hive:由Facebook开源用于解决海量结构化日志的数据统计 hive是基于hadoop的一个数据仓库工具,可以将结构化的数据映射为数据库的一张表,并提供类SQL查 ...

  7. 写sql语句分别按日,星期,月,季度,年统计

    --写sql语句分别按日,星期,月,季度,年统计销售额 --按日 ' group by day([date]) --按周quarter ' group by datename(week,[date]) ...

  8. (摘至)程序员老鸟写sql语句的经验之谈

    做管理系统的,无论是bs结构的还是cs结构的,都不可避免的涉及到数据库表结构的设计,sql语句的编写等.因此在开发系统的时候,表结构设计是否合理,sql语句是否标准,写出的sql性能是否优化往往会成为 ...

  9. Java 程序员在写 SQL 时常犯的 10 个错误

    Java程序员编程时需要混合面向对象思维和一般命令式编程的方法,能否完美的将两者结合起来完全得依靠编程人员的水准: 技能(任何人都能容易学会命令式编程) 模式(有些人用“模式-模式”,举个例子,模式可 ...

  10. 程序员老鸟写sql语句的经验之谈

    做管理系统的,无论是bs结构的还是cs结构的,都不可避免的涉及到数据库表结构的设计,sql语句的编写等.因此在开发系统的时候,表结构设计是否合理,sql语句是否标准,写出的sql性能是否优化往往会成为 ...

随机推荐

  1. linux 使用crontab 创建定时任务

    转载请注明出处: 在服务器中需要创建一个定时任务,每天执行去清理很早之前备份的文件,所以想到在linux上创建一个shell脚本,通过linux的 crontab 命令定时去执行该shell脚本,从而 ...

  2. easyxor

    怎么都写不出脚本,看了题解还是蒙蒙的,不过以后遇到这种题也可以根据提示了解他到底怎么出题的,题目明面说了xor 那就主要关注xor以后的结果和xor的对象.方法就好了,其他的就不要去管了 然后对于汇编 ...

  3. MySQL IFNULL函数

    MySQL IFNULL函数简介 MySQL IFNULL函数是MySQL控制流函数之一,它接受两个参数,如果不是NULL,则返回第一个参数. 否则,IFNULL函数返回第二个参数. 两个参数可以是文 ...

  4. 2023-11-18:用go语言,如果一个正方形矩阵上下对称并且左右对称,对称的意思是互为镜像, 那么称这个正方形矩阵叫做神奇矩阵。 比如 : 1 5 5 1 6 3 3 6 6 3 3 6 1 5

    2023-11-18:用go语言,如果一个正方形矩阵上下对称并且左右对称,对称的意思是互为镜像, 那么称这个正方形矩阵叫做神奇矩阵. 比如 : 1 5 5 1 6 3 3 6 6 3 3 6 1 5 ...

  5. 微信小程序-敏感内容检测 文本过滤 图片检测 https

    一.获取access_token wx.request({ url: 'https://api.weixin.qq.com/cgi-bin/token', method : 'GET', data : ...

  6. springBoot + 工厂模式 实现 快递鸟、顺丰和快递100的物流查询

    前言: 在Spring Boot中实现快递鸟.顺丰和快递100的物流查询功能通常需要与它们提供的API进行交互.当然使用他们的API 我们是需要申请和注册,从而去拿到 key 来进行调用.所以为注册的 ...

  7. FastJson、Jackson、Gson进行Java对象转换Json

    - Java对象转换Json的细节处理前言Java对象在转json的时候,如果对象里面有属性值为null的话,那么在json序列化的时候要不要序列出来呢?对比以下json转换方式一.fastJson1 ...

  8. windows中MySQL忘记密码

    前言:   一直都是连接公司项目数据库,许久未连接本地的数据库,密码忘记了 步骤: 进入本机安装mysql的bin目录下 暂停mysql服务 net stop mysql 设置跳过密码授权登录  my ...

  9. AtCoder_abc326

    T1 2UP3DOWN 简单的if判断,做题一分钟,翻译十分钟... 代码: #include<bits/stdc++.h> using namespace std; int main() ...

  10. STM32外设:定时器TIM

    主要外设: TIM:Timer 定时器 TIM中的基本电路 定时器 计数器的基本功能 复位:计数器值=初值.产生一个输出脉冲.产生更新事件(UEV)脉冲.更新中断标志UIF=1 计数:计数器值递增或递 ...