更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群

在日常数据处理工作中,产品、运营、研发或数据分析师经常会面临数据量大且混乱、质量参差不齐的问题,需要花费大量时间和精力校验表数据是否完整、是否有空值,表数据是否有异常、主键是否重复等。

这种校验工作也被称为“数据探查”,即数据负责人在上线前对数据进行测试,保证数据符合业务预期,避免下游用户因为数据错误导致决策失误;或者数据使用者在启用数据表时,对表中数据的质量进行核对,尽早发现缺陷并处理,加强数据质量保障。

一般来说,数据从业者会通过写 SQL 的方式来进行数据探查。但作为数据库查询语句,SQL 具备一定专业门槛,并且重复操作、花费时间。

火山引擎 Dataleap 推出的“数据探查”功能,可一举解决以上问题,帮助数据从业者校验数据量、主键、空值、枚举值等数值。用户只要进行简单的勾选操作,就能轻松获得详细、准确的可视化校验报告,极大节约时间成本,提升工作效率。

具体来说,用户从 DataLeap 进入「数据质量」即可找到「数据探查」模块,从这一界面中点击「确定」按钮即可创建校验。除此之外,用户在 DataLeap 中创建 EMR/LAS SQL 相关类型任务之后,也可以通过任务面板上的「数据校验」button 进入「数据探查」模块。

第一步:选择数据源

根据引擎侧选择探查对象,用户可在页面中选择表和库,并设置分区,和对应的探查设置,随后提交确认。

第二步:选择校验内容

如下图所示,在随后的详细设置页面中,使用者对表 NULL 值、0 值、数值分布、字段枚举值、字段空值等需要校验的项目进行勾选。

第三步:高级参数设置

在参数设置中,支持以传参方式设置探查滤条件,点击确定,即可完成。

管理探查结果

数据探查创建成功后,可以执行查看探查报告、搜索探查结果、查看运行日志等操作,点击探查结果列表前的折叠图标或点击全部展开按钮,展开列表信息

校验报告一览

最后,用户通过「数据探查」能够得到什么信息呢?DataLeap 将表中的数据信息以概览和图表的方式进行呈现。

①标题及概览

用户可以一目了然看到校验的基本参数:如谁发起的校验、探查完成时间、分区字段及过滤条件等。

在校验概览中,用户可以看到整张表的探查规则下行数的枚举值分布,主键重复的行数,出现空值的字段数。

②字段枚举值

左侧可选择用户指定的枚举字段,右侧以列表展示该枚举字段下的所有枚举值及其出现次数,以及在各个分组取值下的枚举值数量。

除了数据探查能力之外,作为大数据研发治理套件,DataLeap 还可以提供数据集成、开发、运维、治理、资产、安全等能力,帮助用户提升数据研发效率、降低管理成本,加速推动企业的数字化转型。

点击跳转 大数据研发治理DataLeap 了解更多

从此告别写 SQL!DataLeap 帮你零门槛完成“数据探查”的更多相关文章

  1. 个人永久性免费-Excel催化剂功能第20波-Excel与Sqlserver零门槛交互-数据上传篇

    Excel作为众多数据存储的交换介质,在不同的系统内的数据很少可以很连贯地进行整合分析,一般的业务系统都会提供导出Excel作为标配功能供用户使用系统内生成的数据. 此时最大的问题是,Excel很维去 ...

  2. 个人永久性免费-Excel催化剂功能第21波-Excel与Sqlserver零门槛交互-执行SQL语句篇

    在前两波中,已完成了Excel与Sqlserver的查询和上传功能,但难免许多临时的或更深入地操作数据库需要用Sql语句来操作,对一般用户电脑里,不可能有条件轻易安装一个数据库客户端软件,就算安装了对 ...

  3. 在mybatis中写sql语句的一些体会

    本文会使用一个案例,就mybatis的一些基础语法进行讲解.案例中使用到的数据库表和对象如下: article表:这个表存放的是文章的基础信息 -- ------------------------- ...

  4. 一文让你从此告别HTTP乱码(一)Request篇

    #circle { background-color: #8fcbec; border: 3px } 概述 开发Web项目的过程中,经常遇到浏览器中显示的内容乱码,或者服务器获取浏览器请求参数时乱码的 ...

  5. Java开发者写SQL时常犯的10个错误

        首页 所有文章 资讯 Web 架构 基础技术 书籍 教程 我要投稿 更多频道 » - 导航条 - 首页 所有文章 资讯 Web 架构 基础技术 书籍 教程 我要投稿 更多频道 » - iOS ...

  6. hive--构建于hadoop之上、让你像写SQL一样编写MapReduce程序

    hive介绍 什么是hive? hive:由Facebook开源用于解决海量结构化日志的数据统计 hive是基于hadoop的一个数据仓库工具,可以将结构化的数据映射为数据库的一张表,并提供类SQL查 ...

  7. 写sql语句分别按日,星期,月,季度,年统计

    --写sql语句分别按日,星期,月,季度,年统计销售额 --按日 ' group by day([date]) --按周quarter ' group by datename(week,[date]) ...

  8. (摘至)程序员老鸟写sql语句的经验之谈

    做管理系统的,无论是bs结构的还是cs结构的,都不可避免的涉及到数据库表结构的设计,sql语句的编写等.因此在开发系统的时候,表结构设计是否合理,sql语句是否标准,写出的sql性能是否优化往往会成为 ...

  9. Java 程序员在写 SQL 时常犯的 10 个错误

    Java程序员编程时需要混合面向对象思维和一般命令式编程的方法,能否完美的将两者结合起来完全得依靠编程人员的水准: 技能(任何人都能容易学会命令式编程) 模式(有些人用“模式-模式”,举个例子,模式可 ...

  10. 程序员老鸟写sql语句的经验之谈

    做管理系统的,无论是bs结构的还是cs结构的,都不可避免的涉及到数据库表结构的设计,sql语句的编写等.因此在开发系统的时候,表结构设计是否合理,sql语句是否标准,写出的sql性能是否优化往往会成为 ...

随机推荐

  1. QString类常用属性

    目录 1. isNull() 2. isEmpty() 3. length() 4. truncate() 5. indexOf()/lastIndexOf() 6. arg() 7. at() 8. ...

  2. java 创建对象的5种方式

    1.创建对象的5种方式 1.通过 new 关键字 这是最常用的一种方式,通过 new 关键字调用类的有参或无参构造方法来创建对象.比如 Object obj = new Object(); 2.通过 ...

  3. Office XXE攻击

    一.什么是Office XXE攻击 Office XXE攻击是xxe攻击的一种,由于.xlsx与.docx是基于xml文件存储内容的,后端在解析这些xml时自然也会存在xxe攻击的可能. 这里是.xl ...

  4. [转载]R2: 相关系数、复相关系数及半偏相关系数之间的联系

    开贴举例说明相关系数.复相关系数及半偏相关系数之间的联系. 比如,我们要预测学生在高中的表现(学生成绩),一种方法是测量学习速度和难易程度的能力测验来衡量学生的学习能力.那么,假设一个学生已经做了这样 ...

  5. 【Windows 开发环境配置】NVIDIA 篇

    CUDA 从CUDA Toolkit Archive下载相应版本的离线安装包,这里以11.7为例. 打开安装包,在安装选项选择自定义模式,点击下一步. 在自定义安装选项中,仅选择CUDA组件(其中Ns ...

  6. 聊聊分布式 SQL 数据库Doris(三)

    详细内容阅读: Apache Doris 分区分桶新功能 与 数据划分. 在此基础上做总结与延伸. 在 Doris 的存储引擎规则: 表的数据是以分区为单位存储的,不指定分区创建时,默认就一个分区. ...

  7. 震荡指标(一)RSI指标

    相对强弱指数RSI是根据一定时期内上涨点数和涨跌点数之和的比率制作出的一种技术曲线.能够反映出市场在一定时期内的景气程度.由威尔斯.威尔德(Welles Wilder)最早应用于期货买卖,后来人们发现 ...

  8. .NET中有多少种定时器

    .NET中至少有6种定时器,每一种定时器都有它的用途和特点.根据定时器的应用场景,可以分为UI相关的定时器和UI无关的定时器.本文将简单介绍这6种定时器的基本用法和特点. UI定时器 .NET中的UI ...

  9. 【Javaweb】java中接口(interface)怎么用

    首先我们先了解什么是接口(interface) 实际情况中,又是我们必须从几个类中派生出一个子类,继承他们所有的属性和方法.但是,JAVA中是不支持多重继承的,那么为了满足这一目的,就有了接口,就可以 ...

  10. Excel表格函数公式出现溢出怎么办?

    Excel是一款广泛使用的电子表格软件,它可以帮助我们进行各种计算.数据分析与处理等操作.在使用Excel时,我们通常需要使用到各种函数公式来完成不同的任务.然而,在使用函数公式时有时会出现" ...