从此告别写 SQL!DataLeap 帮你零门槛完成“数据探查”
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群
在日常数据处理工作中,产品、运营、研发或数据分析师经常会面临数据量大且混乱、质量参差不齐的问题,需要花费大量时间和精力校验表数据是否完整、是否有空值,表数据是否有异常、主键是否重复等。
这种校验工作也被称为“数据探查”,即数据负责人在上线前对数据进行测试,保证数据符合业务预期,避免下游用户因为数据错误导致决策失误;或者数据使用者在启用数据表时,对表中数据的质量进行核对,尽早发现缺陷并处理,加强数据质量保障。
一般来说,数据从业者会通过写 SQL 的方式来进行数据探查。但作为数据库查询语句,SQL 具备一定专业门槛,并且重复操作、花费时间。
火山引擎 Dataleap 推出的“数据探查”功能,可一举解决以上问题,帮助数据从业者校验数据量、主键、空值、枚举值等数值。用户只要进行简单的勾选操作,就能轻松获得详细、准确的可视化校验报告,极大节约时间成本,提升工作效率。
具体来说,用户从 DataLeap 进入「数据质量」即可找到「数据探查」模块,从这一界面中点击「确定」按钮即可创建校验。除此之外,用户在 DataLeap 中创建 EMR/LAS SQL 相关类型任务之后,也可以通过任务面板上的「数据校验」button 进入「数据探查」模块。

第一步:选择数据源
根据引擎侧选择探查对象,用户可在页面中选择表和库,并设置分区,和对应的探查设置,随后提交确认。

第二步:选择校验内容
如下图所示,在随后的详细设置页面中,使用者对表 NULL 值、0 值、数值分布、字段枚举值、字段空值等需要校验的项目进行勾选。

第三步:高级参数设置
在参数设置中,支持以传参方式设置探查滤条件,点击确定,即可完成。

管理探查结果
数据探查创建成功后,可以执行查看探查报告、搜索探查结果、查看运行日志等操作,点击探查结果列表前的折叠图标或点击全部展开按钮,展开列表信息

校验报告一览
最后,用户通过「数据探查」能够得到什么信息呢?DataLeap 将表中的数据信息以概览和图表的方式进行呈现。

①标题及概览
用户可以一目了然看到校验的基本参数:如谁发起的校验、探查完成时间、分区字段及过滤条件等。
在校验概览中,用户可以看到整张表的探查规则下行数的枚举值分布,主键重复的行数,出现空值的字段数。
②字段枚举值
左侧可选择用户指定的枚举字段,右侧以列表展示该枚举字段下的所有枚举值及其出现次数,以及在各个分组取值下的枚举值数量。

除了数据探查能力之外,作为大数据研发治理套件,DataLeap 还可以提供数据集成、开发、运维、治理、资产、安全等能力,帮助用户提升数据研发效率、降低管理成本,加速推动企业的数字化转型。
点击跳转 大数据研发治理DataLeap 了解更多
从此告别写 SQL!DataLeap 帮你零门槛完成“数据探查”的更多相关文章
- 个人永久性免费-Excel催化剂功能第20波-Excel与Sqlserver零门槛交互-数据上传篇
Excel作为众多数据存储的交换介质,在不同的系统内的数据很少可以很连贯地进行整合分析,一般的业务系统都会提供导出Excel作为标配功能供用户使用系统内生成的数据. 此时最大的问题是,Excel很维去 ...
- 个人永久性免费-Excel催化剂功能第21波-Excel与Sqlserver零门槛交互-执行SQL语句篇
在前两波中,已完成了Excel与Sqlserver的查询和上传功能,但难免许多临时的或更深入地操作数据库需要用Sql语句来操作,对一般用户电脑里,不可能有条件轻易安装一个数据库客户端软件,就算安装了对 ...
- 在mybatis中写sql语句的一些体会
本文会使用一个案例,就mybatis的一些基础语法进行讲解.案例中使用到的数据库表和对象如下: article表:这个表存放的是文章的基础信息 -- ------------------------- ...
- 一文让你从此告别HTTP乱码(一)Request篇
#circle { background-color: #8fcbec; border: 3px } 概述 开发Web项目的过程中,经常遇到浏览器中显示的内容乱码,或者服务器获取浏览器请求参数时乱码的 ...
- Java开发者写SQL时常犯的10个错误
首页 所有文章 资讯 Web 架构 基础技术 书籍 教程 我要投稿 更多频道 » - 导航条 - 首页 所有文章 资讯 Web 架构 基础技术 书籍 教程 我要投稿 更多频道 » - iOS ...
- hive--构建于hadoop之上、让你像写SQL一样编写MapReduce程序
hive介绍 什么是hive? hive:由Facebook开源用于解决海量结构化日志的数据统计 hive是基于hadoop的一个数据仓库工具,可以将结构化的数据映射为数据库的一张表,并提供类SQL查 ...
- 写sql语句分别按日,星期,月,季度,年统计
--写sql语句分别按日,星期,月,季度,年统计销售额 --按日 ' group by day([date]) --按周quarter ' group by datename(week,[date]) ...
- (摘至)程序员老鸟写sql语句的经验之谈
做管理系统的,无论是bs结构的还是cs结构的,都不可避免的涉及到数据库表结构的设计,sql语句的编写等.因此在开发系统的时候,表结构设计是否合理,sql语句是否标准,写出的sql性能是否优化往往会成为 ...
- Java 程序员在写 SQL 时常犯的 10 个错误
Java程序员编程时需要混合面向对象思维和一般命令式编程的方法,能否完美的将两者结合起来完全得依靠编程人员的水准: 技能(任何人都能容易学会命令式编程) 模式(有些人用“模式-模式”,举个例子,模式可 ...
- 程序员老鸟写sql语句的经验之谈
做管理系统的,无论是bs结构的还是cs结构的,都不可避免的涉及到数据库表结构的设计,sql语句的编写等.因此在开发系统的时候,表结构设计是否合理,sql语句是否标准,写出的sql性能是否优化往往会成为 ...
随机推荐
- HTML5学习内容-3
(一)行高 line-height,一行文字的高度 例子 <!DOCTYPE html> <html lang="en"> <head> < ...
- 报错Error running 'Tomcat 9.0.68': Can't find catalina.jar【解决办法】
修改tomcat路径,肯定是你移动了jar包在硬盘的位置 将路径改成当前所在的文件位置
- Excel中最牛的Index和match函数介绍
当谈到Excel中最强大的函数时,INDEX和MATCH往往会被提及.它们经常一起使用,可以用来查找和返回数据表中的特定数值或信息.下面是对这两个函数的详细介绍: INDEX 函数: INDEX函数的 ...
- 瀑布图有什么作用?除了excel如何快速制作?
瀑布图是一种特殊的数据可视化图表,具有以下作用: 1. 对比变化:瀑布图可以清晰地展示数据在不同因素作用下的变化情况.通过将数据分解成各个组成部分,并以阶梯状呈现,可以直观地对比每个因素对总体结果的影 ...
- C++ 邮件槽ShellCode跨进程传输
在计算机安全领域,进程间通信(IPC)一直是一个备受关注的话题.在本文中,我们将探讨如何使用Windows邮件槽(Mailslot)实现ShellCode的跨进程传输.邮件槽提供了一种简单而有效的单向 ...
- [ABC261E] Many Operations
Problem Statement We have a variable \(X\) and \(N\) kinds of operations that change the value of \( ...
- YOLO: Real-Time Object Detection 遇到的问题
YOLO: Real-Time Object Detection 官方介绍的方法安装好了yolo之后,然后使用命令: ./darknet detect cfg/yolov3.cfg yolov3.we ...
- PyTorch 中自定义数据集的读取方法
显然我们在学习深度学习时,不能只局限于通过使用官方提供的MNSIT.CIFAR-10.CIFAR-100这样的数据集,很多时候我们还是需要根据自己遇到的实际问题自己去搜集数据,然后制作数据集(收集数据 ...
- 用python将卡尔曼滤波技术和统计套利应用在期货市场
背景 根据当前中国的交易规则,股票不能做空.与更发达的市场相反,套利机会不容易实现.这表明那些寻找并能够利用它们的人可能会有机会. 因此,我决定使用统计套利和配对交易技术专注于中国的期货市场. 战略理 ...
- bash shell笔记整理——stat命令
stat命令的作用 stat主要用于查看文件的详细信息,包括access time(atime).modify time(mtime).change time.权限.属主.属组等信息 atime:只有 ...