从此告别写 SQL!DataLeap 帮你零门槛完成“数据探查”
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群
在日常数据处理工作中,产品、运营、研发或数据分析师经常会面临数据量大且混乱、质量参差不齐的问题,需要花费大量时间和精力校验表数据是否完整、是否有空值,表数据是否有异常、主键是否重复等。
这种校验工作也被称为“数据探查”,即数据负责人在上线前对数据进行测试,保证数据符合业务预期,避免下游用户因为数据错误导致决策失误;或者数据使用者在启用数据表时,对表中数据的质量进行核对,尽早发现缺陷并处理,加强数据质量保障。
一般来说,数据从业者会通过写 SQL 的方式来进行数据探查。但作为数据库查询语句,SQL 具备一定专业门槛,并且重复操作、花费时间。
火山引擎 Dataleap 推出的“数据探查”功能,可一举解决以上问题,帮助数据从业者校验数据量、主键、空值、枚举值等数值。用户只要进行简单的勾选操作,就能轻松获得详细、准确的可视化校验报告,极大节约时间成本,提升工作效率。
具体来说,用户从 DataLeap 进入「数据质量」即可找到「数据探查」模块,从这一界面中点击「确定」按钮即可创建校验。除此之外,用户在 DataLeap 中创建 EMR/LAS SQL 相关类型任务之后,也可以通过任务面板上的「数据校验」button 进入「数据探查」模块。

第一步:选择数据源
根据引擎侧选择探查对象,用户可在页面中选择表和库,并设置分区,和对应的探查设置,随后提交确认。

第二步:选择校验内容
如下图所示,在随后的详细设置页面中,使用者对表 NULL 值、0 值、数值分布、字段枚举值、字段空值等需要校验的项目进行勾选。

第三步:高级参数设置
在参数设置中,支持以传参方式设置探查滤条件,点击确定,即可完成。

管理探查结果
数据探查创建成功后,可以执行查看探查报告、搜索探查结果、查看运行日志等操作,点击探查结果列表前的折叠图标或点击全部展开按钮,展开列表信息

校验报告一览
最后,用户通过「数据探查」能够得到什么信息呢?DataLeap 将表中的数据信息以概览和图表的方式进行呈现。

①标题及概览
用户可以一目了然看到校验的基本参数:如谁发起的校验、探查完成时间、分区字段及过滤条件等。
在校验概览中,用户可以看到整张表的探查规则下行数的枚举值分布,主键重复的行数,出现空值的字段数。
②字段枚举值
左侧可选择用户指定的枚举字段,右侧以列表展示该枚举字段下的所有枚举值及其出现次数,以及在各个分组取值下的枚举值数量。

除了数据探查能力之外,作为大数据研发治理套件,DataLeap 还可以提供数据集成、开发、运维、治理、资产、安全等能力,帮助用户提升数据研发效率、降低管理成本,加速推动企业的数字化转型。
点击跳转 大数据研发治理DataLeap 了解更多
从此告别写 SQL!DataLeap 帮你零门槛完成“数据探查”的更多相关文章
- 个人永久性免费-Excel催化剂功能第20波-Excel与Sqlserver零门槛交互-数据上传篇
Excel作为众多数据存储的交换介质,在不同的系统内的数据很少可以很连贯地进行整合分析,一般的业务系统都会提供导出Excel作为标配功能供用户使用系统内生成的数据. 此时最大的问题是,Excel很维去 ...
- 个人永久性免费-Excel催化剂功能第21波-Excel与Sqlserver零门槛交互-执行SQL语句篇
在前两波中,已完成了Excel与Sqlserver的查询和上传功能,但难免许多临时的或更深入地操作数据库需要用Sql语句来操作,对一般用户电脑里,不可能有条件轻易安装一个数据库客户端软件,就算安装了对 ...
- 在mybatis中写sql语句的一些体会
本文会使用一个案例,就mybatis的一些基础语法进行讲解.案例中使用到的数据库表和对象如下: article表:这个表存放的是文章的基础信息 -- ------------------------- ...
- 一文让你从此告别HTTP乱码(一)Request篇
#circle { background-color: #8fcbec; border: 3px } 概述 开发Web项目的过程中,经常遇到浏览器中显示的内容乱码,或者服务器获取浏览器请求参数时乱码的 ...
- Java开发者写SQL时常犯的10个错误
首页 所有文章 资讯 Web 架构 基础技术 书籍 教程 我要投稿 更多频道 » - 导航条 - 首页 所有文章 资讯 Web 架构 基础技术 书籍 教程 我要投稿 更多频道 » - iOS ...
- hive--构建于hadoop之上、让你像写SQL一样编写MapReduce程序
hive介绍 什么是hive? hive:由Facebook开源用于解决海量结构化日志的数据统计 hive是基于hadoop的一个数据仓库工具,可以将结构化的数据映射为数据库的一张表,并提供类SQL查 ...
- 写sql语句分别按日,星期,月,季度,年统计
--写sql语句分别按日,星期,月,季度,年统计销售额 --按日 ' group by day([date]) --按周quarter ' group by datename(week,[date]) ...
- (摘至)程序员老鸟写sql语句的经验之谈
做管理系统的,无论是bs结构的还是cs结构的,都不可避免的涉及到数据库表结构的设计,sql语句的编写等.因此在开发系统的时候,表结构设计是否合理,sql语句是否标准,写出的sql性能是否优化往往会成为 ...
- Java 程序员在写 SQL 时常犯的 10 个错误
Java程序员编程时需要混合面向对象思维和一般命令式编程的方法,能否完美的将两者结合起来完全得依靠编程人员的水准: 技能(任何人都能容易学会命令式编程) 模式(有些人用“模式-模式”,举个例子,模式可 ...
- 程序员老鸟写sql语句的经验之谈
做管理系统的,无论是bs结构的还是cs结构的,都不可避免的涉及到数据库表结构的设计,sql语句的编写等.因此在开发系统的时候,表结构设计是否合理,sql语句是否标准,写出的sql性能是否优化往往会成为 ...
随机推荐
- [Python急救站课程]汇率转换程序
汇率转换程序 i = input("请输入金额用"¥"或"$"结束:") if i[-1] in ['¥']: C = (eval(i[0: ...
- 如何使用Python将PDF转为Excel
PDF文件是一种静态文档格式,通常难以编辑,而Excel则是一个灵活的表格工具.如果你需要处理PDF表格中的数据,那么将其导出为Excel文件可以大大节省工作时间和精力.Excel提供的强大数据编辑和 ...
- 旋转矩阵(leetcode4.7每日打卡)
给你一幅由 N × N 矩阵表示的图像,其中每个像素的大小为 4 字节.请你设计一种算法,将图像旋转 90 度. 不占用额外内存空间能否做到? 示例 1: 给定 matrix = [ [1,2, ...
- Ubuntu环境下C++使用onnxruntime和Opencv进行YOLOv8模型部署
目录 环境配置 系统环境 项目文件路径 文件环境 config.txt CMakeLists.txt type.names 读取config.txt配置文件 修改图片尺寸格式 读取缺陷标志文件 生成缺 ...
- LabVIEW基于机器视觉的实验室设备管理系统(4)
目录 行动计划 后面板连线 初始化 返回 注册 账号限制 查重账号或者姓名 确认密码 注册 效果演示 我们上一期制作完了给账户修改密码,那么我们这一期就来完成账户注册这一功能.老规矩哦,先来计划 ...
- 基于FFmpeg和Qt实现简易视频播放器
VideoPlay001 记得一键三连哦 使用qt+ffmpeg开发简单的视频播放器,无声音 视频解码使用的是软解码即只用CPU进行QPainter绘制每一帧图像,CPU占用过高 简单易学,适合小白入 ...
- Spring优雅关闭之:ShutDownHook
转载自:https://blog.csdn.net/qq_26323323/article/details/89814410 2020/02/26重新编辑一下 前面介绍ShutDownHook的基本使 ...
- [ABC317G] Rearranging
Problem Statement There is a grid with $N$ rows and $M$ columns. The square at the $i$-th row from t ...
- C++学习笔记六:运算符(五种基本运算操作,优先级和结合性)
这一章对操作符进行简单的总结: 1.五种基本运算类型:加减乘除,取余 add, substract, multiply, divide, modulus int number1{2}; int num ...
- LeetCode1806:还原排列的最少操作步数(置换群 or 模拟)
题意:题目的意思是,给定一个初始状态perm,然后对perm的每个元素按照上述的规则进行变换操作.问:perm经过多少次这种操作能够变回初始的perm. 解题思路:第一种方法就是模拟,一直变换,直到变 ...