更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群

近期,火山引擎 DataLeap 上线“动态探查”能力,为用户提供全局数据视角、完善的抽样策略,提高数据探查的灵活度以及响应速率。

传统的数据探查是基于库表的全量探查,由后端引擎执行,通过自动化检查数据成分、关系、格式等,以报告形式展示探查后列的统计分布结果,避免数据质量导致项目开发、上线出现问题,主要应用于元数据管理、数据研发、数仓开发以及数据治理等环节,满足使用者对数据质量初探的需求。

但在数据量级大、用户需要探查数据明细或需要数据预处理操作时,由于传统的数据探查要对全量表进行检测,导致无法实时产出报告、等待时间变长,灵活度低,且无法跟踪数据明细。

针对上述痛点,火山引擎 DataLeap 在传统数据探查基础能力上,进一步增强了动态探查能力。其特点在于:

  • 基于大数据预览探查,支持对数据进行函数级别预处理。

  • 数据探查结果秒级更新、实时响应。

  • 与数据监控联动,有效打通数据探查到质量分析闭环。

据介绍,DataLeap 动态探查的对象是抽样数据,支持连续抽样(按照默认顺序连续抽样前 x 条数据)、过滤抽样(使用 where 过滤语句过滤)、随机抽样(随机抽样 x 条数据)3 种模式,用户可对数据进行预处理,实时、动态获得统计分布结果,具备灵活度高、实效性强的特点。

火山引擎 DataLeap 动态探查使用流程

除此之外,DataLeap 动态探查具备对探查结果基础分析能力,包含列删除、过滤、排序等。用户对探查结果的每一次操作都会被记作一次操作,多次操作串联成操作栈,DataLeap 支持用户自由修改或删减操作栈里的步骤,并实时查看最新结果。

火山引擎 DataLeap 动态探查操作栈

火山引擎 DataLeap 数据探查报告

目前,DataLeap 动态探查可以应用在以下三个场景中:

  • 场景 1:用于分析型探查场景,用户可利用 hive 基本函数,如 get_json_object,将列进行数据提取。

  • 场景 2:与探查报告打通,用户点击探查报告中的统计值,即可跳转到数据表格,并应用具体行过滤函数。

  • 场景 3:用于数据过滤后的探查场景,用户通过过滤和分组条件进行写条件探查,例如校验 status=0 时 current_price 为 0 的占比。

DataLeap 是火山引擎数智平台旗下产品,提供数据集成、开发、运维、治理、资产、安全等能力,帮助用户提升数据研发效率、降低管理成本,加速推动企业的数字化转型,目前已经应用于泛互联网、制造、新零售、汽车等领域。

点击跳转火山引擎DataLeap了解更多

数据剖析更灵活、更快捷,火山引擎 DataLeap 动态探查全面升级的更多相关文章

  1. 火山引擎 DataLeap:3 个关键步骤,复制字节跳动一站式数据治理经验

    更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,并进入官方交流群 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维.治理. ...

  2. 火山引擎 DataLeap:揭秘字节跳动数据血缘架构演进之路

    更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维 ...

  3. 如何又快又好实现 Catalog 系统搜索能力?火山引擎 DataLeap 这样做

      摘要 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维.治理.资产.安全等全套数据中台建设,降低工作成本和数据维护成本.挖掘数据价 ...

  4. 火山引擎DataLeap数据调度实例的 DAG 优化方案

    更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,并进入官方交流群 实例 DAG 介绍 DataLeap 是火山引擎自研的一站式大数据中台解决方案,集数据集成.开发.运维.治理.资产管理能力 ...

  5. 火山引擎 DataLeap:一家企业,数据体系要怎么搭建?

    更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 导读:经过十多年的发展,数据治理在传统行业以及新兴互联网公司都已经产生落地实践.字节跳动也在探索一种分布式的数据治 ...

  6. 火山引擎 DataLeap 的 Data Catalog 系统公有云实践

      Data Catalog 通过汇总技术和业务元数据,解决大数据生产者组织梳理数据.数据消费者找数和理解数的业务场景.本篇内容源自于火山引擎大数据研发治理套件 DataLeap 中的 Data Ca ...

  7. 源码分析:Phaser 之更灵活的同步屏障

    简介 Phaser 是 JDK 1.7 开始提供的一个可重复使用的同步屏障,功能类似于CyclicBarrier和CountDownLatch,但使用更灵活,支持对任务的动态调整,并支持分层结构来达到 ...

  8. SQL 正则表达式使模式匹配和数据提取变得更容易

    SQL Server 2005 正则表达式使模式匹配和数据提取变得更容易 David Banister 本文讨论: 使用正则表达式进行高效的 SQL 查询 SQL Server 2005 对正则表达式 ...

  9. 使用hessian开发WebService,轻量级,更简单、快捷

    Hessian是一个轻量级的remoting onhttp工具,使用简单的方法提供了RMI的功能. 相比WebService,Hessian更简单.快捷.采用的是二进制RPC协议,因为采用的是二进制协 ...

  10. 如何用Serverless让SaaS获得更灵活的租户隔离和更优的资源开销

    关于SaaS和Serverless,相信关注我的很多读者都已经不陌生,所以这篇不会聊它们的技术细节,而将重点放在SaaS软件架构中引入Serverless之后,能给我们的SaaS软件带来多大的收益. ...

随机推荐

  1. el-table改变行高样式不生效的解决办法

    之前的效果是这样的,怎么设置也没用

  2. POI给单元格添加超链接(xls,xlsx)

    package com.topcheer.html; import java.io.FileOutputStream; import java.io.IOException; import org.a ...

  3. SHELL-反弹shell

    什么是shell? 在我们深入了解发送和接收 shell 的复杂性之前,了解 shell 实际上是什么很重要.用最简单的术语来说,shell 就是我们在与命令行环境 (CLI) 交互时使用的工具.换句 ...

  4. 脏牛-Linux内核提权

    漏洞范围 下载地址:https://github.com/FireFart/dirtycow 有一点可以在意,dirty.c内置在了kali中,使用命令searchsploit dirty可以搜索 也 ...

  5. 痞子衡嵌入式:RISC-V指令集架构MCU开发那些事 - 索引

    大家好,我是痞子衡,是正经搞技术的痞子.本系列痞子衡给大家介绍的是RISC-V指令集架构微控制器相关知识. RISC-V指令集最早要追溯到2010年,是加州大学伯克利分校的一个研究团队的项目,目标是设 ...

  6. Gym 101490K Safe Racing (dp转换, 超超超级详细,包你看懂)

    题意:给你一个长为L的圆形跑道,让你放置警示牌,相邻两个警示牌相隔距离不能超过S,让你求有多少种方案数放置.数据L,S都是1e6. 来个例子:L = 13, S = 5.一个圈表示长度为1. 思路:因 ...

  7. ZOJ 3735 Josephina and RPG (概率dp)

    题意:给你一个n,然后给你C(n,3)个队伍, 给你每个队伍之间的胜率. 接下来给你m个队伍,让你依次跟他们比赛,开始你能选择任意的队伍,如果你打赢了一支队伍,你可以选择换成输给你的这个队伍或者不换, ...

  8. epub文件如何查看

    http://epub-reader.online/# 你可以用在线的epub阅读器查看. 你可以使用本地的epub阅读器查看.如neatReader,wps. 你可以将epub转换成pdf,然后查看 ...

  9. 【ASP.NET Core】在node.js上托管Blazor WebAssembly应用

    由于 Blazor-WebAssembly 是在浏览器中运行的,通常不需要执行服务器代码,只要有个"窝"能托管并提供相关文件的下载即可.所以,当你有一个现成的 Blazor was ...

  10. Java 泛型与通配符 定义与使用

    一.泛型 定义: 把类型明确的工作推迟到创建对象或调用方法时才明确的类型,简而言之,未明确的数据类型. 类型: 泛型类,泛型方法,方形接口. 格式 泛型类格式:class 类名<E变量>{ ...