更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群
 
自上世50年代,以“计算机”作为代表性象征的信息革命开始,社会对于先进生产力的认知便开始逐步更迭——从信息化(通常认为是把企业中的信息资源与信息技术有机结合,从而提高企业的管理水平和效率)到数字化(普遍认为是以数据分析为核心,利用各种业务数据去反哺和优化业务过程)转变。
 
企业希望通过数字化来突破业务瓶颈,实现转型升级。而这期间,数据作为新的生产要素,其重要性毋庸置疑。
 
9月19日,2023火山引擎数据驱动科技峰会发布数据产品大语言模型(Large Language Models)应用:DataLeap-找数助手、DataLeap-开发助手和DataWind-分析助手,为企业提供从数据资产的检索、到数据开发,再到数据应用的全链路AI能力。
 
上述能力的发布,其目的就是让企业能更便捷地生产数据、应用数据,实现更普惠的数据消费,为数字化提供现实基础。
 
DataLeap是火山引擎数智平台(VeDI)推出的大数据研发治理套件,核心是帮助企业快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设。
 
DataLeap此次升级发布的两款大模型应用能力“DataLeap-找数助手”“DataLeap-开发助手”,主要聚焦在企业数据资产查询与数据开发运维两大核心场景,通过大模型能力的加持,降低企业数据资产检索和数据开发的准入门槛。
 
“DataLeap-找数助手”:AI+数据资产查询 提升数据资产检索效率
利用“DataLeap-找数助手”,可以实现多种数据类型及相关业务知识的问答式检索。
 
从企业数据消费的链路来看,数据资产的检索、管理可以看作是消费的第一环。找到正确的数据资产,继而才能实现数据的消费。
 
数据的查找和使用本身强依赖业务专业知识的输入。过去传统技术方案下,数据资产检索重依赖数据结构化管理,需要大量的人力保障,且不够灵活。同时,非结构化数据与数据资产的关联缺失,会导致大量业务信息缺失,而以往基于关键词在结构化及非结构化数据中的检索,由于检索链路割裂,会大大降低基于业务场景的数据查找和消费效率。此外,检索提供的是基于关键词的候选答案集合,需要人为再次筛选确认,不是直接的答案,导致用户很难有良好体验。
 
与大语言模型(LLM)结合后,资产查询的方式变得更“拟人化”:在与用户对话式的过程中,大语言模型(LLM)可以理解用户真实意图,让搜索过程更聚焦,节约了人为判断的成本。同时,伴随模型语义理解分析能力的逐步提升,对话式检索相比单纯地用关键词检索的方式,其全链路的检索效率也更高。
 
在功能上,“DataLeap-找数助手”目前主要提供三类:
  1. 找数据,表、数据集、仪表盘等
  2. 问含义,指标的口径信息、维度枚举值含义等
  3. 业务咨询,业务知识咨询,如业务常见术语含义,业务分类等信息
其核心优势在于:
  1. 问答式查询方式,查询效率更高;
  2. 轻量化接入能力,支持自助接入企业知识库;
  3. 语料充分,元数据中心能力完善可提供企业级服务
 
能力发布后,“DataLeap-找数助手”将让企业的数据资产检索变得更快,使得低成本管理、真正的自助式数据消费变得可行。
 
“DataLeap-开发助手”:AI+数据生产 降低数据开发门槛
利用“DataLeap-开发助手”,可以实现通过自然语言描述,自动生成代码;针对已有的代码可以自动实现Bug修复,代码优化、解释与注释等;对话式方式进行文档搜索、函数使用、代码示例等问题咨询。
过去,研发人员必须充分熟悉SQL等数据开发语言,才能高效支持数据分析背后的开发需求。但在现实场景中,数据分析师、依赖数据的业务运营人员都会有大量的数据消费诉求,也就意味着需要大量的专业数据研发人员来支持一些看似基础但仍需要人为介入的开发工作。
“DataLeap-开发助手”底层采用大语言模型,经过海量的代码和语料训练,可以根据用户的自然语言输入,自动关联包括表Schema在内的元数据信息,生成高质量的数据加工代码,并具备代码的理解、改写以及领域知识的问答能力。
 
目前看,“DataLeap-开发助手”主要提供以下3个细分场景的服务:
  1. 生成代码:描述需要处理的问题可以自动生成代码,例如:从多张数据表中,通过关联,自动查询、统计指标数据;
  2. 智能问答:根据你描述的问题进行答疑,例如忘记 Spark 函数怎么写,唤起智能开发助手,询问函数使用方式;
  3. 修复/优化代码:用户可以直接在SQL 编辑器中通过AI修复功能,了解详细的报错原因,并基于修复建议“一键完成”选中代码的修复/优化。
 
“DataLeap-开发助手”的核心优势在于:
  1. 适配多场景数据开发,简单场景自动开发,复杂场景辅助提效
  2. 内置于编辑器,灵活唤起,减少多工具切换成本,交互体验对齐桌面原生 IDE(集成开发环境)
  3. 模型来源可扩展,支持企业自有模型接入
 
其核心价值是打破了语言障碍,极大程度降低了数据开发的准入门槛,同时让专业数据研发人员更聚焦复杂场景的需求,利用开发助手优化代码,提高研发生产效率与代码质量。
 
以DataLeap为代表的火山引擎多个数据产品拥抱AI,本质是为了降低数据消费门槛,通过数据消费来实现企业数据资产与业务应用的飞轮效应,提升企业活力。
 
点击跳转大数据研发治理套件 DataLeap了解更多

火山引擎DataLeap推出两款大模型应用: 对话式检索与开发 打破代码语言屏障的更多相关文章

  1. 如何又快又好实现 Catalog 系统搜索能力?火山引擎 DataLeap 这样做

      摘要 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维.治理.资产.安全等全套数据中台建设,降低工作成本和数据维护成本.挖掘数据价 ...

  2. 火山引擎 DataLeap:3 个关键步骤,复制字节跳动一站式数据治理经验

    更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,并进入官方交流群 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维.治理. ...

  3. 火山引擎 DataLeap:揭秘字节跳动数据血缘架构演进之路

    更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维 ...

  4. 火山引擎DataLeap数据调度实例的 DAG 优化方案

    更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,并进入官方交流群 实例 DAG 介绍 DataLeap 是火山引擎自研的一站式大数据中台解决方案,集数据集成.开发.运维.治理.资产管理能力 ...

  5. Intel推出两款新处理器路线图公布

    10月份Intel会推出两款新处理器,一个是酷睿i9-9900KS,全核5GHz处理器,还有就是Cascade Lake-X系列的HEDT旗舰,今年的处理器布局大概就是这样了. 与AMD承诺每年发布一 ...

  6. 火山引擎 DataLeap 的 Data Catalog 系统公有云实践

      Data Catalog 通过汇总技术和业务元数据,解决大数据生产者组织梳理数据.数据消费者找数和理解数的业务场景.本篇内容源自于火山引擎大数据研发治理套件 DataLeap 中的 Data Ca ...

  7. 火山引擎 DataLeap:一家企业,数据体系要怎么搭建?

    更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 导读:经过十多年的发展,数据治理在传统行业以及新兴互联网公司都已经产生落地实践.字节跳动也在探索一种分布式的数据治 ...

  8. 无插件的大模型浏览器Autodesk Viewer开发培训-武汉-2014年8月28日 9:00 – 12:00

    武汉附近的同学们有福了,这是全球第一次关于Autodesk viewer的教室培训. :) 你可能已经在各种场合听过或看过Autodesk最新推出的大模型浏览器,这是无需插件的浏览器模型,支持几十种数 ...

  9. 华为高级研究员谢凌曦:下一代AI将走向何方?盘古大模型探路之旅

    摘要:为了更深入理解千亿参数的盘古大模型,华为云社区采访到了华为云EI盘古团队高级研究员谢凌曦.谢博士以非常通俗的方式为我们娓娓道来了盘古大模型研发的"前世今生",以及它背后的艰难 ...

  10. APC推出鞋底缓震科技 两款中高端跑鞋将陆续上市

    近日,英国知名运动品牌APC(公司编号:08703733)推出了全新的鞋底缓震科技 NOVR,该项技术将首先应用于两款跑步鞋上,随后陆续应用到其他重点鞋类产品. 是对于各大运动品牌来说,鞋底研发一直是 ...

随机推荐

  1. AGC044C Strange Dance 题解

    在2020年A卷省选day2t2有类似建立trie的技巧. 题目链接 显然是建一棵三叉trie树,代表0/1/2 对这棵trie树,我们需要支持子树交换和全局加1 考虑第一个操作怎么做?直接打个懒标记 ...

  2. 聊聊RNN与seq2seq

    seq2seq模型也称为Encoder-Decoder模型.顾名思义,这个模型有两个模块--Encoder(编码器)和Decoder(解码器).编码器对输入数据进行编码,解码器对被编码的数据进行解码. ...

  3. 对于goland相对较新一些版本新建项目时没有go mod模式选项的坑

    前言 对于一些小白在网上看很早的一些go视频,使用goland2020.3.x版本或者其之前版本创建新项目,里面会有GO Modules(vgo)这个选项,也就是gomod模式创建新项目,然而对于现在 ...

  4. 字符串分割(String.Split)时连同分隔符一起返回

    今天有个群友问了这个问题:"字符串分割时,如何连同分隔符一起返回?". 我这里写了个String扩展类,模仿原生的Split方法,与原生Split方法的区别在于多了个返回分隔符的枚 ...

  5. windows server 2019 2012 server 2022 无线网卡驱动安装报错,无线网卡驱动不能安装, inf服务安装段落无效

    windows server 2019 无线网络 服务安装段落无效 windows server 2019 无线网卡驱动安装报错,无线网卡驱动不能安装, inf服务安装段落无效 indows serv ...

  6. 外包杯学习进度(一) | 【Android】【Javaweb】Android与JavaWeb服务器交互教程——搭建环境

    前言 我们老师留了一个题目,这里就不写了,第一需要攻破的问题就是如何将app中的数据域javaweb进行传递,并可以回弹消息等问题.所以就开始了解一下这方面的信息. 资料积累 参考胡大炮的妖孽人生的博 ...

  7. 黑客玩具入门——9、Burp Suite

    Burp Suite是一款集成化的渗透测试工具,包含了很多功能,可以帮助我们快速完成对web应用程序的渗透测试和攻击.Burp Suite是由Java语言编写,因为Java是可以跨平台的,所以Burp ...

  8. Qt官网开源最新版下载安装保姆级教程

    什么是Qt(了解请跳过) Qt 基本介绍 Qt 是一个跨平台C++图形用户界面应用程序开发框架. 有关 Qt 的详细介绍,可以参考这篇文章: Qt是什么?Qt简介(非常全面) - 李清龙的文章 - 知 ...

  9. vertx的学习总结2

    一.什么是verticle verticle是vertx的基本单元,其作用就是封装用于处理事件的技术功能单元  (如果不能理解,到后面的实战就可以理解了) 二.写一个verticle 1. 引入依赖( ...

  10. 浅谈 Socket.D 与响应式编程

    一.Socket.D 的主要特性 首先,Scoket.D 是高效一个二进制的网络通讯协议(官方我讲法是:基于事件和语义消息流的网络应用协议),能够满足很多场景下使用.其次,Scoket.D 是温和的响 ...