聚焦企业数据生命周期全链路火山引擎数智平台 VeDI 发布《数据智能知识图谱》

更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群

近日，火山引擎数智平台（VeDI）正式发布《数据智能知识图谱》（以下简称「图谱」），内容覆盖了包括数据存储计算、数据分析加速、数据研发治理、数据洞察分析，数据辅助决策、数据赋能营销等企业数据全生命周期的管理与应用。

更强劲的数据基座能力

随着企业数字化转型的需求愈加强烈，数据存储计算作为转型最底层的基座也更加受到关注。过去，传统湖仓一体时常发生数据源数据入湖时效性差、多源数据管理难等问题；而在批流一体方面，由于批流存储引擎不统一导致批流任务分开处理、数据存储浪费，以及单一 Flink 实现复杂的业务逻辑，运维和回溯成本高等问题也令企业头痛不已。为了帮助企业更好解决这些问题，火山引擎 VeDI 推出了湖仓一体分析服务 LAS，为企业提供源自字节跳动最佳实践的一站式 EB 级海量数据存储计算和交互分析能力。

此外，针对企业面临的：自建开源大数据平台常见的组件繁多且演进迅速、建设使用成本高、运维监控门槛高等问题。云原生开源大数据平台 E-MapReduce（简称 EMR）还能提供 100%开源兼容的大数据生态组件和丰富的运维管控能力，配合智能化的冷热数据分层存储和 Stateless 瞬态集群能力，帮助企业在大数据基建领域进一步降本提效。

考虑到部分企业对数据实时分析的加速需求，火山引擎 VeDI 还推出云原生数据仓库 ByteHouse。2017 年，字节跳动大规模启用 ClickHouse，并拥有着大规模 ClickHouse 集群。在持续使用过程中，字节跳动应对了诸多挑战并将每一次经验加以沉淀，在 2021 年 8 月正式发布 ByteHouse，并通过火山引擎对外服务。

从架构上来看，火山引擎 ByteHouse 与其他同类型产品相比，采用了自研的高可用引擎，支持数据实时更新、删除，新增了自研的查询优化器，并且在集群的运维和多表关联的场景都做了相应的增强；另一方面，全自研的查询优化能力，让 ByteHouse 可以保证用户在复杂查询的场景下具备更高的查询效能，这对重视实时数仓能力的用户来说，尤为重要。比如，丰富的表引擎不仅能帮助企业用户实现数据的快速写入去重、更新、删除与分析，还能支持高效方便的运维方式，实现高性能更灵活的实时查询。

当海量数据存储上云，如何让数据变得更有价值？这时候就需要对数据进行研发治理。对大多数企业来说，数据的研发和治理向来是“老、大、难”问题，需求响应慢、资源成本高、数据质量差、资产管理难、安全无保障，每一项都在阻挠让数据成为企业可用资源。

火山引擎 VeDI 旗下大数据研发治理套件 DataLeap 聚焦企业数据研发治理两个环节，提供全链路解决方案。

首先，DataLeap 能够为企业提供基于字节大数据研发流程沉淀的 DataOps 敏捷研发流程、海量任务秒级调度能力和开源计算引擎的拓展能力；其次，在数据治理上，提供了分布式自治、全链路治理等服务；最后，在数据资产建设上，具备数据资产快速接入及自动构建全链路血缘等技术能力。

多个环节问题，一套解决流程，让企业得以真正实现“数据资产”积累。