华为云数据治理生产线DataArts,让“数据‘慧’说话”
摘要:数据治理生产线DataArts改变了传统“人拉肩抗”的数据处理方式,帮助提升效率;降低技术门槛,让“人人都是分析师”;让“数据‘慧’说话”,驱动高效决策。
本文分享自华为云社区《【大厂内参】第15期:华为云数据治理生产线DataArts,让“数据‘慧’说话”》,作者: 华为云社区精选。

当下我们已经进入到了数字经济时代。数据作为一种新型生产要素写入《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》文件中,与土地、劳动力、资本、技术等传统要素并列为要素之一。
数字经济已经渗透到各行各业,正在引领新经济发展,数字经济覆盖面广且渗透力强,与各行业融合发展,预计到2025年产业数字化机会将达到23万亿美元规模。

所有的企业必须进行数字化转型,才能适用时代的发展。随着数字化转型的深入,数据作为核心资产要驱动业务和释放价值,需要:
- 能进得来,各种大量、多样性、实时的数据源能被高效集成;
- 能放得下,海量数据长期存储的性价比高,不用做各种模式转换,易于分析计算;
- 能理得清,基于业界最佳实践建模,数据之间的关系清晰可见,含义简单易懂,质量问题及时发现;
- 能找得快,迅速找到需要的是数据资产,能快速分析出价值;
- 能用得好,数据价值显性化,快速响应业务需求,驱动经营完善。
企业数字化转型升级的三大要求:数据智能体验、数据智能决策、数据智能流程。但是要想实现数据的智能化,企业也面临着非常多的挑战:
- 数据治理难:从数据到支撑业务的资产,传统数据库、数仓建模和知识图谱等技术无法满足企业全业务流程分析和决策需求,导致难以管理和分析海量异构数据,治理好的数据也难以和应用有效融合;
- 众多的系统和复杂的架构:随着业务成长,需要管理众多系统如湖、仓、AI等;
- 技术门槛高:大多数企业缺乏大数据相关人员,研发效率低,维护成本高。
为解决数据治理难、技术门槛高、众多的系统和复杂的架构三大挑战,让数据释放价值,华为云推出了数据治理生产线DataArts。
1.DataArts使能数据治理向自动化、智能化升级
所谓数据生产线,顾名思义,就像生产线一样,把海量的复杂的无序的数据,生产成为清洁透明高质量的数据能源,输送给业务。
华为云数据治理生产线DataArts可以帮助企业解决数据智能化面临的三大挑战,让数据发挥价值,并能完美契合企业数据治理的核心诉求。数据治理生产线DataArts主要包含两大部分:
- DataArts LakeFormation:负责整合所有云原生数据湖的组建工作,统一管理一系列数据引擎的源数据,方便上层开发者使用。
- DataArts Studio:面向数据域的开发者、管理者、架构师,涵盖数据生产、处理、使用的全流程生命周期,帮助开发者系统管理和使用数据。
数据治理生产线DataArts可以帮助企业的数据源进行:数据接入、数据开发、数据治理、数据资产、数据服务、数据安全、数据共享,最终转化成为数据应用。就像生产线一样,能够把海量复杂,无序数据,转化成为高质量的数据能源并输送给业务,实现数据驱动、实时决策。
数据治理生产线DataArts能够帮助数据实时入湖,进行分析处理;具备AI能力,其中AutoETL能够实现数据的准备,自动化标准和质量稽核,实现智能数据治理;拥有全链路安全管理能力,能够保护好用户的隐私数据,对数据进行合规性审计;帮助企业沉淀数据资产,发挥数据价值,实现业务的创新与发展。
总的来说,数据治理生产线DataArts改变了传统“人拉肩抗”的数据处理方式,帮助提升效率;降低技术门槛,让“人人都是分析师”;让“数据‘慧’说话”,驱动高效决策。

在技术架构方面, DataArts不仅支持OLAP数据仓库及大数据分析平台,还支持OLTP事务性数据库。DataArts具备丰富的集成工具,支持将结构化、半结构化、非结构化的数据,即可以实时数据同步入湖,也支持高效的批量数据集成。
DataArts的核心产品:DataArts Studio。 它是从数据集成到开发、治理、服务一站式端到端的平台。支持数据工程师高效数据开发,也支持不懂数据开发和数据分析的业务人员,通过No Code的方式进行数据的准备和处理。让数据治理成为全民都可以参与的数据工作。
2.DataArts5大新特性面面观
2.1 元数据自动发现和表格化存储

数据入湖过程中,自动元数据发现和表格化存储,便于数据的搜索、计算和分析:
- 支持OBS、HDFS/SFTP、Kafka、REST等数据存储上的文件、消息元数据自动发现;
- 自定义分类器,支持CSV、JSON、文本、Parquet、ORC、Hudi等半结构化数据进行Schema自动模式推断和提取;
- 构建表、字段、分区,并感知其变化等元数据信息,便于数据的搜索、计算和分析。
2.2 智能增强的AutoETL能力

智能增强的AutoETL能力,数据准备效率提升20%:
- 融合code模式与no-code模式:支持No-code模式开发流/批数据处理作业,作业节点数量降低20%,数据作业开发效率由天级别降到小时/分钟级别;
- 丰富的数据处理算子库:支持清洗、过滤、合并、Join等数据处理类别10+,算子数量200+。
2.3 智能增强的数据异常检测

智能增强的数据异常检测,万张表扫描速度提升5倍,提升数据质量稽核效率:
- 通过模糊索引、模式挖掘等方法发现潜在重复数据区块;
- 通过相似性对比检查数据的语法差异,以及领域知识库的实体解析检查数据的语义差异;
- 支持实时采样计算数据质量预览,支持高性能扫描计算数据质量,万张表扫描速度提升5倍。
2.4 企业级数据目录

企业级数据目录,像搜索引擎一样搜索和管理数据资产:
- 企业级数据目录 面向多云多Region逻辑数据湖的统一数据目录,技术元数据自动同步更新,并与业务元数据和管理元数据信息关联;
- 自然语义搜索,智能推荐 支持以自然语言搜索数据资产,并智能给出搜索建议、资产推荐和排序;
- 360全景“实体-关系”知识图谱 自动发现数据联系。智能导航,路径分析、社群分析等高级图分析,1W+点图分析响应时间200ms以内。
2.5全链路数据安全保护

全链路数据安全保护,中心化安全策略治理,智能识别隐私数据:
- 中心化数据安全治理,支持企业实现企业数据安全策略统一管控;
- 智能数据安全:内置GDPR安全规则库、支持数据访问权限控制、敏感数据自动识别,智能数据保护(加密、脱敏、水印);
- 全链路数据安全保障,数据集成、传输、存储、数据架构设计、开发准备、资产搜索、服务开放等全链路都集成了数据安全能力。
在生态开发方面,华为云的云原生集成数据管理生态产品将持续增强DataArts:
- 面向生态开放,引入BI、主数据、数据建模、数据标签等数据管理行业TOP伙伴SaaS产品,并与数据治理生产线的DataArts Studio、Lakeformation等云原生服务集成,为客户提供一致性体验
- 伙伴产品与华为云“联营联运”,支持客户一键购买开通,以及按需订阅消费
目前,数据治理生产线DataArts在华为内外部有丰富的实践。在内部,基于DataArts,华为生产出10多万个高质量的数据资产;在华为外部,DataArts服务了1000家以上的政企客户,每天有千万级数据任务在云上DataArts运行。
3.华为云DataArts帮助企业快速构建数字化运营能力
安永主要有审计、咨询、税务和战略与交易四大核心业务,其中咨询服务提供从业务规划、解决方案设计与实施,到业务运营的全方位端到端服务,以实现客户理念落地。
华为&安永联合解决方案融合了华为数字技术的优势和安永对业务洞察的深入理解。基于先进的华为云平台和健全的数据管理体系,实现数据资产化、完善数据运营体系,为多业务场景赋能,提供数字化转型支撑。

安永基于联合解决方案在为某集团数字化生产中心提供服务的过程中,通过完成生产关键设备数据、环境信息的采集、基于ROMA实现各系统间数据分发,实现结构化、非结构化、实时、离线数据集成并构建大数据平台,通过DataArts Studio和DWS实现各类数据的整合处理,形成企业级数据底座。基于大数据平台数据实时分析能力,实现生产实时预警及监控,基于大数据平台支持BI企业综合营运分析和领导决策支持。


数据使能技术架构
为了让用户更好的体验一站式数据治理服务,DataArts Studio接下来将会有新特性发布,主要体现在:编辑器优化、团队协作增强、调度引擎升级、图形化运维。
- 编辑器优化:更丰富的语法联想、快速补全SQL,自动格式优化;异常关闭脚本可恢复,防止代码丢失;支持全库代码检索。
- 团队协作增强:作业和脚本的多版本管理,生产与开发环境隔离审核;多人开发抢锁、解锁机制,防止意外覆盖;跨空间依赖,方便多部门协作。
- 调度引擎升级:调度机制优化,支持自然周期核心调度;调度性能升级,支持千万级/日任务调度。
- 图形化运维:作业依赖关系自动解析,图形化展示作业依赖树;DAG图形化运维,集中查看上下游的作业和运行结果、日志提高问题定位效率。
最后
面对数字化时代大潮,制造企业数据资产越来越重要,数字化转型迫在眉睫。但数字化转型道阻且长,而且数据繁多不好处理,制造业亟需上云构建企业数据资产,华为云数据治理生产线DataArts利用已有的策略、技术和经验,将持续赋能制造企业实现数据治理和资产沉淀,为制造业数字化转型和智能化升级提速。
华为云数据治理生产线DataArts,让“数据‘慧’说话”的更多相关文章
- Apache 首次亚洲在线峰会: Workflow & 数据治理专场
背景 大数据发展到今天已有 10 年时间,早已渗透到各个行业,数据需 求越来越多,这使得大数据 业务间的依赖关系也越来越复杂,另外也相信做数据的伙伴肯定对如何治理数据也是痛苦之至,再加上现今云原生时代 ...
- 数据治理(Data Governance)
今天看到一篇数据治理的论文,以下为论文内容的记录与学习. 数据治理是指将数据作为企业资产而展开的一系列的具体化工作,是对数据的全生命周期管理.数据治理的目标是提高数据质量(准确性和完整性),保证数据的 ...
- Nebula Graph 在微众银行数据治理业务的实践
本文为微众银行大数据平台:周可在 nMeetup 深圳场的演讲这里文字稿,演讲视频参见:B站 自我介绍下,我是微众银行大数据平台的工程师:周可,今天给大家分享一下 Nebula Graph 在微众银行 ...
- 火山引擎 DataLeap:3 个关键步骤,复制字节跳动一站式数据治理经验
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,并进入官方交流群 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维.治理. ...
- 华为云kafka POC 踩坑记录
2019/03/08 18:29 最近在进行华为云相关POC验证,个人主要负责华为云DMS kafka相关.大致数据流程是,从DIS取出数据,进行解析处理,然后放入kafka,再从kafka中取出数据 ...
- 走近深度学习,认识MoXing:初识华为云ModelArts的王牌利器 — MoXing
[摘要] 本文为MoXing系列文章第一篇,主要介绍什么是MoXing,MoXing API的优势以及MoXing程序的基本结构. MoXing的概念 MoXing是华为云深度学习服务提供的网络模型开 ...
- 揭秘丨7分钟看懂华为云鲲鹏Redis背后的自研技术【华为云技术分享】
2019年5月,华为云发布全球首个基于自研ARM架构的分布式缓存鲲鹏Redis,搭载华为LibOS+华为编译器+安全容器引擎三项黑科技,在保证Redis强劲高性能外,还降低客户30%的使用成本,真正实 ...
- 聊聊如何在华为云IoT平台进行产品开发
摘要:华为云物联网平台承载着南北向数据互通的功能职责. 本文分享自华为云社区<如何基于华为云IoT物联网平台进行产品开发>,作者: Super.雯 . 华为云物联网平台承载着南北向数据互通 ...
- OpenHarmony3.0如何轻松连接华为云IoT设备接入平台?
摘要:本文主要介绍基于OpenHarmony 3.0版本来对接华为云IoT设备接入IoTDA,以小熊派BearPi-HM_Nano开发板为例,使用huaweicloud_iot_link SDK对接华 ...
- 华为云发布桌面IDE-CodeArts
摘要:华为伙伴暨开发者大会2022,发布华为云桌面IDE-CodeArts. 本文分享自华为云社区<华为云发布桌面IDE-CodeArts,让连接更简单.编码更智能>,作者: Huawei ...
随机推荐
- ACL 与NAT
ACL 概述 acl是由一系列permit或deny语句组成.有序规则的列表. ACL是一个匹配工具,能够对报文进行匹配和区分. 应用 匹配流量 在traffic-filter中备调用 在NAT中被调 ...
- 网络基础-OSI七层vsTCP/UDP四层 五层 数据封装
1.0 网络基础 1.1 网络是什么? 网络是信息传输.接收.共享的虚拟平台,通过它把各个点.面.体的信息联系到一起,从而实现这些资源的共享 网络分类:局域网 ,城域网,广域网 1.2 数据通信方式 ...
- 2022/7/26 暑期集训 pj组第6次%你赛
个人第3次 又是下午打,旁边那帮 不知好歹的 入门组小孩们又在吵吵... T1 老师是不是放反了? T1 是蓝题诶 理所应当地 跳过 然后就忘了写了,连样例也没打...样例可是有7分诶! 到现在也没写 ...
- HarmonyOS 高级特性
引言 本章将探讨 HarmonyOS 的高级特性,包括分布式能力.安全机制和性能优化.这些特性可以帮助你构建更强大.更安全.更高效的应用. 目录 HarmonyOS 的分布式能力 HarmonyOS ...
- 一、Linux发展史
一.Linux发展史及红帽认证 红帽授权培训合作伙伴 木兰宽松许可证 1. Linux系统发展史 1. Unix发展历程 上世纪六十年代贝尔实验室(Bell).麻省理工学院(MIT)以及通用电气(GE ...
- 分享一个有趣的WBO在线创作画板并且可以远程访问
WBO在线协作白板是一个自由和开源的在线协作白板,允许多个用户同时在一个虚拟的大型白板上画图.该白板对所有线上用户实时更新,并且状态始终保持.它可以用于许多不同的目的,包括艺术.娱乐.设计和教学,使用 ...
- 递归与分治思想:治思想 && 折半查找法(迭代 && 递归)
1 //分治思想:将大问题拆成小问题逐一解决 2 //折半查找法:不断缩小一半查找的范围,知道达到目的,效率较高. 详情见:https://fishc.com.cn/thread-27964-1-1. ...
- LabVIEW用布尔控件实现上升沿和下降沿触发
我们利用了第三方布尔控件来记录摇杆的高低电平状态,并和摇杆布尔控件组成布尔数组,转换成十进制数进行判断上升沿和下降. 上升沿触发.例如一开始第三方布尔控件为T,夹紧松开布尔控件为F,然后我这时把摇杆控 ...
- Linux-目录层次标准
版权声明:原创作品,谢绝转载!否则将追究法律责任. ----- 作者:kirin 根目录(/) 根目录是整个系统最重要的一个目录,因为不但所有的目录都是由根目录衍生出来的,同时根目录也与开机.还原.系 ...
- xv6:labs2 syscall
lab2 1.lab2的内容总结:关于系统调用整个跟踪过程: 使用系统调用时,用户态会通过软中断(trap,陷阱)进入内核中,由trap识别中断来自系统调用,然后调用syscall函数, 跟踪过程: ...