DataOps系列丨数据的“资产负债表”与“现状”
作者:DataPipeline CEO 陈诚
《跨越鸿沟》的作者Geoffrey Moore曾说“没有数据,运营企业就像一个又聋又瞎的人在高速上开车一样”。数据的价值从未像现在这样被企业重视,IDC预估,到2020年,全世界会有44万亿G数据,每一个世界500强的CEO和独角兽创业公司的创始人都在思考并实践如何能用数据支持、改造、创新业务,以获得新的增长。
尽管越来越多的人认同数据是极为重要的资产,但由于数据全生命周期管理和使用的复杂度,导致过去的数据管理方法论虽然正确且全面,但往往在推进落地的过程中容易陷入高投入慢节奏的怪圈。 投入产出比不清晰,多数项目半途夭折,已经成为多数企业在数据管理方面不可言说的痛,但遗憾的是大多数企业仍然没有找到成熟有效的理念与方法论来组织、推动和指引数据价值的落地。Thomas Redman博士在《哈佛商业评论》推荐的《数据驱动:从最重要的资产中获利》中写到“当数据冒烟的时候,业务就会起火”,形象地点出了数据时效性低、质量差等问题对业务发展的重大影响。 基于上述背景,在这篇文章中我们将讨论DataOps,一种通过文化、流程和工具来帮助大型公司在内部推动数据价值落地,完成数字化业务转型的理念。
一、数据的“资产负债表”
当下,数据量的增长态势已经远远超出了预期,很容易让我们产生一种错觉,仿佛这样就拥有了数据资产。
但我们认为这是对事实的一种简化。单就存储庞大的数据而言,企业就要为此付出大量成本。例如,如果有100PB的数据,存储在亚马逊云服务AWS S3上一年就需要花费2500万美元。如果要让数据发挥价值,那么数据的采集流转、处理计算、质量监测以及提供数据服务的资源成本和人力成本更是会快速上升。 在这种情况下,如果我们制作一个企业的“数据资产负债表”,到底会有多少数据是企业真正的资产?如何才能增加企业的数据资产呢?
问题看似简单,但很少有企业能在深入思考后得出严谨的回答。导致目前在使用数据的过程中存在“多、乱、慢、差”等情况,严重降低和阻碍了数据发挥作用的价值与效率。所以,只有像经营公司一样精细化地经营数据,数据才能从负债变成资产。
二、当前的数据现状
若想实现精细化运营,就不得不迎接种种难题。当前,拥有几百上千个内外部数据源的组织越来越多,其中包括各种业务、流程、客户数据,结构化、半结构化、非结构化数据。如果再考虑到未来5G和区块链带来的应用级影响,将又会是一种难以言说的痛。 在这种复杂异构的背景下,企业一方面缺少高效整合数据的方法和工具,另一方面更缺失能从这些数据中寻找规律,发掘价值的人才和文化,因此让理解、整合数据变得雪上加霜。而这恰恰是所有数据使用的起点,如果没有成熟高效的应对之道,数据驱动业务将会沦为空谈。
除了数据源数量和类型的不断增多,业务本身也在不断地进化调整,从而导致其产生的数据结构或元数据也随之发生改变,以上种种会引发一系列数据链路的连锁反应。
遗憾的是,很多企业制定元数据架构时通常是静态的,可以理解当下的数据架构和含义,但无法在业务的快速迭代发展中,始终保持与业务语义的一致,以致最后逐渐丧失指导数据分析师理解业务的能力,造成数据分析时统计口径不一致等情况,给企业进行重大决策时造成混乱。
当业务部门希望使用数据来辅助决策或者创造新的商业模式时,通常有两个时效性的要求:一是满足数据需求的速度,二是对于所需数据的延迟性。因为业务创新的关键点在于能否快速满足市场需求,不仅需要用数据快速测算市场规模,更需要在时间窗口打开的时机内提供相应的产品和服务从而占领市场。而这一过程越来越受数据供给速度及时效性的影响,例如银行业的实时风控系统,零售业的实时营销系统,工业界的数字孪生系统,都是业务创新对数据实时性要求非常高的典型。而大多数企业的数据部门在这两点的满足上是捉襟见肘的。
数据被使用只是万里长征的第一步,接下来数据质量差的问题会接踵而至。目前,企业经营者和高管要么不知道数据质量存在问题,要么就是以鸵鸟心态回避和掩盖问题。Gartner的数据质量市场调查显示,糟糕的数据质量平均每年会带来 1500 万美元的损失。尽管所有企业都认同数据质量的重要性,但Gartner认为仍有84%的企业的数据质量处于“不成熟”阶段。损失金钱只是硬币的一面,又有多少公司因为数据质量差,缺乏信任,而错失了创造大量收入的机会呢? 最后,数据安全与隐私也是亟待关注的问题。每年都有许多公司因为数据泄露而蒙受声誉和财务上的双重损失,欧盟已经制定了GDPR的标准和规则,并且对包括Google在内的许多科技巨头开出了数以亿计的罚单,同时我国也在相关法律法规的制定流程中。数据的安全与隐私问题是一个非常关键的点,在安全合规的范围内充分发挥数据价值是DataOps的关键点之一,而这并不仅是技术问题。而是在安全合规的前提下,最大限度赋予组织内部使用数据权限灵活度的问题。
三、现状之下的反思
大多数时候,数据出现问题并不仅仅是数据部门的原因,更多是组织架构及配合的问题。相较于追责某些工具,反而应该思考文化在其中扮演的角色。因此,是时候深入思考这些问题背后的“元问题”了。
我们应该用何种理念和方法来面对这个“元问题”?不妨先从DataOps着手。
接下来DataPipeline将集中讨论「DataOps与企业如何增强数据管理」的问题,本文首先交代了数据管理目前的现状以及DataOps出现的背景。
后面将陆续从「DataOps理念及设计原则」、「DataOps的组织架构与挑战」、「DataOps的技术考量」等角度进行全方位地解读。
DataOps系列丨数据的“资产负债表”与“现状”的更多相关文章
- 智能合约语言 Solidity 教程系列4 - 数据存储位置分析
写在前面 Solidity 是以太坊智能合约编程语言,阅读本文前,你应该对以太坊.智能合约有所了解, 如果你还不了解,建议你先看以太坊是什么 这部分的内容官方英文文档讲的不是很透,因此我在参考Soli ...
- 使用GDAL工具对FY3系列卫星数据进行校正
本文档主要对如何使用GDAL提供的工具对FY3系列卫星数据进行校正处理.FY3系列卫星提供的数据一般是以HDF5格式下发,一个典型的FY3A和FY3B的数据文件名如下: FY3A_MERSI_GBAL ...
- 9.9 翻译系列:数据注解特性之--MaxLength 【EF 6 Code-First系列】
原文链接:https://www.entityframeworktutorial.net/code-first/maxlength-minlength-dataannotations-attribut ...
- 9.3 翻译系列:数据注解特性之Key【EF 6 Code-First 系列】
原文链接:http://www.entityframeworktutorial.net/code-first/key-dataannotations-attribute-in-code-first.a ...
- 9.2 翻译系列:数据注解特性之---Column【EF 6 Code First系列】
原文链接:http://www.entityframeworktutorial.net/code-first/column-dataannotations-attribute-in-code-firs ...
- 9.1 翻译系列:数据注解特性之----Table【EF 6 Code-First 系列】
原文地址:http://www.entityframeworktutorial.net/code-first/table-dataannotations-attribute-in-code-first ...
- 9.8 翻译系列:数据注解特性之--Required 【EF 6 Code-First系列】
原文链接:https://www.entityframeworktutorial.net/code-first/required-attribute-dataannotations-in-code-f ...
- 9.11 翻译系列:数据注解特性之--Timestamp【EF 6 Code-First系列】
原文链接:https://www.entityframeworktutorial.net/code-first/TimeStamp-dataannotations-attribute-in-code- ...
- 9.12 翻译系列:数据注解特性之ConcurrencyCheck【EF 6 Code-First系列】
原文链接:https://www.entityframeworktutorial.net/code-first/concurrencycheck-dataannotations-attribute-i ...
随机推荐
- 算法与数据结构基础 - 堆栈(Stack)
堆栈基础 堆栈(stack)具有“后进先出”的特性,利用这个特性我们可以用堆栈来解决这样一类问题:后续的输入会影响到前面的阶段性结果.线性地遍历输入并用stack处理,这类问题较简单,求解时间复杂度一 ...
- mysql的union和or
实践出真知! 使用union连接 select `id` from `表名` where 0=0 and active=1 and `fullname` like '王%' union select ...
- BZOJ 1067:[SCOI2007]降雨量(RMQ+思维)
http://www.lydsy.com/JudgeOnline/problem.php?id=1067 题意:…… 思路:首先我们开一个数组记录年份,一个记录降雨量,因为年份是按升序排列的,所以我们 ...
- c++学习书籍推荐《数据结构C++语言描述:应用标准模板库STL(第2版)》下载
本书是Ford和Topp两位教授于1996看出版的名著Data Structures with C++的第2版,在全球范围内已经有数以万计的学生从中受益.作者将C++语言作为算法描述语言,应用包含规范 ...
- Java内存模型以及线程安全的可见性问题
Java内存模型 VS JVM运行时数据区 首先Java内存模型(JMM)和JVM运行时数据区并不是一个东西,许多介绍Java内存模型的文章描述的堆,方法区,Java虚拟机栈,本地方法栈,程序计数器这 ...
- 1. UML软件设计模型图整理
UML建模 程序设计ER图 UML建模(一)---UserCase用例图 UML建模(二)--流程图 (程序框图) UML建模(三)--部署图 UML建模(四)--类图 UML用例图.流程图 (五)
- 利用iisnode模块,让你的Node.js应用跑在Windows系统IIS中
最近比较喜欢用Node.js做一些简单的应用,一直想要部署到生产环境中,但是手上只有一台windows server 2008服务器,并且已经开启了IIS服务,运行了很多.Net开发的网站,80端口已 ...
- servlet的几个函数
request.getContextPath 上下文,例如 /bignews1 (自带 “ / ”) request.getScheme() 协议,例如HTTP request.getServer ...
- [算法]Python判断一个点是否在多边形内部
题目: 代码: # -*- coding:utf-8 -*- def rayCasting(p, poly): px = p['x'] py = p['y'] flag = False i = 0 l ...
- java:选择排序法对数组排序
最近想练一练Java的算法,然后碰到LeetCode上一道从排序数组删除重复项的小题,刚开始没看到是从排序数组中,就乱写,其实要是排序树组,就比乱序的感觉上好写多了.然后就想回顾下冒泡法对数组排序,凭 ...