[云计算&大数据]概念辨析:数据仓库 | 数据湖 | 数据中心 | 数据中台 | 数据平台 【待续】
今日客户对这些个概念不清楚,让我解释解释。
说实在的,虽然对各概念都有印象和理解,但我也不能完完全全地辨析得很清晰。
作为从业者,还是有必要拎清一点。
让一切业务数据化,一切数据业务化。
- 业务数据化
- 数据资产化
- 资产服务化
1 数据仓库
定义
数据仓库(Data Warehouse):
1. 由比尔·恩门于1990年提出,可简写为 DW 或 DWH。
2. 是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建,为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
主要特点
- 【面向主题】指数据仓库内的信息是按主题进行组织的,而不是像业务系统那样按照功能组织。
- 【面向集成】指数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理和汇总的过程,因此数据仓库中的信息是关于整个企业的一致的全局信息。
- 【基于历史】数据是基于历史的,指数据仓库内的信息并不只是反映企业当前的状态,而是记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
- 【数据仓库的类别: ROLAP / MOLAP】
MOLAP,数据以多维方式存储以减少存储空间并提高查询效率,代表厂商为微软;
ROLAP,数据以关系数据库方式存储,代表厂商为SAP BO。
存在的问题
- 数据实时性难以保障
数据实时性问题:由于数据仓库是基于历史数据的,无法满足现代企业管理需求,原来数据仓库基于历史数据设计主要是为了提高查询效率,但是现代的硬件技术与分布式计算早已提供了更好的解决方法。
- 数据共享问题
数据共享问题:
数据仓库以主题方式组织数据,比如 财务数据、销售数据、采购数据,就使得在解决数据孤岛的问题上又形成了一棵棵“数据烟囱”,
各部门在使用数据时,仍然会面临数据不一致问题,
且数据仓库与业务之间高度耦合,也使得数据仓库维护工作量很大,修改起来工作量巨大,难以跟上管理变革。
- 数据分析对业务的支撑不足
数据分析对业务的支撑不足:
由于数据分析是基于历史数据的分析,而业务是实时的,所以,两者之间存在一定的【时间差】,导致数据分析只能起到对业务的“支撑”作用,而无法起到对业务的“驱动”作用。
2 数据中台 := 数据仓库在大数据时代的延申

由来
数据中台: 某种意义上是一个正宗的中国概念,最早在2015年,阿里巴巴马云访问过北欧的Supercell游戏公司之后,便提出了这个概念。
并不是所有的公司都需要建设数据中台,因为数据中台不仅仅是数据仓库,还包含了一系列配套的平台(元数据、数据安全、数据质量、BI分析等),建设的成本比较高,而对于大多数公司而言,这种经济成本是不划算的。
定义
数据中台: 中台相对于前台和后台而生,是前台、后台的连接点,将业务上共同的数据、工具、模型等予以沉淀与支撑。

数据中台是
一套可持续“让企业的数据用起来”的机制,
一种战略选择和组织形式,
是依据企业特有的业务模式和组织架构,
通过有形的产品和实施方法论支撑,
构建一套持续不断把数据变成资产并服务于业务的机制。
数据中台: 整合数据技术、产品技术能力,提供统一的数据和服务,强力支撑前台业务。
---- 网易数帆

数据中台是聚合和治理跨域数据,将数据抽象封装成服务,提供给前台以业务价值的逻辑概念
---- ThoughtWorks 数据智能总经理,数字化转型专家——史凯

Data API 是数据中台的核心,它是连接前台和后台的桥梁,通过 API 的方式提供数据服务,而不是直接把数据库给前台、让前台开发自行使用数据。
至于产生 Data API 的过程:
- 怎么样让 DataAPI 产生得更快?
- 怎么样让 DATA API 更加清晰?
- 怎么样让 DATA API 的数据质量更好?
这些是要围绕数据中台去构建的能力。
- 特点
统一数据标准: 通过数据标准体系建设方法论+数据指标系统,统一数据指标口径,消除数据二义性
统一数据服务: 统一对外数据服务接口,实现所有需求,一个接口
统一数据资产管理: 提供企业级数据资产管理平台,并通过数据地图与数据血缘实现360°数据全链路追踪
统一开发平台: 提供可视化、拖拽式自助开发与分析平台,统一数据开发流程与项目周期管理
数据中台的核心能力
数据中台需要具备【汇集整合】、【数据开发】、【数据管控】、【数据应用】4大核心能力,让企业员工、客户、渠道、伙伴能够方便地管理、应用数据。
汇集整合 := 数据接入 := 数据集成 := 数据融合
提供丰富异构数据源的汇集能力
提供实时数据接入能力
具备可视化任务设计、丰富的监控管理能力
提供海量数据的接入能力
数据开发
提供海量数据的【数据处理】能力
具备【多种数据类型】处理能力
提供多引擎业务【流程编排】能力
提供强大的【任务调度】能力
具备统一的【数据开发语言】
数据管控
具备【数据资源业务定义】能力
提供【数据标准】线上管控能力
提供【数据质量】体系监控能力
提供【数据资源分级分类】能力
数据应用
为业务中台赋能
提供便捷的【数据服务】API
提供【数据安全】访问控制
提供数据画像的业务能力
3 数据中台 VS 数据平台 VS 数据仓库
数据仓库 VS 数据中台
| --------- | 数据仓库 | 数据中台 |
|---|---|---|
| 数据来源 | 传统数仓的数据来源主要是业务数据库,数据格式也是结构化数据为主 | 数据湖的概念,汇集企业全域数据,主要包括业务数据库、日志数据、物理网数据、爬虫数据、外部数据等。 |
| 建设目标 | 传统数仓主要用来做BI的报表,需求较单一,平台仅抽取和清晰该相关分析报表用到基础数据。 | 融合整改企业的全部数据,打通数据之间的隔阂,消除数据标准和口径不一致的问题。 |
| 数据应用 | 主要提供报表,构建领导驾驶舱、业务驾驶舱、管理驾驶舱等应用。 | 不仅面向BI报表,更多面向营销推荐、用户画像、AI决策分析、风险评估等。 |
| 数据组织 | 数据仓库更多的是 数据管理部门或技术部门主要参与,业务部门参与度低。 | 需从企业素质架构层面进行调整。构建面向业务部门赋能的数据组织架构。 |
数据仓库 VS 数据平台 VS 数据中台

X 参考文献
- 数据中台解决方案 - 网易数帆
- 到底什么是数据中台? - CSDN 【推荐】
- 数据中台(一)什么是数据中台 - Zhihu
- 一文搞懂:数据仓库、数据中台、数据湖有什么区别 - Sohu
- 数据中台的起源与疑惑 - CSDN
Y 附件


[云计算&大数据]概念辨析:数据仓库 | 数据湖 | 数据中心 | 数据中台 | 数据平台 【待续】的更多相关文章
- 【互动问答分享】第15期决胜云计算大数据时代Spark亚太研究院公益大讲堂
"决胜云计算大数据时代" Spark亚太研究院100期公益大讲堂 [第15期互动问答分享] Q1:AppClient和worker.master之间的关系是什么? AppClien ...
- 大数据系列之数据仓库Hive安装
Hive系列博文,持续更新~~~ 大数据系列之数据仓库Hive原理 大数据系列之数据仓库Hive安装 大数据系列之数据仓库Hive中分区Partition如何使用 大数据系列之数据仓库Hive命令使用 ...
- 大数据系列之数据仓库Hive中分区Partition如何使用
Hive系列博文,持续更新~~~ 大数据系列之数据仓库Hive原理 大数据系列之数据仓库Hive安装 大数据系列之数据仓库Hive中分区Partition如何使用 大数据系列之数据仓库Hive命令使用 ...
- 如何成为云计算大数据Spark高手
Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库.流处理和图计算等多种计算范式,是罕见的全能选手. ...
- 王家林 Spark公开课大讲坛第一期:Spark把云计算大数据速度提高100倍以上
王家林 Spark公开课大讲坛第一期:Spark把云计算大数据速度提高100倍以上 http://edu.51cto.com/lesson/id-30815.html Spark实战高手之路 系列书籍 ...
- 大数据系列之数据仓库Hive命令使用及JDBC连接
Hive系列博文,持续更新~~~ 大数据系列之数据仓库Hive原理 大数据系列之数据仓库Hive安装 大数据系列之数据仓库Hive中分区Partition如何使用 大数据系列之数据仓库Hive命令使用 ...
- 大数据系列之数据仓库Hive原理
Hive系列博文,持续更新~~~ 大数据系列之数据仓库Hive原理 大数据系列之数据仓库Hive安装 大数据系列之数据仓库Hive中分区Partition如何使用 大数据系列之数据仓库Hive命令使用 ...
- 【互动问答分享】第13期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第13期互动问答分享] Q1:tachyon+spark框架现在有很多大公司在使用吧? Yahoo!已经在长期大规模使用: 国内也有 ...
- 【互动问答分享】第10期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第10期互动问答分享] Q1:Spark on Yarn的运行方式是什么? Spark on Yarn的运行方式有两种:Client ...
- 【互动问答分享】第8期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第8期互动问答分享] Q1:spark线上用什么版本好? 建议从最低使用的Spark 1.0.0版本,Spark在1.0.0开始核心 ...
随机推荐
- core程序实现文件下载
已知本地文件名,返回给前台流 string filepath = path +"/" + filename +".txt"; if(System.IO.File ...
- C# 自定义控件如何正确的继承父类
C# 自定义控件可以分为三类: 复合控件:基本控件组合而成.应当继承自 UserControl 扩展控件:继承基本控件,扩展一些属性和事件.比如继承 Button 自定义控件:直接继承自 Contro ...
- 深入理解C++的型别推导
所谓型别推导,指的是我们在为变量赋予类型时不必再显式声明,编译器可以根据代码来自动推导类型.C++11中有两种型别推导的场景:模板和auto.下面我们来一一解析. 模板的型别推导 模板在C++中的应用 ...
- 语法分析~LL1的实现
语法分析之 LL1分析法实现 一.设计目的 根据某一文法编制调试LL(1)分析程序,以便对任意输入的符号串进行分析.本次实验的目的主要是加深对预测分析LL(1)分析法的理解. 二.设计要求 程序输入/ ...
- 2020.6.6OO学期末总结
0.前言 本次博客是对整个java及oo学习情况的一个概略性总结,目的在于反思这半年来的学习情况和实际感受,和具体学习方面的理解和问题. 1.作业过程总结 看着自己一个学期做的所有作业,我想起的是总是 ...
- windows服务器部署mysql
一.Mysql安装教程就不上传了,百度很多的很详细的. 二.配置环境变量:我的电脑右键=>属性=>高级系统设置=>环境变量=>系统变量下找到Path,选中编辑, 变量值后面添加 ...
- Postman请求Https接口与认证
http://t.zoukankan.com/embedded-linux-p-12656769.html
- 微信开发 回复用户消息 .net C#
前段时间开发了公司的微信 这里做个知识总结分享下经验,望一起学习..... 感觉后面写个系列的最好了 .... 企业需求: 给指定企业用户发送消息:如考勤信息. 企业通知.个人信息推送等等, /// ...
- FPGA实现国密算法SM4
本文基于FPGA实现高速SM4加密与解密,提供开源Verilog RTL设计和可综合工程:https://github.com/cassuto/SM4-FPGA. 本文仅讨论实现细节,不涉及算法原理. ...
- Linux系统解压zip包出现中文乱码问题
1. 使用指定GBK编码格式进行解压可以使用如下指定编码格式进行解压. unzip -O GBK 资料.zip 或者使用CP936也是可以指定GBK编码格式进行解压 unzip -O CP936 资料 ...