updated 2015.8.27 updated 2015.8.26 updated 2015.8.23 0. 说明 <数据仓库原理>系列博文,是笔者在学习数据仓库与商业智能时的读书笔记,现重新梳理思路,分享在这里,希望读者批评指正. 本系列主要包括以下几部分内容: [1].数据库与数据仓库 为什么有了数据库还需要数据仓库?什么又是数据仓库? [2].数据仓库系统的体系结构 数据仓库系统的体系结构包括哪些组成要素?各自的作用又是什么? [3].数据仓库与ODS 什么是ODS?为什么需要ODS…
什么是数据仓库 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH.数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合.它出于分析性报告和决策支持目的而创建. 为需要业务智能的企业,提供指导业务流程改进.监视时间.成本.质量以及控制. 数据仓库的特点 1.数据仓库的数据是面向主题的 与传统数据库面向应用进行数据组织的特点相对应,数据仓库中的数据是面向主题进行组织的.什么是主题呢?首先,主题是一个抽象的概念,是较高层次上企业信息系统中的数据综合.归类并进行…
从本篇文章开始,笔者打算写一个系列的<clickhouse专栏>,其全称是Click Stream,Data WareHouse,简称ClickHouse.从其全称中的"Data WareHouse",我们可以看出clickhouse的定位是数据仓库.那么"数据仓库"和"数据库"有什么区别呢?理解这点这很重要,理解了二者的区别,你就可以正确的将clickhouse用到其合适的应用场景. 一.OLTP与OLAP 在理解"数据仓…
Atiti 数据库系统原理 与数据库方面的书籍 attilax总结 v3 .docx 1.1. 数据库的类型,网状,层次,树形数据库,kv数据库.oodb2 1.2. Er模型2 1.3. Sql2 1.4. 聚合运算2 1.5. 索引btree,hash 全文哦2 1.6. 并发控制与lock2 1.7. Acid数据库完整性2 1.8. 关系模型2 1.9. 事务管理2 1.10. :1NF.2NF.3NF和BCNF 2 2. 参考数据库系统导论 (豆瓣).html2 3. 数据挖掘--概念…
1. 引言 本篇主要讲述数据仓库系统的体系结构与组成要素.数据集市与数据仓库之间的关系.元数据的定义与作用. 在上一篇,笔者介绍了数据仓库的定义: "数据仓库是一个面向主题的.集成的.不可更新的.随时间不断变化的用来更好地支持企业或组织决策分析的数据集合." 数据仓库是区别于传统操作型数据库的数据集合,主要应用于分析型数据操作,支持企业全局的决策分析.但是要实现这一应用目的,单一的数据仓库是无法完成的,需要建立一个数据仓库系统. 基于数据仓库系统,完成数据从操作型数据库等数据源到数据仓…
数据仓库是集成的面向主题的数据库的集合 面向主题主要是宏观上解决某一类问题,集合性指数据集 数据库主要处理用于事务处理,数据仓库用于分析处理,数据库适用于操作型数据,便于增删改查, 数据仓库则用于挖掘信息,数据仓库需充分了解企业以及组织的详细结构,给出方案.…
本文转载自:http://www.cnblogs.com/hbsygfz/p/4762085.html 1. 引言 本篇主要介绍数据仓库中的一项重要分析技术——联系分析处理(OLAP). 在第一篇笔者介绍到数据处理主要有两种,操作型数据处理和分析型数据处理,前者可以称为OLTP,后者可以称为OLAP.本篇将具体介绍什么是OLAP?它与OLTP的区别是什么?多维数据模型和多维分析操作是OLAP中的两种核心技术,也会予以说明. 2. OLAP定义 联机分析处理(Online Analysis Pro…
1. 引言 本篇主要讲述操作数据存储(ODS)系统产生的背景.定义.特点,以及它与数据仓库的区别. 在前两篇,笔者介绍了什么是数据仓库?为什么需要数据仓库?数据仓库系统的体系结构是什么?因此可能在读者心里已经形成了企业数据存储的DB~DW两层体 系结构的概念,但在实际应用中,并不总是这样,有时候我们可能需要ODS这一系统来搭建DB~ODS~DW三层数据体系,那么什么是ODS?为什么需要 ODS?ODS与DW的区别又是什么?下面将在第2-6节介绍ODS的理论知识,在第7节以电信运营商为例介绍ODS…
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented).集成的(Integrate).相对稳定的(Non-Volatile).反映历史变化(Time Variant)的数据集合,用于支持管理决策. (1) 面向主题:指数据仓库中的数据是按照一定的主题域进行组织. (2)集成:指对原有分散的数据库数据经过系统加工, 整理得到的消除源数据中的不一致性. (3)相对稳定:指一旦某个数据进入数据仓库以后只需要定期的加载.刷新. (4)反映历史变化:指通过这些信息,对…
Hadoop: Hadoop是一个由Apache基金会所开发的分布式系统基础架构.用来开发分布式程序.充分利用集群的威力进行高速运算和存储.Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.   Hadoop框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. Hadoop体系结构: hive: 一.什么是hive Hive是部署在hadoop集群上的数据…
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/wl101yjx/article/details/31015367 本文简要总结以下两个问题,旨在高速理解"数据仓库" 1.什么是"数据仓库"? 2."数据仓库"与"数据库"的差别? 以下做详细阐述: 1.什么是"数据仓库"? "一个数据仓库通常是一个面向主题的.集成的.与时间相关且不可改动的(能够加…
文章背景: 相信大部分刚接触上面三个概念的同学,都多多少少会有些迷惑,现在我就给大家简单分析下这三者的关系,希望大家对这三者的概念理解有所帮助吧. 本文主要从下面两类关系来叙述上面三者的关系: 数据库(DB)和数据仓库(DW)的区别与联系 操作数据存储(ODS)和数据仓库(DW)的区别与联系 数据库与数据仓库的区别与联系 数据库与数据仓库基础概念: 数据库:传统的关系型数据库的主要应用,主要是基本的.日常的事务处理,例如银行交易. 数据仓库:数据仓库系统的主要应用主要是OLAP(On-Line…
数据仓库的定义: 世界公认的数据仓库概念创始人W.H.Inmon在<数据仓库>(Building the Data Warehouse)一书中对数据仓库的定义是:数据仓库就是面向主题的.集成的.非易失的(稳定性).随时间变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程.…
由于第三章的内容比较多,这里我们拆分成两篇读书笔记来记录.上一章我们聊了聊如何数据库是如何实现存储和检索的,今天这篇我们继续来看看OLTP与OLAP存储引擎的区别与联系. 1.OLTP与OLAP 联机事务处理过程(On-Line Transaction Processing)也就是我们通常称之的OLTP. 联机分析处理过程(On-Line Analysis Processing)则被称为OLAP. 在文中,作者列出了两类处理过程的区别,我们来一一梳理一下: OLTP的应用通常读写较少的数据,处理…
一.hive概述 Hive是基于 Hadoop 的一个[数据仓库工具],可以将结构化的数据文件映射为一张数据库表,并提供简单的 sql 查询功能,可以将 sql 语句转换为 MapReduce 任务进行运行.使用SQL来快速实现简单的MapReduce 统计,不必开发专门的MapReduce 应用,学习成本低,十分适合数据仓库的统计分析. [数据仓库]英文名称为 Data Warehouse,可简写为 DW 或 DWH.数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合.它…
Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理.特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行. 一.概述 1-1 数据仓库概念 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented).集成的(Integrated).相对稳定的(Non-Volatile).反应历史变化(Time Variant)的数据集合,用于支持…
1.数据库原理及sql 数据库:是人们存放数据,访问数据,操作数据的存储仓库. DB:数据库,按存储结构来组织,存储和管理的数据仓库 DBMS:数据库管理系统,管理数据库的软件 SQL:结构化查询语言(Structured Qurery Language) SQL可分为: 数据定义语言(DDL:Data Definition Language):建立,修改,删除数据库对象.create,alter,drop 数据操纵语言(DML: Data Manipulation Language):改变数据…
星型数据仓库olap工具kylin介绍 数据仓库是目前企业级BI分析的重要平台,尤其在互联网公司,每天都会产生数以百G的日志,如何从这些日志中发现数据的规律很重要. 数据仓库是数据分析的重要工具, 每个大公司都花费数百万每年的资金进行数据仓库的运维. 本文介绍一个基于hadoop的数据仓库, 它基于hadoop(HIVE, HBASE)水平扩展的特性, 客服传统olap受限于关系型数据库数据容量的问题. Kylin是ebay推出的olap星型数据仓库的开源实现. 首先请安装Kylin, 和它的运…
AX系统已有的BI分析架构 对于AX 的BI分析架构,相信大家都了解,可以看Reinhard之前的译文[译]Dynamics AX 2012 R2 BI系列-分析的架构 . AX 的BI分析架构的优势 从图上我们可以看出,AX是弱化了数据仓库的概念,直接用多维数据集作为分析报表的数据源.得益于AX与SSAS的深度集成,并且提供了许多预先定义好的多维数据集,可以很快地制作一个简单的分析报表. Dynamics 365技术架构的优势 在新出的Dynamics 365里,提出了Common Data…
数据分析系统的总体架构分为四个部分 —— 源系统.数据仓库.多维数据库.客户端(图一:pic1.bmp) 其中,数据仓库(DW)起到了数据大集中的作用.通过数据抽取,把数据从源系统源源不断地抽取出来,可能每天一次,或者每3个小时一次(当然是自动的).这个过程,我们称之为ETL过程. 那么,今天,我们就来谈一谈:如何搭建数据仓库,在这个过程中都应该遵循哪些方法和原则:然后介绍一些项目实践中的技巧. 一.数据仓库的架构 数据仓库(Data Warehouse DW)是为了便于多维分析和多角度展现而将…
原文:http://huangy82.blog.163.com/blog/static/49069827200923034638409/ ETL构建企业级数据仓库五步法 在数据仓库构建中,ETL贯穿于项目始终,它是整个数据仓库的生命线,包括了从数据清洗,整合,到转换,加载等的各个过程,如果说数据仓库是一座大厦,那 么ETL就是大厦的根基,ETL抽取整合数据的好坏直接影响到最终的结果展现.所以ETL在整个数据仓库项目中起着十分关键的作用,必须摆到十分重要的位 置.一.什么是ETLETL是数据抽取(…
介绍: 大数据是不是海市蜃楼,来自小橡子只是意淫奥克斯,大数据的发展,而且要从头开始,基于大数据建设国家.项目-level数据中心行业将越来越多,大数据仅供技术,而非溶液,临数据组织模式,数据逻辑模式的问题. 它山之石可以攻玉,本文就数据仓库领域数据逻辑模型建设最负盛名的FS-LDM进行介绍,旨在抛砖引玉.希望可以给大家以启迪.參与交流请加群:347018601 一.概述 (1)什么是LDM 逻辑数据模型LDM是数据仓库的数据建设阶段为解决业务需求而定义的数据仓库模型解决方式,它是指导数据仓库进…
对于数据仓库体系结构的最佳问题,始终存在许多不同的看法,甚至有人把Inmon和Kimball之争称之为数据仓库界的“宗教战争”,那么本文就通过对两位提倡的数据仓库体系和市场流行的另一种体系做简单描述和比较,不是为了下定义那个好,那个不好,而是让初学者更明白两位数据仓库鼻祖对数据仓库体系的见解而已. 首先,我们谈Inmon的企业信息化工厂. 2000年5月,W.H.Inmon在DM Review杂志上发表一篇文章,里面写到一句话“……如果明天非得设计一个数据集市,我将不考虑使用其他的方法”:正是揭…
一.数据仓库构建思想 构造数据仓库有两种方式:一是自上而下,一是自下而上. Bill Inmon先生推崇“自上而下”的方式,即一个企业建立唯一的数据中心,就像一个数据的仓库,其中数据是经过整合.经过清洗.去掉脏数据的.标准的,能够提供统一的视图.要建立这样的数据仓库,并不从它需要支持哪些应用入手,而是要从整个企业的环境入手,分析其中的概念,应该有什么样的数据,达成概念完成整:(会考虑到很全面的设计) Ralph Kimball先生推崇“自下而上”的方式,他认为建设数据仓库应该按照实际的应用需求,…
在从 OLTP 业务数据库向 DW 数据仓库抽取数据的过程中,特别是第一次导入之后的每一次增量抽取往往会遇到这样的问题:业务数据库中的一些数据发生了更改,到底要不要将这些变化也反映到数据仓库中?在数据仓库中,哪些数据应该随之变化,哪些可以不用变化?考虑到这些变化,在数据仓库中的维度表又应该如何设计以满足这些需要. 很显然在业务数据库中数据的变化是非常自然和正常的,比如顾客的联系方式,手机号码等信息可能随着顾客的所在地的更改发生变化,比如商品的价格在不同时期有上涨和下降的变化.那么在业务数据库中,…
本文转载自:https://www.cnblogs.com/hsydj/p/4515057.html 星型数据仓库olap工具kylin介绍 星型数据仓库olap工具kylin介绍 数据仓库是目前企业级BI分析的重要平台,尤其在互联网公司,每天都会产生数以百G的日志,如何从这些日志中发现数据的规律很重要. 数据仓库是数据分析的重要工具, 每个大公司都花费数百万每年的资金进行数据仓库的运维. 本文介绍一个基于hadoop的数据仓库, 它基于hadoop(HIVE, HBASE)水平扩展的特性, 客…
基于Presto和superset搭建数据分析平台. Presto可以作为数据仓库,能够连接多种数据库和NoSql,同时查询性能很高: Superset提供了Presto连接,方便数据可视化和dashboard生成. 基本概念 datawarehouse 数据仓库 整合各类数据库数据,面向主题,方便分析.存储元数据,模型信息,存储数据(建索引.缓存.分区.pre-aggregation)等. greenplum hive OLAP 一些列数据分析操作,比如pivoting, slicing, d…
引言: 大数据不是海市蜃楼,万丈高楼平地起只是意淫,大数据发展还要从点滴做起,基于大数据构建国家级.行业级数据中心的项目会越来越多,大数据只是技术,而非解决方案,同样面临数据组织模式,数据逻辑模式的问题.它山之石可以攻玉,本文就数据仓库领域数据逻辑模型建设最负盛名的FS-LDM进行介绍,旨在抛砖引玉,希望能够给大家以启迪.参与交流请加群: 一.概述 (1)什么是LDM 逻辑数据模型LDM是数据仓库的数据建设阶段为解决业务需求而定义的数据仓库模型解决方案,它是指导数据仓库进行数据存放.数据组织.以…
使用ETL构建数据仓库的思考 背景:公司的数据仓库建设项目启动在即,所谓万事开头难,如何在我们数仓建设规划的前期做好业务数据准备和系统建设规划是我们需要思考的问题,这里根据之前的自己参与过的公司ODS系统运维.数据仓库项目建设和运维方面参与过的一些实际工作经验,并结合一定的数仓建设的理论知识,来简要介绍一下关于数据建设环节中ETL部分的基本知识,并谈一些自己的想法和思考,希望能给大家一些启发和帮助. 在数据仓库构建中,ETL贯穿于项目始终,它是整个数据仓库的生命线,包括了从数据清洗.整合,到转换…
之前看了认识数据以及数据的预处理,那么,处理之后的数据放在哪儿呢?就放在一个叫“数据仓库”的地方. 数据仓库的基本概念: 数据仓库的定义——面向主题的.集成的.时变的.非易失的 操作数据库系统VS数据仓库——为什么需要使用数据仓库分析数据(OLAP  VS  OLTP) 数据仓库体系结构——三层体系结构:底层(数据仓库服务器)——中间层(OLAP服务器)——顶层(前段工具) 三种数据仓库模型 企业模型 数据集市(只针对某一部门) 虚拟仓库 元数据库——关于数据的数据 理解OLAP,数据仓库,数据…