hadoop笔记之Hive入门(什么是Hive)
Hive入门(一)
Hive入门(一)
什么是Hive?
Hive是个数据仓库,数据仓库就是数据库,但又与一般意义上的数据库有点区别
实际上,Hive是构建在hadoop HDFS上的一个数据仓库。
什么又是数据仓库?
而数据仓库是一个面向主题的、集成的、不可更新的、随时间不变化的数据集合,它用于支持企业或组织的决策分析处理
- 面向主题,那么什么又是主题呢?主题就是指用户使用数据仓库决策时所关心的重点的方面,比如商品的推荐系统,那么这里我们所关心的主题就是商品的信息
- 数据仓库是个集成的数据库,也就是说数据仓库的数据来自于分散的操作性的数据,我们把分散的操作数据从原来的数据当中抽取出来进行加工和处理,然后满足我们的要求,这样的数据才能进入数据仓库。也就是说原来的数据有可能来自Oracle,MySQL,有可能来自于文本文件,我们把数据集成起来,才形成数据仓库
- 数据仓库主要是为决策分析所提供数据,所以所涉及到的操作主要是数据的查询,一般都不会在数据仓库当中做更新和删除,这就是数据仓库的不可更新性
- 并且数据仓库当中的数据是随着时间推移而不产生变化的集合
数据仓库的结构和建立过程
数据源:
- 业务数据系统
- 文档资料
- 其他数据
然后我们要对数据进行一个抽取转换装载的过程
数据存储及管理:
- 抽取(Extract)
- 转换(Transform)
- 装载(Load)
由于来自不同数据源的数据格式都不一样,因此需要转换,只有经过转换的满足格式的数据才能被进行装载在数据仓库当中
建立好数据仓库之后当然需要提供对外服务,这个时候就需要建立数据仓库引擎
数据仓库引擎:
- 服务器
而在数据仓库引擎当中包含了不同的服务器,不同的服务器提供不同的服务
前端展示:
- 数据查询
- 数据报表
- 数据分析
- 各类应用
OLTP应用与OLAP应用
On-Line Transaction Processing联机事务处理系统(OLTP)也称为面向交易的处理系统。它所关注的焦点是事务处理,典型的OLTP应用就是我们的银行转账。同样进行转账的业务,很明显扣钱和加钱的操作应该同时成功或者同时失败,不应该存在一个成功一个失败的情况,所以必须有事务的保证。OLTP系统操作频率会非常高,比如银行的转账业务时时刻刻都会发生
On-Line Analytical Processing联机分析处理系统(OLAP)。最典型的的应用就是商品推荐系统。这种应用是基于原来的历史数据,从而进行数据的分析和挖掘,然后提供给别的系统所使用。这种OLAP系统主要面向的是查询,所以一般这种系统不会做更新、插入、删除操作
数据仓库中的数据模型
星形模型
雪花模型
在星形模型基础上创建了雪花模型
那么什么又是Hive?
- Hive是建立在hadoop HDFS上的数据仓库基础架构
- Hive可以用来进行数据提取转化加载(ETL)
- Hive定义了简单的类似SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据
- Hive允许熟悉MapReduce开发者的开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂的分析工作
- Hive是SQL解析引擎,它将SQL语句转移成M/R Job,然后在hadoop执行
- Hive的表其实就是HDFS的目录/文件
hadoop笔记之Hive入门(什么是Hive)的更多相关文章
- hadoop笔记之Hive入门(Hive的体系结构)
Hive入门(二) Hive入门(二) Hive的体系结构 ○ Hive的元数据 Hive将元数据存储在数据库中(metastore),支持mysql.derby.oracle等数据库,Hive默认是 ...
- Hadoop生态圈-Hive快速入门篇之Hive环境搭建
Hadoop生态圈-Hive快速入门篇之Hive环境搭建 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.数据仓库(理论性知识大多摘自百度百科) 1>.什么是数据仓库 数据 ...
- Hive入门笔记---1.Hive简单介绍
1. Hive是什么 Hive是基于Hadoop的数据仓库解决方案.由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也秉承了这些特性.这是来自官方的解 ...
- hive 学习笔记——表的入门操作和命令
1.受控表(managed table)包括内部表.分区表.桶表: 1.1.分区表 创建分区表: create table banji(id INT,name STRING) partitioned ...
- hadoop笔记之Hive的管理(远程登录方式)
Hive的管理(三) Hive的管理(三) Hive的远程服务 远程服务启动方式 端口号10000 启动方式:hive --service hiveserver (注意:以JDBC或ODBC的程序登录 ...
- hadoop笔记之Hive的管理(web界面方式)
Hive的管理(二) Hive的管理(二) Web界面方式 端口号9999 启动方式:hive --service hwi 通过浏览器来访问:http://<IP地址>:9999/hwi/ ...
- hadoop笔记之Hive的管理(CLI方式)
Hive的管理(一) Hive的管理(一) Hive的启动方式 CLI(命令行)方式 Web界面方式 远程服务启动方式 CLI方式 1. 进入命令行方式 直接输入<HIVE_HOME>/b ...
- Spark入门实战系列--5.Hive(上)--Hive介绍及部署
[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .Hive介绍 1.1 Hive介绍 月开源的一个数据仓库框架,提供了类似于SQL语法的HQ ...
- Hive入门学习--HIve简介
现在想要应聘大数据分析或者数据挖掘岗位,很多都需要会使用Hive,Mapreduce,Hadoop等这些大数据分析技术.为了充实自己就先从简单的Hive开始吧.接下来的几篇文章是记录我如何入门学习Hi ...
随机推荐
- JeeSite 企业信息化快速开发平台
平台简介 JeeSite是基于多个优秀的开源项目,高度整合封装而成的高效,高性能,强安全性的开源Java EE快速开发平台. JeeSite本身是以Spring Framework为核心容器,Spri ...
- Angular初级入门
1:jquery :库 -一般是封装了一些方法 -我们去调用他的这些方法分 2:angular:框架 -框架是提供了一些规则或者模式 -我们是根据这一种规则或者模式去写代码 -然后接下来就由angul ...
- SSH框架常会出现的一些错误
1.jquery datatable插件报JSON数据错误 错误原因:hql语句拼接有问题,前一个字符串与后一个字符串之间缺少空格,导致数据库查询失败. 2.addInput页面中input内容不为空 ...
- iOS开发那些事儿(六)Git分之策略
git 分支策略 将要介绍的这个模型不会比任何一套流程内容多,每个团队成员都必须遵守,这样便于管理软件开发过程. 既分散又集中 我们使用的,且与这个分支模型配合的非常好的库,他有一个“真正”的中央仓库 ...
- Unity之GUI控件
在这里就贴一个连接吧:GUI
- Robot Framework语法学习(一)
Robot Framework语法学习: 一.变量的声明.赋值与使用 1.变量标识符:每个变量都可以用 变量标识符 ${变量名} 来表示. 2.变量声明:可以在TestSuite上点右键或者在Edi ...
- java如何在一个有序的数组类插入一个数!
第一种:依次与有序数组中的每个数进行比较,然后找到位置之后,定义一个新的数组,该信数组的长度加一,再使用system.arraycopy将于数组copy到新数组!import java.util.Ar ...
- Android 为应用添加数字角标
今天在论坛上看到了一个帖子,终于搞清了我很久以来的一个困惑,android到底能不能实现ios的角标效果,QQ是怎么实现的.看了这个帖子顿时终于解除了我的困惑. 先说一个下大概的思路: 大家都知道an ...
- docker 配置桥接网络
2.5 docker配置桥接网络(上): 为了使本地网络中的机器和Docker 容器更方便的通信,我们经常会有将Docker容器 配置到和主机同一网段的需求. 这个需求其实很容器实现, 我们只需要将D ...
- iOS多线程系列(3)
在2011的WWDC上,苹果推出了GCD,从此多线程增加了一种新的方法.GCD要求运行在iOS4.0版本以上或者OS X10.6版本以上.GCD是Grand Central Dispatch的缩写,是 ...