Hive分布式的数据仓库

1.hive介绍

　　hive是一个数据仓库的解决方案，它的数据存储依赖于HDFS，数据结算依赖于MR，也就是说，hive就是一个在数据仓库的服务，它只需要安装到一台普通的PC上即可，仅仅对外提供SQL服务（和hadoop、hbase、spark、storm不同，应为这些都是分布式服务），对客户端的SQL最终转换成对HDFS的操作和MR的操作。

　　hive有两种作用，第一就是是一个数据仓库，他对数据的组织，比如说表、分区等目录结构，第二就是他的SQL实现是基于Mapreduce。

　　所以，现在hive组织数据是目前无人可比，而它的SQL计算则可以使用MPP、mapreduce、spark迭代式计算、流计算等计算引擎，所以你看见impala、shark、的安装都是基于hive的，就是重用hive的数据仓库功能，即在hive里面组织数据。

2.hive就是服务，不需要分布式安装

　　hive的表，分区，桶本质就是在HDFS上面建立一些目录，同时借助RDBMS存储自己的元数据（用户的DDL,DML作为元数据，存储在RDMS里面，Hive引擎就会解析这些数据生成MR的job运行，同时将HIve里面的表存储转换成hdfs的目录）。

3.hive的DDL操作

　　建立表

　　　　1.在rdms里面存储表的列，名称

　　　　2.在hdfs里面以表的名称，建立了一个目录

　　插入数据、查询数据

　　　　1 将hql经过解析，形成执行计划，最后生成mr的job运行，而hql里面的表转换成hdfs里面的目录作为mr的输入和输出

　　聚合函数、窗口函数以及OLAP的CUBE等聚合函数

　　　　1 avg、sum、count、rank、cube等度量值的聚合方式。

==================================================================================================

hive的调优：

1、减少shuffle的数据传输、而这块主要就是join连接的优化

2、task任务的个数

3、jvm堆内存、栈内存空间的设置

4、队列的设置、hadoop的调度策略以及资源分配配置

Hive分布式的数据仓库的更多相关文章

Hive和并行数据仓库的比较
最近分析和比较了Hive和并行数据仓库的架构,本文记下一些体会. Hive是架构在Hadoop MapReduce Framework之上的开源数据分析系统. Hive具有如下特点: 1. 数据以HD ...
一个数据仓库时代开始--Hive
一.什么是 Apache Hive? Apache Hive 是一个基于 Hadoop Haused 构建的开源数据仓库系统,我们使用它来查询和分析存储在 Hadoop 文件中的大型数据集.此外,通过 ...
Hive数据分析——Spark是一种基于rdd（弹性数据集）的内存分布式并行处理框架，比于Hadoop将大量的中间结果写入HDFS，Spark避免了中间结果的持久化
转自:http://blog.csdn.net/wh_springer/article/details/51842496 近十年来,随着Hadoop生态系统的不断完善,Hadoop早已成为大数据事实上 ...
hive数据仓库入门到实战及面试
第一章.hive入门一.hive入门手册 1.什么是数据仓库 1.1数据仓库概念对历史数据变化的统计,从而支撑企业的决策.比如:某个商品最近一个月的销量,预判下个月应该销售多少,从而补充多少货源. ...
基于hadoop的数据仓库工具：Hive概述
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行.其优点是学习成本低,可以通过类 ...
漫谈数据仓库之拉链表（原理、设计以及在Hive中的实现）
本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理.设计.以及在我们大数据场景下的实现方式. 全文由下面几个部分组成: 先分享一下拉链表的用途.什么是拉链表. 通过一些小的使用场景来对拉链表做近 ...
数据仓库与hive
数据仓库与hive hive--数据仓库建模工具之一一.数据库.数据仓库 1.1 数据库关系数据库本质上是一个二元关系,说的简单一些,就是一个二维表格,对普通人来说,最简单的理解就是一个Excel ...
初识hive
由facebook 开源用以帮用户解决海量数据etl,构建于hadoop的数据仓库. 使用hql作为查询接口使用hdfs作为底层存储使用mr作为执行层 1.为什么使用hive? 1 ...
【hive】——Hive初始了解
1.没有接触,不知道这个事物是什么,所以不会产生任何问题.2.接触了,但是不知道他是什么,反正我每天都在用.3.有一定的了解,不够透彻.那么hive,1.我们对它了解多少?2.它到底是什么?3.hiv ...

随机推荐

使用RMAN从磁带库恢复归档文件
最近用RMAN对部分归档日志进行了恢复,在此记录恢复过程由于不能透漏数据库信息,故举例如下: ORACLE_SID=hrdb 恢复目标路径:/NewRmanbak/restore_archive ...
openssl与cryptoAPI交互AES加密解密
继上次只有CryptoAPI的加密后,这次要实现openssl的了动机:利用CryptoAPI制作windows的IE,火狐和chrome加密控件后,这次得加上与android的加密信息交互先前有 ...
Centos7和win7双系统调整默认启动
centos7之后都上grub2了,所以你要更改默认启动项什么的就不能像以前一样去改 /etc/grub.conf 当然你更不能去改/etc/grub2.conf 上了grub2之后,在设计有意规避让 ...
js 字符串转换为数值
原帖地址:http://www.cnblogs.com/jenney-qiu/archive/2012/02/27/2369848.html 使用parseInt()你可以从字符串中获取数值,该方法接 ...
【springBoot】springBoot返回json的一个问题
首先看下面的代码 @Controller @RequestMapping("/users") public class UserController { @RequestMappi ...
黄聪：WordPress固定链接设置的几种方法
wordpress固定链接设置的一些参数: %year%:基于文章发布的年份,比如2010: %monthnum%:基于文章发布的月份,比如01: %day%:基于文章发布当日,比如06: %hour ...
C#数字千分位问题
1.C#中用最简单的方法把数字(不含小数)转换为千分位格式: 如1234567变成1,234,567 方法:1234567.ToString("###,###") 或 ...
Observer - IO (File Monitor)
1. 概述有时被称作发布/订阅模式,观察者模式定义了一种一对多的依赖关系,让多个观察者对象同时监听某一个主题对象.这个主题对象在状态发生变化时,会通知所有观察者对象,使它们能够自动更新自己. 2. ...
手把手教你玩转Git分布式版本控制系统！
目录 Git诞生历史 Git环境准备 Git安装部署 Git常用命令 Git基本操作 Git管理分支结构 Git管理标签 GitLab安装部署 GitHub托管服务 Git客户端工具 1 Git诞生历 ...
IGS_学习笔记09_IREP生成服务后台工具Soagenerate.sh
2015-01-06 Created By BaoXinjian 参考:张礼军 - http://oracleseeker.com/2009/10/23/irep_service_generation ...

Hive分布式的数据仓库

Hive分布式的数据仓库的更多相关文章

随机推荐

热门专题