概述

数据仓库:是一个面向主题的、集成的、不可更新的、随时间不变化的数据集合,它用于支持企业或组织的决策分析处理。

数据仓库的结构和建立过程:

  • 数据源
  • 数据存储及管理

    ETL
    Extract     提取
    Transform   转换
    Load        装载
    
  • 数据仓库引擎

  • 前端展示

    数据查询
    数据报表
    数据分析

1)产生背景

  • MapReduce编程的不便性
  • HDFS上的文件缺少schema

2)是什么

The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data already in storage. A command line tool and JDBC driver are provided to connect users to Hive.

    • Facebook开源,最初用于海量结构化的日志数据统计问题
    • 构建在hadoop之上的数据仓库
    • hive定义了一种类SQL查询语言
    • 通常用于进行离线数据处理(采用MapReduce。。。)
    • 底层支持多种不同的执行引擎(MapReduce、tez、spark)
    • 支持多种不同的压缩格式、存储格式以及自定义函数

      压缩:GZIP LZO Snappy BZIP2
      存储:TextFile SequenceFile RCFile ORC Parquet
      UDF: 自定义函数
      

hive的元数据:

  • hive将元数据存储在数据库中。
  • hive中的元数据包括表的名字,表的列和分区及其属性,表的属性,表的数据所在目录等。

HQL的解析和执行过程:

1)HQL
select....
2)解析器
词法分析
3)编译器
生成HQL的执行计划
4)优化器
生成最佳的执行计划
5)执行

3)为什么要使用hive

  • 简单、易上手(sql语句)
  • 为超大数据集设计的计算/存储扩展能力(MR计算,HDFS存储)
  • 统一的元数据管理

4)体系架构 
 
5)部署架构

测试环境 
 
生产环境:只需要在一台机器上部署hive 

2 安装部署

2.1 下载

1)先要下载安装MySQL 
2)到官网下载hive

2.2 解压
2.3 配置

1)添加环境变量 
2)配置文件 hive-1.1.0-cdh5.7.0/conf/hive-env.sh

# 在最后添加:
export HADOOP_HOME=xxxx
export HIVE_HOME=xxxxx
export JAVA_HOME=xxxxx

3)配置文件 hive-1.1.0-cdh5.7.0/conf/hive-site.xml

<configuration>

<property>
   <name>javax.jdo.option.ConnectionURL</name>
   <value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>
</property> 

<property>
   <name>javax.jdo.option.ConnectionDriverName<www.yingka178.com/name>
   <value>com.mysql.www.thd540.com jdbc.Driver</value>
</property>

<property>
    <name>javax.jdo.option.ConnectionUserName</name>
    <value>root</value>
    <description>Username to use against metastore database</description>
</property>

<property>
   <name>javax.jdo.option.ConnectionPassword</name>
   <value>rootroot</value>
</property> 

4)将MySQL的java驱动包拷贝到 hive-1.1.0-cdh5.7.0/lib

3 基本使用

启动hive之前需要先启动MySQL,Hadoop。

0) 启动

/bin/hive

1 )创建表

CREATE TABLE table_name [www.leyou2.net (col_name data_type)];
例:create table hive_wordcount(context string);

2 )加载数据到hive表

LOAD DATA [LOCAL] INPATH 'filepath' INTO TABLE tablename;
ex: load data local inpath '/home/hadoop/data/hello.txt' into table hive_wordcount;

3 )wordcount操作

select word,count(1) from hive_wordcount lateral view explode(split(context,www.jimeiyulept.com'\t')) wc as word group by word;
lateral view explode(): 把每行记录按照指定分隔符进行拆解

4)配置不使用MapReduce功能

// 方法一:在hive命令行中输入
set hive.fetch.task.conversion=more;
// 方法二:启动时加入参数
hive --hiveconf hive.fetch.task.conversion=more
// 方法三:修改hive-site.xml文件
<property>
    <name>hive.fetch.task.www.078881.cn conversion</name>
    <value>more</value>
</property>

Hive 01 概述、安装配置的更多相关文章

  1. Hive on Spark安装配置详解(都是坑啊)

    个人主页:http://www.linbingdong.com 简书地址:http://www.jianshu.com/p/a7f75b868568 简介 本文主要记录如何安装配置Hive on Sp ...

  2. hive集群安装配置

    hive 是JAVA写的的一个数据仓库,依赖hadoop.没有安装hadoop的,请参考http://blog.csdn.net/lovemelovemycode/article/details/91 ...

  3. centos7 hive 单机模式安装配置

    前言:由于只是在自己的虚拟机上进行学习,所以对hive只是进行最简单的配置,其他复杂的配置文件没有配置. 1.前提 1.1 安装配置jdk1.8 1.2 安装hadoop2.x hadoop单机模式安 ...

  4. 【转】 hive简介,安装 配置常见问题和例子

    原文来自:  http://blog.csdn.net/zhumin726/article/details/8027802 1 HIVE概述 Hive是基于Hadoop的一个数据仓库工具,可以将结构化 ...

  5. hive介绍、安装配置、表操作基础知识适合小白学习

    1.hive概述 Apache Hive数据仓库软件有助于使用SQL读取,编写和管理驻留在分布式存储中的大型数据集.可以将结构投影到已存储的数据中.提供了命令行工具和JDBC驱动以将用户连接到Hive ...

  6. 1.hive介绍及安装配置

    1.Hive介绍 数据库OLTP 在线事务处理 数据仓库OLAP 在线分析处理 延迟高 类sql方式(HQL) 使用sql方式,用来读写,管理位于分布式存储系统上的大型数据集的数据仓库技术 hive是 ...

  7. Hive的mysql安装配置

    一.MySQL的安装 Hive的数据,是存在HDFS里的.此外,hive有哪些数据库,每个数据库有哪些表,这样的信息称之为hive的元数据信息. 元数据信息不存在HDFS,而是存在关系型数据库里,hi ...

  8. ES.01.Elasticsearch安装配置

    Windows版 提纲: 1.   安装Elasticsearch 1.1. 下载Elasticsearch: https://www.elastic.co/cn/downloads/elastics ...

  9. Linux下的Mysql安装 & 配置

    Hive的数据,是存在HDFS里的.此外,hive有哪些数据库,每个数据库有哪些表,这样的信息称之为hive的元数据信息. 元数据信息不存在HDFS里.而是存在关系型数据库里,hive默认用的是der ...

随机推荐

  1. squid如何屏蔽User-Agent为空的请求

    搞定了,反过来就行了acl has_user_agent browser ^ http_access deny !has_user_agent

  2. 【Python】bytes和hex字符串之间的相互转换。

    反复在几个环境上折腾码流的拼装解析和可读化打印,总是遇到hex字符串和bytes之间的转换,记录在这里吧. 1. 在Python2.7.x上(更老的环境真心折腾不起),hex字符串和bytes之间的转 ...

  3. 在mininet上基于ovs,ovx,pox搭建三点虚拟网络

    本次试验基于mininet平台,在平台中利用ovs新建1个交换机,以pox为控制器,ovx作为中间层实现虚拟化. 基础请参照http://ovx.onlab.us/getting-started/tu ...

  4. 箭头函数 -------JavaScript

    本文摘要:http://www.liaoxuefeng.com/ ES6标准新增了一种新的函数:Arrow Function(箭头函数). 为什么叫Arrow Function?因为它的定义用的就是一 ...

  5. .NET AJAX实例

    引用地址:http://blog.csdn.net/qianjiu/article/details/7524228 5.2 Ajax基础http://book.csdn.net/bookfiles/6 ...

  6. 循环引用问题 -- dealloc方法不执行

    dealloc不执行 如果一个类在释放过后,dealloc方法没有执行,那么就代表着这个类还被其他对象所引用,引用计数不为0,这样就造成了内存泄露 昨天其他业务线开发告知他所依赖的我这边的父类VC的- ...

  7. java中char类型转换成int类型的两种方法

    方法一: char ch = '9'; if (Character.isDigit(ch)){ // 判断是否是数字 int num = Integer.parseInt(String.valueOf ...

  8. centos7.4安装rabbitmq服务(3.7.10版本)

    一.需要安装erlang版本依赖,可以使用二进制安装方式,也可以通过rpm安装,但是安装的时候会提示需要erlang版本>=19.3,而且直接默认yum仓库中的版本较低.,为了节省时间,文章中直 ...

  9. STM32串口——中断方式的一般配置方法

    #include "stm32f10x.h" /************************************************ 该程序讲解串口程序的一般配置方法: ...

  10. B1007 素数对猜想

    B1007 素数对猜想 让我们定义\(d_n\)为:\(d_n =p_{n+1}−p_n\),其中\(p_i\)是第i个素数.显然有\(d_1=1\),且对于n>1有\(d_n\)是偶数.&qu ...