1. Hive概述

1.1. 什么是Hive

hive是有Facebook开源用于解决海量结构化日志的数据统计,Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类SQL查询功能.Hive是构建在Hadoop之上的数据仓库,使用HQL作为查询接口,使用HDFS进行存储,使用MapReduce进行计算.其本质是将HQL转化成MapReduce程序,灵活性和扩展性比较好,支持UDF,自定义存储格式等,适合做离线数据处理。

1.2. Hive在Hadoop生态系统中的位置

1.3. Hive架构设计

Ø Client:用户接口

n CLI(hive shell)

n JDBC/ODBC(Java访问hive)

n WEBUI(浏览器访问hive)

Ø Meta store:元数据

n 元数据主要包括,表名,表所属的数据库(默认是default),表的拥有者,列/分区字段,表的类型(是否是外部表),表的数据所在目录等,默认存储在自带的derby数据库中,推荐使用采用MySQL存储Metastore;

Ø Hadoop

n 使用HDFS进行存储,使用MapReduce进行计算

Ø Driver:驱动器（包含:解析器,编译器,优化器,执行器）

n 解析器:将SQL字符串转换成抽象语法树AST,这一步,一般都是使用第三方工具库完成,比如antlr,对AST进行语法分析,比如表是否存在,字段是否存在,SQL语义是否有误(比如select语句中被判定为聚合的字段在group by中是否有出现)

n 编译器:将AST编译生成逻辑执行计划

n 优化器:对逻辑执行计划进行优化

n 执行器:把逻辑执行计划转换成可以运行的物理计划,对于hive来说,就是MR

1.4. Hive的优点以及应用场景

Ø 操作接口采用类SQL语法,提供快速开发的能力(简单,容易上手)

Ø 避免了去写MapReduce,减少开发人员的学习成本

Ø 统一的元数据管理,可以与impala/spark等共享数据

Ø 易扩展(HDFS+MapReduce:可以扩展集群规模,支持自定义函数)

Ø 数据的离线处理:比如:日志分析,海量结构化数据离线分析

Ø Hive的执行延迟比较高,因此hive常用于数据分析的,对实时性要求不高的场合

Ø Hive的优势在于处理大数据,对于处理小数据没有优势,因此Hive的执行延迟比较高

2. Hive下载和安装

2.1. Hive的下载

Apache官网:https://archive.apache.org/dist/
Cloudera版本:http://archive-primary.cloudera.com/cdh5/cdh/5/
这里选择下载Apache稳定版本apache-hive-0.13.1-bin.tar.gz，并上传至spark-node04.ouyang.com节点的/opt/softwares/目录下

2.2. Hive的安装

解压即安装：tar -zxvf apache-hive-0.13.1-bin.tar.gz -C /opt/modules/

3. Hive配置

3.1. 在hive-log4j.properties中配置日志存储目录

步骤一：重命名该文件

步骤二：创建存储hive日志的目录

步骤三：配置hive的日志信息的的日志目录（大概20行左右）

hive.log.dir=/export/logs/hive

3.2. 在hive-env.sh中配置Hadoop的安装目录和Hive的配置文件所在位置

# 步骤一：重命名该文件

# 步骤二：修改配置文件

# Set HADOOP_HOME to point to a specific hadoop install directory

export HADOOP_HOME=/opt/modules/hadoop-2.7.4

# Hive Configuration Directory can be controlled by:

export HIVE_CONF_DIR=/opt/modules/hive-0.13.1/conf

3.3. 将Hive加入环境变量

export HIVE_HOME=/export/servers/hive

export PATH=${HIVE_HOME}/bin:$PATH

4. Hive启动验证

# 步骤一：启动HDFS服务

bin/hadoop-daemon.sh start namenode

bin/hadoop-daemon.sh start datanode

# 步骤二：创建hive相关目录

bin/hdfs  dfs -mkdir -p /user/root/warehouse

# 步骤三：给用户组增加一个写的权限

bin/hdfs dfs -chmod g+w /user/root/warehouse

# 步骤四：启动hive服务

./bin/hive

# 步骤五：进行hive的基本操作（跟MySQL操作基本类似）

show databases;

5. Hive和MySQL集成

5.1 配置MySQL作为元数据库

Hive默认是将元数据存储在本地,但是这样的话,就会导致元数据不同步.不利于我们以后的操作,所以,我们一般情况下都是使用MySQL作为元数据库,用来存放元数据。

首先需要在hive安装目录下的conf目录下创建一个文件hive-site.xml,也可以将hive-default.xml.template这个文件修改为hive-site.xml.在这个文件中主要配置连接数据库的一些信息。

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

    <!--数据库的连接-->

    <property>

      <name>javax.jdo.option.ConnectionURL</name>

      <value>jdbc:mysql://node01.ouyang.com:3306/hive?createDatabaseIfNotExist=true</value>

    </property>

    <!--驱动名称-->

    <property>

      <name>javax.jdo.option.ConnectionDriverName</name>

      <value>com.mysql.jdbc.Driver</value>

    </property>

    <!--数据库用户名称-->

    <property>

      <name>javax.jdo.option.ConnectionUserName</name>

      <value>root</value>

    </property>

    <!--数据库密码-->

    <property>

      <name>javax.jdo.option.ConnectionPassword</name>

      <value>root</value>

    </property>

</configuration>

5.2. 设置MySQL的远程连接

#登陆mysql数据库服务器

mysql -uroot -p

#切换到mysql数据库

use mysql

#查看user表中的host,user,password三个字段

select user,host,password from user;

#更新用户信息

update user set host = '%' where user = 'root' and host = 'localhost';

#删除其他用户

delete from user where password = '';

#刷新权限修改

flush privileges;

5.3. 将MySQL驱动添加到hive的lib目录

6. Hive服务启动与测试

6.1. 启动HDFS服务

sbin/hadoop-daemon.sh start namenode

sbin/hadoop-daemon.sh start datanode

6.2. 启动hive服务

bin/hive

6.3. hive服务创建表

create table student(id Int,name String) row format delimited fields terminated by ' ';

6.4. 准备数据文件

vim /opt/datas/student.txt

1 zhangsan

2 lisi

3 wangwu

4 tingting

5 nana

6 haha

6.5. 加载数据到hive表

# 在hive的窗口下执行如下命令：

load data local inpath '/opt/datas/student.txt' into table student

7. 使用sql developer连接Hive

7.1. 解压hive驱动

将“hive_jdbc_2.6.2.1002.zip”进行解压，之后进入解压的目录，再解压“ClouderaHiveJDBC4-2.6.2.1002.zip”，里面有一个文件“HiveJDBC4.jar”这个文件就是后续在配置时候需要使用到的。

7.2. 安装sql developer

解压“sqldeveloper-17.2.0.188.1159-no-jre.zip”；之后进入解压处理的目录双击“sqldeveloper.exe”文件；在弹出的视图中指定jdk1.8的路径即可。

7.3. 配置sql developer

配置首选项，将hive_jdbc的jar包配置进去：

7.4. 使用sql developer连接hive

8. Hive与HBase进行集成

8.1. 在hive-site.xml中配置zookeeper

<!--hive通过zookeeper去连接hbase-->

<!-- 整合zookeeper -->

<property>

    <name>hbase.zookeeper.quorum</name>

    <value>spark-node04.ouyang.com,spark-node05.ouyang.com,spark-node06.ouyang.com</value>

</property>

<!—在命令行启动hive时，会显示当前数据库和列名等选项 -->

<property>

    <name>hive.cli.print.header</name>

    <value>true</value>

</property>

<property>

    <name>hive.cli.print.current.db</name>

    <value>true</value>

</property>

8.2. 整合包引入

将HBase中9个jar包拷贝到hive/lib目录下,因为hive需要用到HBase，所以要导入，如果是CDH版,已经集成好不需要导包。

# 步骤一：在/etc/profile中配置好HBase和Hive的环境变量

export HIVE_HOME=/export/servers/hive

export HBASE_HOME=/export/servers/hbase

# 步骤二：创建软链接（请注意包的版本）

ln -s $HBASE_HOME/lib/hbase-server-0.98.6-cdh5.3.0.jar $HIVE_HOME/lib/hbase-server-0.98.6-cdh5.3.0.jar

ln -s $HBASE_HOME/lib/hbase-client-0.98.6-cdh5.3.0.jar $HIVE_HOME/lib/hbase-client-0.98.6-cdh5.3.0.jar

ln -s $HBASE_HOME/lib/hbase-protocol-0.98.6-cdh5.3.0.jar $HIVE_HOME/lib/hbase-protocol-0.98.6-cdh5.3.0.jar

ln -s $HBASE_HOME/lib/hbase-it-0.98.6-cdh5.3.0.jar $HIVE_HOME/lib/hbase-it-0.98.6-cdh5.3.0.jar

ln -s $HBASE_HOME/lib/htrace-core-2.04.jar $HIVE_HOME/lib/htrace-core-2.04.jar

ln -s $HBASE_HOME/lib/hbase-hadoop2-compat-0.98.6-cdh5.3.0.jar $HIVE_HOME/lib/hbase-hadoop2-compat-0.98.6-cdh5.3.0.jar

ln -s $HBASE_HOME/lib/hbase-hadoop-compat-0.98.6-cdh5.3.0.jar $HIVE_HOME/lib/hbase-hadoop-compat-0.98.6-cdh5.3.0.jar

ln -s $HBASE_HOME/lib/high-scale-lib-1.1.1.jar $HIVE_HOME/lib/high-scale-lib-1.1.1.jar

ln -s $HBASE_HOME/lib/hbase-common-0.98.6-cdh5.3.0.jar $HIVE_HOME/lib/hbase-common-0.98.6-cdh5.3.0.jar

8.3. 创建与HBase集成的HIve的外部表（Hive和HBase集成，就是使用Hive操作HBase中的表，相对于Hive来说是外部，所以是外部表）

--创建hbase的外部表

--HBase中的表可以在Hive中进行操作，创建的表的列与HBase中表的列的对应关系如下设置，可以在Hive中进行表的操作，会更新到HBase中

CREATE EXTERNAL TABLE access(id string,datatime string,userid string,searchname string,retorder string,cliorder string,cliurl string) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,info:datatime,info:userid,info:searchname,info:retorder,info:cliorder,info:cliurl") TBLPROPERTIES ("hbase.table.name" = "access");

8.4. 使用Hive查看HBase中access表

在Hive中和在HBase中查看的条数会有一点差异，但获取的日志条数为海量数据，该差异可以忽略不计。

9. hive的beeline和hiveserver2的使用

9.1. 启动hiveserver2

#启动hive的server2服务

bin/hiveserver2

9.2. 启动beeline

#启动beeline服务

bin/beeline

9.3. 使用beeline连接hiveserver2服务

#连接hiveserver2服务

!connect jdbc:hive2://spark-node04.ouyang.com:10000

9.4. hive相关操作（类sql语句）

#查看所有的表

show tables;

#查看前10名

select * from access limit 10;

#查看总的记录树

select count(*) from access;

9.5. 创建后台一键启动hiveserver2脚本

vim starthiveserver2.sh

ssh node01.ouyang.com "source /etc/profile;nohup sh ${HIVE_HOME}/bin/hiveserver2 >/dev/null 2>&1 &"

# 执行该脚本就会后台启动hive服务，可以使用beeline和sql seveloper连接hive

CentOS6安装各种大数据软件第八章：Hive安装和配置的更多相关文章

CentOS6安装各种大数据软件第四章：Hadoop分布式集群配置
相关文章链接 CentOS6安装各种大数据软件第一章:各个软件版本介绍 CentOS6安装各种大数据软件第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件第三章:Linux基础 ...
CentOS6安装各种大数据软件第十章：Spark集群安装和部署
相关文章链接 CentOS6安装各种大数据软件第一章:各个软件版本介绍 CentOS6安装各种大数据软件第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件第三章:Linux基础 ...
CentOS6安装各种大数据软件第九章：Hue大数据可视化工具安装和配置
相关文章链接 CentOS6安装各种大数据软件第一章:各个软件版本介绍 CentOS6安装各种大数据软件第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件第三章:Linux基础 ...
CentOS6安装各种大数据软件第七章：Flume安装与配置
相关文章链接 CentOS6安装各种大数据软件第一章:各个软件版本介绍 CentOS6安装各种大数据软件第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件第三章:Linux基础 ...
CentOS6安装各种大数据软件第六章：HBase分布式集群的配置
相关文章链接 CentOS6安装各种大数据软件第一章:各个软件版本介绍 CentOS6安装各种大数据软件第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件第三章:Linux基础 ...
CentOS6安装各种大数据软件第五章：Kafka集群的配置
相关文章链接 CentOS6安装各种大数据软件第一章:各个软件版本介绍 CentOS6安装各种大数据软件第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件第三章:Linux基础 ...
CentOS6安装各种大数据软件第一章：各个软件版本介绍
相关文章链接 CentOS6安装各种大数据软件第一章:各个软件版本介绍 CentOS6安装各种大数据软件第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件第三章:Linux基础 ...
CentOS6安装各种大数据软件第二章：Linux各个软件启动命令
相关文章链接 CentOS6安装各种大数据软件第一章:各个软件版本介绍 CentOS6安装各种大数据软件第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件第三章:Linux基础 ...
CentOS6安装各种大数据软件第三章：Linux基础软件的安装
相关文章链接 CentOS6安装各种大数据软件第一章:各个软件版本介绍 CentOS6安装各种大数据软件第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件第三章:Linux基础 ...

随机推荐

(WF, Debug) System.Xaml.XamlObjectWriterException: Cannot create unknown type '{clr-namespace:xx;assembly=xx}xx'.
Load WF 后一开始运行的时候就发现 System.Xaml.XamlObjectWriterException: Cannot create unknown type '{clr-namespa ...
Android实现图片下载并保存SD卡
一.首先获取图片 //第一种获取图片的方法 String filePath = downloadUrl; //以下是取得图片的方法取得的是InputStream,直接从InputStream生成bi ...
java线程面试手写题
1.设计4个线程,其中两个线程每次对j增加1,另外两个线程对j每次减少1.写出程序. public class Question1 { private int j = 0; /** * @param ...
CentOS 7 yum 安装 Nginx
1.添加Nginx到YUM源添加CentOS 7 Nginx yum资源库,打开终端,使用以下命令: sudo rpm -Uvh http://nginx.org/packages/centos/7 ...
LDF文件丢失, 如何仅用MDF文件恢复数据库呢?
笔者的一个大小为2 TB的SQL Server的database的LDF文件在玩存储盘映射的过程中莫名其妙的丢失了. 好在MDF文件还在. 笔者慌了, Bruce Ye告诉笔者, 不用着急, 光用MD ...
MHA源码分析——环境部署
为了更好地了解MHA的原理,计划对MHA源码进行详细的阅读,本文主要为部署源码阅读环境. 一.概述 mha是由perl语言开发,这里想通过eclipse+perl组件来阅读其源码,所以我们环境需要安装 ...
margin的用法
margin塌陷问题当时说到了盒模型,盒模型包含着margin,为什么要在这里说margin呢?因为元素和元素在垂直方向上margin里面有坑. 我们来看一个例子: html结构: <div ...
Linux 下Shell的学习2
0. 查看帮助(比如内置功能) man bash -->变量处理大全 1.-计算变量长度的不同方法及不同方法的耗时对比尽可能的用内置的命令处理,速度快 time ...
高可用web框架
nginx nginx简介 Nginx是一个自由.开源.高性能及轻量级的HTTP服务器及反转代理服务器.Nginx以其高性能.稳定.功能丰富.配置简单及占用系统资源少而著称. Nginx 超越 Apa ...
post注入及提权思路
我们这次的目标有点敏感性感的马赛克是必须有的登陆表单那么我们来看看是不是存在post注入 Setp1:设置代理 Step2:账户admin密码随意提交上去抓个包把抓到的包复制到本地的一 ...

CentOS6安装各种大数据软件 第八章：Hive安装和配置

相关文章链接