大数据学习系列之九---- Hive整合Spark和HBase以及相关测试

前言

在之前的大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建中介绍了集群的环境搭建，但是在使用hive进行数据查询的时候会非常的慢，因为hive默认使用的引擎是MapReduce。因此就将spark作为hive的引擎来对hbase进行查询，在成功的整合之后，我将如何整合的过程写成本篇博文。具体如下！

事前准备

在进行整合之前，首先确保Hive、HBase、Spark的环境已经搭建成功！如果没有成功搭建，具体可以看我之前写的大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建这篇文章。

那么开始将hive、hbase、spark整合吧。

目前集群的配置如下:

Hive整合HBase

因为Hive与HBase整合的实现是利用两者本身对外的API接口互相通信来完成的，其具体工作交由Hive的lib目录中的hive-hbase-handler-*.jar工具类来实现。所以只需要将hive的 hive-hbase-handler-*.jar 复制到hbase/lib中就可以了。

切换到hive/lib目录下

输入:

cp hive-hbase-handler-*.jar /opt/hbase/hbase1.2/lib

注: 如果在hive整合hbase中，出现版本之类的问题，那么以hbase的版本为主，将hbase中的jar包覆盖hive的jar包。

至于Hive和HBase之间的相关测试可以查看我之前的大数据学习系列之五 ----- Hive整合HBase图文详解这篇文章，本篇就不再过多描述了。

Hive整合Spark

其实Hive整合Spark其实就是Hive使用Spark成功编译好的架包，但是Hive整合Spark比较坑的是版本不能随意，必须使用指定的进行编译。当初因为这个问题困扰了很久，最后查阅资料找到了已经编译好的spark和hive的版本，我们只需要将编译好的jar拿过来进行使用就行了。具体使用如下。

hive的配置更改

切换到hive/conf 目录下

编辑 hive-env.sh 文件

添加spark的环境:

export  SPARK_HOME=/opt/spark/spark1.6-hadoop2.4-hive

然后编辑 hive-site.xml 文件

在hive-site.xml 添加这些配置

这些配置的说明:

hive.execution.engine：表示 hive 执行的默认引擎是，这里我们填的是spark。如果不想加这个配置，希望手动使用spark，那么进入hive shell之后，输入:

set hive.execution.engine=spark;

spark.master: spark的主机地址，这里我们填spark的默认地址。

spark.home: spark 的安装路径，写spark的安装路径。

spark.submit.deployMode：spark的提交方式，默认就写client。

spark.serializer: spark 的序列化方式。

spark.eventLog.enabled:是否使用spark的日志，默认true。

spark.eventLog.dir : spark的日志存放路径，注意这个路径要用hadoop创建！

spark.executor.memory:分配给spark的执行内存，根据个人机器来配置。

spark.driver.memory: spark总内存，根据个人机器来配置。

完整配置:

<!--  Hive On Spark 配置 -->

    <property>

       <name>hive.execution.engine</name>

        <value>spark</value>

    </property>

     <property>

           <name>spark.master</name>

           <value>spark://master:7077</value>

    </property>

        <property>

        <name>spark.home</name>

        <value>/opt/spark/spark1.6-hadoop2.4-hive</value>

        </property>

        <property>

        <name>spark.submit.deployMode</name>

        <value>client</value>

        </property>

        <property>

	       <name>spark.serializer</name>

	       <value>org.apache.spark.serializer.KryoSerializer</value>

        </property>

    <property>

       <name>spark.eventLog.enabled</name>

       <value>true</value>

    </property>

    <property>

       <name>spark.eventLog.dir</name>

       <value>hdfs://master:9000/directory</value>

    </property>

   <property>

       <name>spark.executor.memory</name>

       <value>10G</value>

    </property>

   <property>

       <name>spark.driver.memory</name>

       <value>10G</value>

    </property>

成功配置这些之后，进入hive shell中。

简单进行两个表的关联查询

可以看到hive已经成功使用spark作为引擎了。

Hive on HBase 使用spark引擎测试

在成功整合环境之后，并且建立了两张hive 外联hbase的表之后。进行数据查询测试。

两张表的创建脚本:

create table t_student(id int,name string) stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' with serdeproperties("hbase.columns.mapping"=":key,st1:name") tblproperties("hbase.table.name"="t_student","hbase.mapred.output.outputtable" = "t_student");

create table t_student_info(id int,age int,sex string) stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' with serdeproperties("hbase.columns.mapping"=":key,st1:age,st1:sex") tblproperties("hbase.table.name"="t_student_info","hbase.mapred.output.outputtable" = "t_student_info");

然后在两张表中个插入插入100万数据测试

注：我这里是在HBase中直接插入100w数据的，使用HBase的Api完成的，具体可以大数据学习系列之三 ----- HBase Java Api 图文详解这篇博文。

成功插入之后，我们在hive shell中来测试查询速度。

条数测试:

主键管理查询测试:

非主键查询测试:

注:其实也是可以使用hive的Api ，就是普通的JDBC连接，只不过连接驱动要换成

Class.forName("org.apache.hive.jdbc.HiveDriver");

具体实现可以看我的github中的代码:https://github.com/xuwujing/pancm_project/blob/master/src/main/java/com/pancm/test/hiveTest/hiveUtil.java

结论: 使用 hive on spark 查询可以看出，如果查询条件是主键，也就是hbase中的rowkey的话，查询100w数据可以在2.3s左右就查出来了(个人感觉打开spark估计就要用2s左右，如果量大的话，速度估计也不会很慢)，但是如果使用非主键的条件去查询，就可以看到速度明显变慢了。

所以在使用 hive on hbase 的时候，尽量使用rowkey进行查询。

后记

其实集群的环境搭建以及整合在我写第一篇大数据学习系列博客的时候就已经搭建好了。至于博客为什么写得这么迟，第一点是当初搭建环境的时候，并没有真正的理解那些配置的作用；第二点是环境搭建有些莫名其妙，经常出现问题，不过大部分问题和解决反感我都记录并写成博客了，所以慢慢写博客其实也是个人知识的重新整理；第三是个人的精力有限，无法一口气将这些都写成博客，毕竟写博客也需要一定时间和精力的。

完成本篇博文之后，暂时先不写大数据这方面的博客了。感觉目前的自己能力还不够，如果就这样勉强的去自学，估计也很难学到知识点，更何况将其写成博客来讲解了。所以目前就先放放，有能力之后再来续写！

大数据学习系列的文章:http://blog.csdn.net/column/details/18120.html