前言

在之前的大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 中介绍了集群的环境搭建,但是在使用hive进行数据查询的时候会非常的慢,因为hive默认使用的引擎是MapReduce。因此就将spark作为hive的引擎来对hbase进行查询,在成功的整合之后,我将如何整合的过程写成本篇博文。具体如下!

事前准备

在进行整合之前,首先确保Hive、HBase、Spark的环境已经搭建成功!如果没有成功搭建,具体可以看我之前写的大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 这篇文章。

那么开始将hive、hbase、spark整合吧。

目前集群的配置如下:

Hive整合HBase

因为Hive与HBase整合的实现是利用两者本身对外的API接口互相通信来完成的,其具体工作交由Hive的lib目录中的hive-hbase-handler-*.jar工具类来实现。所以只需要将hive的 hive-hbase-handler-*.jar 复制到hbase/lib中就可以了。

切换到hive/lib目录下

输入:

cp hive-hbase-handler-*.jar /opt/hbase/hbase1.2/lib

: 如果在hive整合hbase中,出现版本之类的问题,那么以hbase的版本为主,将hbase中的jar包覆盖hive的jar包。

至于Hive和HBase之间的相关测试可以查看我之前的大数据学习系列之五 ----- Hive整合HBase图文详解 这篇文章,本篇就不再过多描述了。

Hive整合Spark

其实Hive整合Spark其实就是Hive使用Spark成功编译好的架包,但是Hive整合Spark比较坑的是版本不能随意,必须使用指定的进行编译。当初因为这个问题困扰了很久,最后查阅资料找到了已经编译好的spark和hive的版本,我们只需要将编译好的jar拿过来进行使用就行了。具体使用如下。

hive的配置更改

切换到hive/conf 目录下

编辑 hive-env.sh 文件

添加spark的环境:

export  SPARK_HOME=/opt/spark/spark1.6-hadoop2.4-hive

然后编辑 hive-site.xml 文件

在hive-site.xml 添加 这些配置

这些配置的说明:

hive.execution.engine: 表示 hive 执行的默认引擎是,这里我们填的是spark。如果不想 加这个配置,希望手动使用spark,那么进入hive shell之后,输入:

set hive.execution.engine=spark;

spark.master: spark的主机地址,这里我们填spark的默认地址。

spark.home: spark 的安装路径,写spark的安装路径。

spark.submit.deployMode:spark的提交方式,默认就写client。

spark.serializer: spark 的序列化方式。

spark.eventLog.enabled:是否使用spark的日志,默认true。

spark.eventLog.dir : spark的日志存放路径,注意这个路径要用hadoop创建!

spark.executor.memory:分配给spark的执行内存,根据个人机器来配置。

spark.driver.memory: spark总内存,根据个人机器来配置。

完整配置:

<!--  Hive On Spark 配置 -->

    <property>
<name>hive.execution.engine</name>
<value>spark</value>
</property> <property>
<name>spark.master</name>
<value>spark://master:7077</value>
</property> <property>
<name>spark.home</name>
<value>/opt/spark/spark1.6-hadoop2.4-hive</value>
</property> <property>
<name>spark.submit.deployMode</name>
<value>client</value>
</property> <property>
<name>spark.serializer</name>
<value>org.apache.spark.serializer.KryoSerializer</value>
</property> <property>
<name>spark.eventLog.enabled</name>
<value>true</value>
</property> <property>
<name>spark.eventLog.dir</name>
<value>hdfs://master:9000/directory</value>
</property> <property>
<name>spark.executor.memory</name>
<value>10G</value>
</property> <property>
<name>spark.driver.memory</name>
<value>10G</value>
</property>

成功配置这些之后,进入hive shell中。

简单进行两个表的关联查询



可以看到hive已经成功使用spark作为引擎了。

Hive on HBase 使用spark引擎测试

在成功整合环境之后,并且建立了两张hive 外联hbase的表之后。进行数据查询测试。

两张表的创建脚本:

create table t_student(id int,name string) stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' with serdeproperties("hbase.columns.mapping"=":key,st1:name") tblproperties("hbase.table.name"="t_student","hbase.mapred.output.outputtable" = "t_student");

create table t_student_info(id int,age int,sex string) stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' with serdeproperties("hbase.columns.mapping"=":key,st1:age,st1:sex") tblproperties("hbase.table.name"="t_student_info","hbase.mapred.output.outputtable" = "t_student_info");

然后在两张表中个插入插入100万数据测试

注:我这里是在HBase中直接插入100w数据的,使用HBase的Api完成的,具体可以大数据学习系列之三 ----- HBase Java Api 图文详解这篇博文。

成功插入之后,我们在hive shell中来测试查询速度。

条数测试:

主键管理查询测试:

非主键查询测试:

注:其实也是可以使用hive的Api ,就是普通的JDBC连接,只不过连接驱动要换成

Class.forName("org.apache.hive.jdbc.HiveDriver");

具体实现可以看我的github中的代码:https://github.com/xuwujing/pancm_project/blob/master/src/main/java/com/pancm/test/hiveTest/hiveUtil.java

结论: 使用 hive on spark 查询可以看出,如果查询条件是主键,也就是hbase中的rowkey的话,查询100w数据可以在2.3s左右就查出来了(个人感觉打开spark估计就要用2s左右,如果量大的话,速度估计也不会很慢), 但是如果使用非主键的条件去查询,就可以看到速度明显变慢了。

所以在使用 hive on hbase 的时候,尽量使用rowkey进行查询。

后记

其实集群的环境搭建以及整合在我写第一篇大数据学习系列博客的时候就已经搭建好了。至于博客为什么写得这么迟,第一点是当初搭建环境的时候,并没有真正的理解那些配置的作用;第二点是环境搭建有些莫名其妙,经常出现问题,不过大部分问题和解决反感我都记录并写成博客了,所以慢慢写博客其实也是个人知识的重新整理;第三是个人的精力有限,无法一口气将这些都写成博客,毕竟写博客也需要一定时间和精力的。

完成本篇博文之后,暂时先不写大数据这方面的博客了。感觉目前的自己能力还不够,如果就这样勉强的去自学,估计也很难学到知识点,更何况将其写成博客来讲解了。所以目前就先放放,有能力之后再来续写!

大数据学习系列的文章:http://blog.csdn.net/column/details/18120.html

大数据学习系列之九---- Hive整合Spark和HBase以及相关测试的更多相关文章

  1. 大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机)

    引言 在大数据学习系列之一 ----- Hadoop环境搭建(单机) 成功的搭建了Hadoop的环境,在大数据学习系列之二 ----- HBase环境搭建(单机)成功搭建了HBase的环境以及相关使用 ...

  2. 大数据学习系列之五 ----- Hive整合HBase图文详解

    引言 在上一篇 大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机) 和之前的大数据学习系列之二 ----- HBase环境搭建(单机) 中成功搭建了Hive和HBase的环 ...

  3. 大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 图文详解

    引言 在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单 ...

  4. 大数据学习系列之六 ----- Hadoop+Spark环境搭建

    引言 在上一篇中 大数据学习系列之五 ----- Hive整合HBase图文详解 : http://www.panchengming.com/2017/12/18/pancm62/ 中使用Hive整合 ...

  5. 大数据学习系列之三 ----- HBase Java Api 图文详解

    版权声明: 作者:虚无境 博客园出处:http://www.cnblogs.com/xuwujing CSDN出处:http://blog.csdn.net/qazwsxpcm 个人博客出处:http ...

  6. 大数据学习系列之—HBASE

    hadoop生态系统 zookeeper负责协调 hbase必须依赖zookeeper flume 日志工具 sqoop 负责 hdfs dbms 数据转换 数据到关系型数据库转换 大数据学习群119 ...

  7. 大数据学习系列之八----- Hadoop、Spark、HBase、Hive搭建环境遇到的错误以及解决方法

    前言 在搭建大数据Hadoop相关的环境时候,遇到很多了很多错误.我是个喜欢做笔记的人,这些错误基本都记载,并且将解决办法也写上了.因此写成博客,希望能够帮助那些搭建大数据环境的人解决问题. 说明: ...

  8. 大数据学习(10)—— Hive进阶

    前面提到了Hive的知识点非常零散,我不知道该怎么把这些知识点分类,跟SQL关系没那么大的就放在这一篇吧. Hive Serde 参考Hive Serde Serde是啥 Serde是序列化和反序列化 ...

  9. 大数据学习系列之Hadoop、Spark学习线路(想入门大数据的童鞋,强烈推荐!)

    申明:本文出自:http://www.cnblogs.com/zlslch/p/5448857.html(该博客干货较多) 1 Java基础: 视频方面:          推荐<毕向东JAVA ...

随机推荐

  1. 「mysql优化专题」你们要的多表查询优化来啦!请查收(4)

    一.多表查询连接的选择: 相信这内连接,左连接什么的大家都比较熟悉了,当然还有左外连接什么的,基本用不上我就不贴出来了.这图只是让大家回忆一下,各种连接查询. 然后要告诉大家的是,需要根据查询的情况, ...

  2. idea svn 的使用----转载,挺好的

    Intellij IDEA svn的使用记录 这里的忽略一直灰色的,可以进入 这里的版本控制里进行忽略选择 或者 这里进行添加 这里有三个选择 按照顺序 1.忽略指定的文件 2.忽略文件夹下所有文件 ...

  3. SQL 杂活

    例子一:查询两个表数据并且分页展示 select * from ( select ROW_NUMBER() OVER(order by CreateTime desc) as rownum,* fro ...

  4. 用Azure AD 实现Web 应用身份认证的Multi-Factor Authentication(MFA)

    最近客户有个需求,希望把面向public的Web应用中的终端用户数据库由Azure AD来实现,同时希望可以用MFA来实现用户身份认证.这个想法非常好,通过使用Azure的managed servic ...

  5. free查看内存和swap使用情况,增加、删除、自动挂载swap分区

    free [root@localhost ~]# free total used free shared buff/cache available Mem: 999936 142760 566536 ...

  6. 合并查询结果集UNION(去重), UNION ALL(不去重),INTERSECT(交集),MINUS(差集,第一个结果集减去第二个结果集,第一个结果集中不在第二个结果集中的记录行),[NOT] EXIST

    MINUS配合[NOT] EXIST使用可以查询出包含符合某个条件的多记录的其他记录, 举例: 顾客A买了商品2.4.6 顾客B买了商品1.2.4 顾客C买了商品4.6 顾客D买了商品1.2.4.6 ...

  7. iOS 视频开发学习

    原文:浅谈iOS视频开发 这段时间对视频开发进行了一些了解,在这里和大家分享一下我自己觉得学习步骤和资料,希望对那些对视频感兴趣的朋友有些帮助. 一.iOS系统自带播放器 要了解iOS视频开发,首先我 ...

  8. 查看windows、linux的SN

     gwmi win32_bios    [root@live-al-ops-pxe-2 ~]# dmidecode | grep Number | sed -n '1p' Serial Number: ...

  9. Java 本地开发环境搭建(框架采用 Spring+Spring MVC+Hibernate+Jsp+Gradle+tomcat+mysql5.6)

    项目搭建采用技术栈为:Spring+Spring MVC+Hibernate+Jsp+Gradle+tomcat+mysql5.6 搭建环境文档目录结构说明: 使用Intellj Idea 搭建项目过 ...

  10. Xamarin Android Fragment的两种加载方式

    android Fragment的重点: 3.0版本后引入,即minSdk要大于11 Fragment需要嵌套在Activity中使用,当然也可以嵌套到另外一个Fragment中,但这个被嵌套的Fra ...