Hive整合HBase后的好处:

通过Hive把数据加载到HBase中,数据源可以是文件也可以是Hive中的表。

通过整合,让HBase支持JOIN、GROUP等SQL查询语法。

通过整合,不仅可完成HBase的数据实时查询,也可以使用Hive查询HBase中的数据完成复杂的数据分析。

配置

因为Hive与HBase整合的实现是利用两者本身对外的API接口互相通信来完成的,其具体工作交由Hive的lib目录中的hive-hbase-handler-.jar工具类来实现。所以只需要将hive的 hive-hbase-handler-.jar 复制到hbase/lib中就可以了。

[root@host lib]# cp hive-hbase-handler-2.1.1.jar $HBASE_HOME/lib

测试

通过hive创建hbase表

hive> CREATE TABLE t_name (id INT, NAME string)
    >      stored BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
    >     WITH serdeproperties (
    >     "hbase.columns.mapping" = ":key,st1:name")
    >    tblproperties ("hbase.table.name" = "t_name","hbase.mapred.output.outputtable" = "t_name");
OK
Time taken: 1.625 seconds

在hive中查看:

hive> show tables;
OK
cust_copy
t_name
Time taken: 0.127 seconds, Fetched: 2 row(s)

hive> show create table t_name;
OK
CREATE TABLE `t_name`(
  `id` int COMMENT '',
  `name` string COMMENT '')
ROW FORMAT SERDE
  'org.apache.hadoop.hive.hbase.HBaseSerDe'
STORED BY
  'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES (
  'hbase.columns.mapping'=':key,st1:name',
  'serialization.format'='1')
TBLPROPERTIES (
  'COLUMN_STATS_ACCURATE'='{\"BASIC_STATS\":\"true\"}',
  'hbase.mapred.output.outputtable'='t_name',
  'hbase.table.name'='t_name',
  'numFiles'='0',
  'numRows'='0',
  'rawDataSize'='0',
  'totalSize'='0',
  'transient_lastDdlTime'='1526546542')
Time taken: 0.308 seconds, Fetched: 19 row(s)

在HBASE中查看

hbase(main):004:0> list 't_name'
TABLE                                                                                                                                        
t_name                                                                                                                                       
1 row(s)
Took 0.0092 seconds                                                                                                                          
=> ["t_name"]

在hbase插入数据并查看数据:

hbase(main):006:0> put 't_name','1','st1:name','xiaoma'
Took 0.3709 seconds                                                                                                                          
hbase(main):007:0> put 't_name','2','st1:name','xiaozhang'
Took 0.0038 seconds                                                                                                                          
hbase(main):008:0> put 't_name','3','st1:name','tianyongtao'
Took 0.0051 seconds

hbase(main):009:0> scan 't_name'
ROW                                  COLUMN+CELL                                                                                             
 1                                   column=st1:name, timestamp=1526547097913, value=xiaoma                                                  
 2                                   column=st1:name, timestamp=1526547115702, value=xiaozhang                                               
 3                                   column=st1:name, timestamp=1526547130241, value=tianyongtao                                             
3 row(s)
Took 0.0327 seconds

通过hive查询:

hive> select * from t_name;
OK
t_name.id       t_name.name
1       xiaoma
2       xiaozhang
3       tianyongtao
Time taken: 0.414 seconds, Fetched: 3 row(s)
hive> select * from t_name where id=1;
OK
t_name.id       t_name.name
1       xiaoma
Time taken: 1.246 seconds, Fetched: 1 row(s)
hive> select * from t_name where id>1;
OK
t_name.id       t_name.name
2       xiaozhang
3       tianyongtao
Time taken: 0.383 seconds, Fetched: 2 row(s)

删除表测试:

hive> drop table t_name;
OK
Time taken: 1.851 seconds

经查hbase中的t_name表被同步删除了

多列族

hive> CREATE TABLE t_role (id INT, NAME string,sex int,platid int)
    >      stored BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
    >     WITH serdeproperties (
    >     "hbase.columns.mapping" = ":key,info:NAME,info:sex,plat:platid")
    >    tblproperties ("hbase.table.name" = "t_role","hbase.mapred.output.outputtable" = "t_role");
OK
Time taken: 3.179 seconds

hbase(main):039:0> scan 't_role'
ROW                                           COLUMN+CELL                                                                                                                       
 1                                            column=info:name, timestamp=1526549089030, value=feige                                                                            
 1                                            column=info:sex, timestamp=1526549206235, value=0                                                                                 
 1                                            column=plat:platid, timestamp=1526549241774, value=785                                                                            
1 row(s)
Took 0.0287 seconds

hive> select * from t_role;
OK
t_role.id       t_role.name     t_role.sex      t_role.platid
1       NULL    0       785
Time taken: 0.417 seconds, Fetched: 1 row(s)

发现name字段为空

hbase(main):040:0> put 't_role','1','info:NAME','feige'
Took 0.0033 seconds

hive> select * from t_role;
OK
t_role.id       t_role.name     t_role.sex      t_role.platid
1       feige   0       785
Time taken: 0.422 seconds, Fetched: 1 row(s)

发现name字段被填充因此要注意字段的大小写

-----------------------

spark访问hive-hbase表,需要制定jars包如下:

spark-shell --master local-cluster[3,2,1024] --num-executors 3 --executor-memory 1g --jars /root/hive/apache-hive-2.1.1/lib/hive-hbase-handler-2.1.1.jar

hive整合hbase的更多相关文章

  1. 大数据学习系列之五 ----- Hive整合HBase图文详解

    引言 在上一篇 大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机) 和之前的大数据学习系列之二 ----- HBase环境搭建(单机) 中成功搭建了Hive和HBase的环 ...

  2. 四 Hive整合HBase

    安装环境: hbase版本:hbase-1.4.0-bin.tar.gz hive版本:   apache-hive-1.2.1-bin.tar 注意请使用高一点的hbase版本,不然就算hive和h ...

  3. 创建hive整合hbase的表总结

    [Author]: kwu 创建hive整合hbase的表总结.例如以下两种方式: 1.创建hive表的同步创建hbase的表 CREATE TABLE stage.hbase_news_compan ...

  4. Hive 整合Hbase

    摘要 Hive提供了与HBase的集成,使得能够在HBase表上使用HQL语句进行查询 插入操作以及进行Join和Union等复杂查询.同时也可以将hive表中的数据映射到Hbase中.     应用 ...

  5. 大数据学习系列之九---- Hive整合Spark和HBase以及相关测试

    前言 在之前的大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 中介绍了集群的环境搭建,但是在使用hive进行数据查询的时候会非常的慢,因为h ...

  6. Hive篇---Hive与Hbase整合

     一.前述 Hive会经常和Hbase结合使用,把Hbase作为Hive的存储路径,所以Hive整合Hbase尤其重要. 二.具体步骤 hive和hbase同步https://cwiki.apache ...

  7. Hive综合HBase——经Hive阅读/书写 HBase桌子

    社论: 本文将Hive与HBase整合在一起,使Hive能够读取HBase中的数据,让Hadoop生态系统中最为经常使用的两大框架互相结合.相得益彰. watermark/2/text/aHR0cDo ...

  8. 二十、Hadoop学记笔记————Hive On Hbase

    Hive架构图: 一般用户接口采用命令行操作, hive与hbase整合之后架构图: 使用场景 场景一:通过insert语句,将文件或者table中的内容加入到hive中,由于hive和hbase已经 ...

  9. hive_学习_02_hive整合hbase(失败)

    一.前言 本文承接上一篇:hive_学习_01_hive环境搭建(单机) ,主要是记录 hive 整合hbase的流程 二.环境准备 1.环境准备 操作系统 : linux CentOS 6.8 jd ...

随机推荐

  1. java二叉树排序实现

    原创:转载请注明出处 目的:想用java实现二叉树排序算法 思想:利用java中面向对象的思想,即: Tree:类 树根Tree:root //static所属于每一个Tree 左节点Tree:lef ...

  2. cache、session与cookie

    cache.session.cookie的区别 session把数据保存在服务器端,每一个用户都有属于自己的Session,与别人的不冲突 就是说,你登陆系统后,你的信息(如账号.密码等)就会被保存在 ...

  3. oracle 日期时间函数

    ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02   13:45:25为例)           Year:              yy two digits 两位年 ...

  4. dgraph 基本查询语法 一

    dgraph 的查询语法是在graphql 上的扩展,添加了新的支持,同时官方提供了一个 学习的网站 https://tour.dgraph.io/ 基本环境(cluster 模式的) 参考 gith ...

  5. S5PV210 移植无线wifi网卡 MT7601

    一.准备工作 1.MT7601驱动下载 点击下载 2.插入usb WiFi 启动开发板linux,lsusb查看usb驱动 Bus 001 Device 003: ID 148f:7601看到的是该驱 ...

  6. 字符设备之register_chrdev与register_chrdev_region(转)

    之前写字符设备驱动,都是使用register_chrdev向内核注册驱动程序中构建的file_operations结构体,之后创建的设备文件,只要是主设备号相同(次设备号不同),则绑定的都是同一个fi ...

  7. 使用scrapy框架爬取自己的博文(3)

    既然如此,何不再抓一抓网页的文字内容呢? 谷歌浏览器有个审查元素的功能,就是按树的结构查看html的组织形式,如图: 这样已经比较明显了,博客的正文内容主要在div 的class = cnblogs_ ...

  8. js正则表达式30分钟入门教程

    2011-10-27 13:23:15 如何使用本教程 最重要的是——请给我30分钟,如果你没有使用正则表达式的经验,请不要试图在30秒内入门——除非你是超人 :) 别被下面那些复杂的表达式吓倒,只要 ...

  9. 快速接入PHP微信支付

    微信支付是微信开发中坑最多的一个功能,本文旨在帮助有开发基础的人快速接入微信支付,如果要详细了解微信支付,请看微信支付的开发文档. 再说把开发文档搬到这里来就没必要了.想要快速跑通微信支付的可以继续查 ...

  10. Android Studio 默认keystore 以及自定义keystore

    我们使用Android Studio 运行或测试我们的app  它使用一个默认的debug.keystore进行签名. 这个默认签名(keystore)是不需要密码的,它的默认位置在 $HOME/.a ...