HiveHbase集成实践

作者：Syn良子出处：http://www.cnblogs.com/cssdongl/p/6857891.html 转载请注明出处

简单的说就是可以通过Hive SQL直接对hbase的表进行读写操作，对了，这里可能有人会问，为啥要这么集成呢，有什么场景呢。那我举个场景栗子,比如我们可能会用Hbase做后台历史日志的存储和统计.

而进行离线日志的存储统计的时候，你当然可以选择用Hadoop MR或者Spark来进行统计和分析并存入相应的Hbase表结构，随后前台可以利用thrift等方式进行实时的查询，ok,这些都能满足需求.

那么时间长了以后，随着项目需求和数据种类以及临时需求的增多，写MR和Spark会不会很累？所以，当然想到可不可以直接通过Hive SQL来直接读写hbase，这就是一个很普通的需求.

废话不说，官网有现成的例子可以参考,很详细:https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration

我整理和总结一下一些细节和遇到的问题

1.数据准备

在hive中创建个基础表并插入数据,注意下面红色路径的txt可以在hive的examples目录下找到

CREATE TABLE pokes (foo INT, bar STRING);

LOAD DATA LOCAL INPATH '/data/examples/files/kv1.txt' OVERWRITE INTO TABLE pokes;

2.Hive中创建Hbase表

这种情况就是在hive和hbase中同时创建新表然后建立hive和hbase的表映射关系，如果删除hive中的表，那么hbase的表也会消失,如下

CREATE TABLE hbase_table_1(key int, value string)

STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'

WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf1:val")

TBLPROPERTIES ("hbase.table.name" = "xyz", "hbase.mapred.output.outputtable" = "xyz");

INSERT OVERWRITE TABLE hbase_table_1 SELECT * FROM pokes WHERE foo=98;

这里解释下,强调一下几点细节

1>(key int, value string) 和("hbase.columns.mapping" = ":key,cf1:val")以及最后insert后的select的字段，请确定顺序都保持一致

2>这个hive表和hbase建立的映射就是:hbase的rowkey和hive表的select的第一个字段foo对应，而cf1是列族，val是列名，相当于已经固定好了，select查出的第二个字段就是对应的列值

3>这里 TBLPROPERTIES 定义了hbase中的表名，如果没有这行，那么hbase默认表名就和hive表名一致

4>HbaseStorageHandler很重要，hive和hbase的集成需要将hive-hbase-handler-x.y.z.jar(x.y.z是当前环境的jar包版本)配置在Hive client auxpath路径下,也就是说，你必须在

hive-site.xml里面配置好hive.aux.jars.path，这个属性，而它的值是hive-hbase-handler-x.y.z.jar所在的路径.

3.Hive映射Hbase多列族多列

类似于第一种情况，只是映射了多列族多列而已,如下

CREATE TABLE hbase_table_1(key int, value1 string, value2 int, value3 int)

STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'

WITH SERDEPROPERTIES (

"hbase.columns.mapping" = ":key,a:b,a:c,d:e"

);

INSERT OVERWRITE TABLE hbase_table_1 SELECT foo, bar, foo+1, foo+2

FROM pokes WHERE foo=98 OR foo=100;

强调的细节和上面那个单列一致，只是多了几个列族和对应的列,这里的列族和列都是提前定义好的.

scan后结果如下

hbase(main):015:0> scan "hbase_table_1"

ROW                          COLUMN+CELL

 100                         column=a:b, timestamp=1267740457648, value=val_100

 100                         column=a:c, timestamp=1267740457648, value=101

 100                         column=d:e, timestamp=1267740457648, value=102

 98                          column=a:b, timestamp=1267740457648, value=val_98

 98                          column=a:c, timestamp=1267740457648, value=99

 98                          column=d:e, timestamp=1267740457648, value=100

2 row(s) in 0.0240 seconds

4.Hive访问已存在的hbase表

这种方式其实hive表是个外表，即使清空hive中的表数据，Hbase中的表不会受到影响.

CREATE EXTERNAL TABLE hbase_table_2(key int, value string)

STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'

WITH SERDEPROPERTIES ("hbase.columns.mapping" = "cf1:val")

TBLPROPERTIES("hbase.table.name" = "some_existing_table", "hbase.mapred.output.outputtable" = "some_existing_table");

5.Hive映射Hbase动态列

为啥要动态列?因为有的场景下，我需要存入hbase列族下的列名是动态的要存值的是需要查询出来的，不是写死的，如果没有动态映射岂不累死,对应建表和插入如下

CREATE TABLE hbase_table_1(value map<string,int>, row_key int)

STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'

WITH SERDEPROPERTIES (

"hbase.columns.mapping" = "cf:,:key"

);

INSERT OVERWRITE TABLE hbase_table_1 SELECT map(bar, foo), foo FROM pokes

WHERE foo=98 OR foo=100;

强调一下几个细节

1>注意这里表定义mapping的时候，只定义了一个列族名为cf,还有随后的rowkey

2>注意后面的SELECT的语句，map(bar,foo)中的bar映射的是列名，foo是列值，所以这里是动态的列插入,随后第2个select的列对应的row_key

3>使用hive map类型时，注意SELECT查出来的字段类型和 “CREATE TABLE hbase_table_1(value map<string,int>, row_key int)”中定义的字段类型需要一致，不然无法插入,详细解释的话，举个栗子

比如SELECT查出来的map(bar,foo)中列名和列值分别是varchar(50)和bigint类型的话,那么这个时候插入就会报异常然后插入失败

Cannot insert into target table because column number/types are different

那么怎么办？我想到二种方式，第一种就是你定义的时候就定义好类型映射保持一致，比如你可以索性将map中的key值在hive中都定义成string类型,另外一种是cast函数，再举个栗子，

比如SELECT查出来的map(bar,foo)中的bar是varchar(50),foo是bigint,而建立表的时候定义的map<varchar(200),bigint>,这样依然插入不进去，那么可以进行cast,比如cast(bar as varchar(200)),ok,这样可以解决问题.

参考资料:

https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration

http://blog.cloudera.com/blog/2010/06/integrating-hive-and-hbase/

http://blog.csdn.net/xiaoshunzi111/article/details/51803719

http://blog.csdn.net/bdchome/article/details/45499641

HiveHbase集成实践的更多相关文章

[独孤九剑]持续集成实践（二）– MSBuild语法入门
本系列文章包含: [独孤九剑]持续集成实践(一)- 引子 [独孤九剑]持续集成实践(二)– MSBuild语法入门 [独孤九剑]持续集成实践(三)- Jenkins安装与配置(Jenkins+MSBu ...
[独孤九剑]持续集成实践（三）- Jenkins安装与配置(Jenkins+MSBuild+GitHub)
本系列文章包含: [独孤九剑]持续集成实践(一)- 引子 [独孤九剑]持续集成实践(二)– MSBuild语法入门 [独孤九剑]持续集成实践(三)- Jenkins安装与配置(Jenkins+MSBu ...
基于Jenkins的开发测试全流程持续集成实践
今年一直在公司实践CI,本文将近半年来的一些实践总结一下,可能不太完善或优美,但的确初步解决了我目前所在项目组的一些痛点.当然这仅是一家之言也不够完整,后续还会深入实践和引入Kubernetes进行容 ...
Pytest权威教程22-优质集成实践
目录优质集成实践使用pip安装包 Python测试发现的约定选择测试布局结构/导入规则在应用程序代码外测试测试作为应用程序代码的一部分 tox 返回: Pytest权威教程优质集成实践使 ...
「持续集成实践系列」Jenkins 2.x 搭建CI需要掌握的硬核要点
1. 前言随着互联网软件行业快速发展,为了抢占市场先机,企业不得不持续提高软件的交付效率.特别是现在国内越来越多企业已经在逐步引入DevOps研发模式的变迁,在这些背景催促之下,对于企业研发团队所需 ...
「持续集成实践系列」Jenkins 2.x 构建CI自动化流水线常见技巧
在上一篇文章中,我们介绍了Jenkins 2.x实现流水线的两种语法,以及在实际工作中该如何选择脚本式语法或声明式语法.原文可查阅:「持续集成实践系列」Jenkins 2.x 搭建CI需要掌握的硬核要 ...
Gitea 与 Jenkins 的集成实践，打造你的专属 CI/CD 系统
前言 Gitea 是一个用于代码托管的轻量级单体程序,它能与现有的经典应用集成,诸如代码分析工具 SonarQube.持续集成工具 Drone.Jenkins 以及用于工单管理的客户端插件(VSCod ...
学习笔记——Maven实战（四）基于Maven的持续集成实践
Martin的<持续集成> 相信很多读者和我一样,最早接触到持续集成的概念是来自Martin的著名文章<持续集成>,该文最早发布于2000年9月,之后在2006年进行了一次修订 ...
基于Jenkins Pipeline的ASP.NET Core持续集成实践
最近在公司实践持续集成,使用到了Jenkins的Pipeline来提高团队基于ASP.NET Core API服务的集成与部署效率,因此这里总结一下. 一.关于持续集成与Jenkins Pipelin ...

随机推荐

PRINCE2重要性--光环国际培训
项目的重要性答:对于当今的组织来说,一个关键的挑战,就是能够成功地平衡以下两个并存的.互相竞争的方面:保持现有的商业运营--盈利能力.服务质量.客户关系.品牌忠实度.生产效率.市场信心等,这些被称为 ...
iOS 中的单例设计模式
单例设计模式:在它的核心结构中只包含一个被称为单例类的特殊类.例如文件管理中的NSUserDefault,应用程序中的UIApplication,整个应用程序就这一个单例类,负责应用程序的一些操作,单 ...
老李分享：大数据框架Hadoop和Spark的异同 2
Spark数据处理速度秒杀MapReduce Spark因为其处理数据的方式不一样,会比MapReduce快上很多.MapReduce是分步对数据进行处理的: ”从集群中读取数据,进行一次处理,将结果 ...
老李案例分享：Weblogic性能优化案例
老李案例分享:Weblogic性能优化案例 POPTEST的测试技术交流qq群:450192312 网站应用首页大小在130K左右,在之前的测试过程中,其百用户并发的平均响应能力在6.5秒,性能优化后 ...
Oracle常见错误集锦
1.ORA-12560:TNS:协议适配器错误 OracleService<SID>服务没有启动 2. ORA-12541:TNS:无监听程序 Oracle<ORACLE_HOME& ...
4.Linux的文件搜索命令
1.文件搜索命令 which 语法:which [命令名称] 范例:$which ls 列出ls命令所在目录 [chanshuyi@localhost ~]$ which ls alias ls= ...
Wireless Intranet Captive Portal
Wireless Intranet Captive Portal 配置AAA服务Radius认证 radius-server key 0 radius radius-server authentica ...
WPF 杂谈——开篇简言。
这俩年多来笔者一直在从事关于WPF的开发.虽然不能说是专家级别的.但是对于WPF的应用还是有一定的了解.论他的灵活性决对不在WinForm之下.WPF的出现更是引发一段热议.他的何去何从更是让很多人感 ...
用swap函数交换两个整数
#include<stdio.h> //头文件 main() //主函数 { void swap(int *p,int *q); //声明 int a,b; //定义两个整数 int *p ...
MySQL元数据库——information_schema
平时使用MySQL客户端操作数据库的同学,只要稍微留神都会发现,除了我们建的库之外,还经常看到三个数据库的影子: 1. information_schema 2. performance_schema ...

HiveHbase集成实践

HiveHbase集成实践的更多相关文章

随机推荐

热门专题