Hive数据导入Hbase

方案一：Hive关联HBase表方式

适用场景：数据量不大4T以下（走hbase的api导入数据）

一、hbase表不存在的情况

创建hive表hive_hbase_table映射hbase表hbase_table，会自动创建hbase表hbase_table，且会随着hive表删除而删除，这里需要指定hive的schema到hbase schema的映射关系：

1、建表

CREATE TABLE hive_hbase_table(key int, name String,age String)

STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'

WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf1:name,cf1:age")

TBLPROPERTIES ("hbase.table.name" = "hbase_table",

"hbase.mapred.output.outputtable" = "hbase_table");

2、创建一张原始的hive表，准备一些数据

create table hive_data (key int,name String,age string);

insert into hive_data values(1,"za","13");

insert into hive_data values(2,"ff","44");

3、把hive原表hive_data的数据，通过hive表hive_hbase_table导入到hbase的表hbase_table中

insert into table hive_hbase_table select * from hive_data;

4、查看hbase表hbase_table中是否有数据

二、hbase表存在的情况

创建hive的外表关联hbase表,注意hive schema到hbase schema的映射关系。删除外表不会删除对应hbase表

CREATE EXTERNAL TABLE hive_hbase_external_table(key String, name string,sex String,age String,department String)

STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'

WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,info:name,info:sex,info:age,info:department")

TBLPROPERTIES ("hbase.table.name" = "filtertest",

"hbase.mapred.output.outputtable" = "filtertest");

其他步骤与上面相同

方案二：HIve表生成hfile，通过bulkload导入到hbase

1、适用场景：数据量大（4T以上）

2、把hive数据转换为hfile

3、启动hive并添加相关的hbase的jar包

add jar /mnt/hive/lib/hive-hbase-handler-2.1.1.jar;
add jar /mnt/hive/lib/hbase-common-1.1.1.jar;
add jar /mnt/hive/lib/hbase-client-1.1.1.jar;
add jar /mnt/hive/lib/hbase-protocol-1.1.1.jar;
add jar /mnt/hive/lib/hbase-server-1.1.1.jar;

4、创建一个outputformat为HiveHFileOutputFormat的hive表

其中/tmp/hbase_table_hfile/cf_0是hfile保存到hdfs的路径，cf_0是hbase family的名字

create table hbase_hfile_table(key int, name string,age String)

stored as

INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat'

OUTPUTFORMAT 'org.apache.hadoop.hive.hbase.HiveHFileOutputFormat'

TBLPROPERTIES ('hfile.family.path' = '/tmp/hbase_table_hfile/cf_0');

5、原始数据表的数据通过hbase_hfile_table表保存为hfile

insert into table hbase_hfile_table select * from hive_data;

6、查看对应hdfs路径是否生成了hfile

7、通过bulkload将数据导入到hbase表中

建表：使用hbase客户端创建具有上面对应family的hbase表

create 'hbase_hfile_load_table','cf_0'

下载hbase客户端,配置hbase-site.xml，并将hdfs-site.xml、core-site.xml拷贝到hbase/conf目录

导入：

 hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles \
 hdfs://master:9000/tmp/hbase_table_hfile/  hbase_hfile_load_table

8、查看

Hive数据导入Hbase的更多相关文章

Hive数据导入HBase引起数据膨胀引发的思考
最近朋友公司在做一些数据的迁移,主要是将一些Hive处理之后的热数据导入到HBase中,但是遇到了一个很奇怪的问题:同样的数据到了HBase中,所占空间竟增长了好几倍!详谈中,笔者建议朋友至少从几点原 ...
sqoop将mysql数据导入hbase、hive的常见异常处理
原创不易,如需转载,请注明出处https://www.cnblogs.com/baixianlong/p/10700700.html,否则将追究法律责任!!! 一.需求: 1.将以下这张表(test_ ...
Sqoop将mysql数据导入hbase的血与泪
Sqoop将mysql数据导入hbase的血与泪(整整搞了大半天) 版权声明:本文为yunshuxueyuan原创文章.如需转载请标明出处: https://my.oschina.net/yunsh ...
使用sqoop将MySQL数据库中的数据导入Hbase
使用sqoop将MySQL数据库中的数据导入Hbase 前提:安装好 sqoop.hbase. 下载jbdc驱动:mysql-connector-java-5.1.10.jar 将 mysql-con ...
利用sqoop将hive数据导入导出数据到mysql
一.导入导出数据库常用命令语句 1)列出mysql数据库中的所有数据库命令 # sqoop list-databases --connect jdbc:mysql://localhost:3306 ...
Hive数据导入导出的几种方式
一,Hive数据导入的几种方式首先列出讲述下面几种导入方式的数据和hive表. 导入: 本地文件导入到Hive表: Hive表导入到Hive表; HDFS文件导入到Hive表; 创建表的过程中从其他 ...
MapReduce将HDFS文本数据导入HBase中
HBase本身提供了很多种数据导入的方式,通常有两种常用方式: 使用HBase提供的TableOutputFormat,原理是通过一个Mapreduce作业将数据导入HBase 另一种方式就是使用HB ...
KUDU数据导入尝试一：TextFile数据导入Hive,Hive数据导入KUDU
背景 SQLSERVER数据库中单表数据几十亿,分区方案也已经无法查询出结果.故:采用导出功能,导出数据到Text文本(文本>40G)中. 因上原因,所以本次的实验样本为:[数据量:61w条,文 ...
sqoop用法之mysql与hive数据导入导出
目录一. Sqoop介绍二. Mysql 数据导入到 Hive 三. Hive数据导入到Mysql 四. mysql数据增量导入hive 1. 基于递增列Append导入 1). 创建hive表 ...

随机推荐

PyQt(Python+Qt)学习随笔：QAbstractItemView的autoScroll和autoScrollMargin属性
老猿Python博文目录老猿Python博客地址 QAbstractItemView的autoScroll属性用于确认鼠标在视口边缘时是否自动滚动内容,默认值为True,autoScrollMarg ...
5、Spring Cloud Ribbon
1.Ribbon简介 (1).Ribbon介绍 Spring Cloud Ribbon是基于Netflix Ribbon实现的一套客户端负载均衡的工具. Ribbon是Netflix发布的开源项目,主 ...
Ambari HDP集群搭建全攻略
世界上最快的捷径,就是脚踏实地,本文已收录[架构技术专栏]关注这个喜欢分享的地方. 最近因为工作上需要重新用Ambari搭了一套Hadoop集群,就把搭建的过程记录了下来,也希望给有同样需求的小伙伴们 ...
deepFM(原理和pytorch理解)
参考(推荐):https://blog.csdn.net/w55100/article/details/90295932 要点: 其中的计算优化值得注意 K代表隐向量维数 n可以代表离散值one-ho ...
Tomcat启动报错org.apache.catalina.core.StandardContext.startInternal One or more listeners failed to start. Full details will be found in the appropriate container log file
错误: 今天SVN导入新项目后启动项目时控制台报错,之后在网上搜了很多方法.下面列了一些大佬的解决方案: 1. 检查日志配置文件-logging.properties:https://www.cnbl ...
Day4 【Scrum 冲刺博客】
每日会议总结昨天已完成的工作方晓莹(PIPIYing) 完善人员管理页的未完成部分方子茵(Laa-L):无黄芯悦(Sheaxx) 开始投诉反馈页面的开发舒雯钰(LittleTaro) 博客的 ...
第 4 篇 Scrum 冲刺博客
每天举行会议会议照片: 昨天已完成的工作与今天计划完成的工作及工作中遇到的困难: 成员姓名昨天完成工作今天计划完成的工作工作中遇到的困难蔡双浩实现收藏夹功能实现重设计的个人界面功能无 ...
if-then-else、loop控制语句在SIMD指令下的后端指令生成实现--笔记
作者:Yaong 出处:https://www.cnblogs.com/yaongtime/p/14111134.html 版权:本文版权归作者和博客园共有转载:欢迎转载,但未经作者同意,必须保留此 ...
【题解】「UVA11626」Convex Hull
凸包模板题. 之前写过拿 Graham 算法求凸包的,为了不重复/多学点知识,那这次拿 Andrew 算法求凸包吧qaq *此文章所有图片均为作者手画. Andrew 算法假设我们有这些点: 首先把 ...
.NET Core +Angular 项目部署到CentOS
前言: 最近公司需要开发项目能在Linux系统上运行,示例开发项目采用.Net Core + Angular开发:理论上完全支持跨平台. 但是实践才是检验真理的唯一标准:那么还是动手来验证实现下:过程 ...

Hive数据导入Hbase

Hive数据导入Hbase的更多相关文章

随机推荐

热门专题