bulk-load 装载HDFS数据到HBase

bulk-load的作用是用mapreduce的方式将hdfs上的文件装载到hbase中，对于海量数据装载入hbase非常有用，参考http://hbase.apache.org/docs/r0.89.20100621/bulk-loads.html：

hbase提供了现成的程序将hdfs上的文件导入hbase,即bulk-load方式。它包括两个步骤（也可以一次完成）：

1 将文件包装成hfile，hadoop jar /path/to/hbase.jar importtsv -Dimporttsv.columns=a,b,c <tablename> <inputdir>

比如:

hadoop dfs -cat test/1
1 2
3 4
5 6
7 8

执行

hadoop jar ~/hbase/hbase-0.90.2.jar importtsv -Dimporttsv.columns=HBASE_ROW_KEY,f1 t8 test

将会启动mapreduce程序在hdfs上生成t8这张表，它的rowkey分别为1 3 5 7，对应的value为2 4 6 8

注意，源文件默认以"\t"为分割符，如果需要换成其它分割符，在执行时加上-Dimporttsv.separator=","，则变成了以","分割

2 在上一步中，如果设置了输出目录,如

hadoop jar ~/hbase/hbase-0.90.2.jar importtsv -Dimporttsv.bulk.output=tmp -Dimporttsv.columns=HBASE_ROW_KEY,f1 t8 test

那么t8表还暂时不会生成，只是将hfile输出到tmp文件夹下，我们可以查看tmp:

hadoop dfs -du tmp
Found 3 items
0 hdfs://namenode:9000/user/test/tmp/_SUCCESS
65254 hdfs://namenode:9000/user/test/tmp/_logs
462 hdfs://namenode:9000/user/test/tmp/f1

然后执行hadoop jar hbase-VERSION.jar completebulkload /user/todd/myoutput mytable将这个输出目录中的hfile转移到对应的region中,这一步因为只是mv，所以相当快。如：

hadoop jar ~/hbase/hbase-0.90.2.jar completebulkload tmp t8

然后

hadoop dfs -du /hbase/t8/c408963c084d328490cc2f809ade9428
Found 4 items
124 hdfs://namenode:9000/hbase/t8/c408963c084d328490cc2f809ade9428/.oldlogs
692 hdfs://namenode:9000/hbase/t8/c408963c084d328490cc2f809ade9428/.regioninfo
0 hdfs://namenode:9000/hbase/t8/c408963c084d328490cc2f809ade9428/.tmp
462 hdfs://namenode:9000/hbase/t8/c408963c084d328490cc2f809ade9428/f1

此时己经生成了表t8

注意，如果数据特别大，而表中原来就有region，那么会执行切分工作，查找数据对应的region并装载

程序使用中注意：

1 因为是执行hadoop程序，不会自动查找hbase的config路径，也就找不到hbase的环境变量。因此需要将hbase-site.xml加入到hadoop-conf变量中

2 还需要将hbase/lib中的jar包放入classpath中

3 执行以上的步骤2时需要将zookeeper的配置写入core-site.xml中，因为在那一步时甚至不会读取hbase-site.xml，否则会连不上zookeeper

bulk-load 装载HDFS数据到HBase的更多相关文章

用mapreduce读取hdfs数据到hbase上
hdfs数据到hbase过程将HDFS上的文件中的数据导入到hbase中实现上面的需求也有两种办法,一种是自定义mr,一种是使用hbase提供好的import工具 hbase先创建好表 cre ...
hdfs数据到hbase过程
需求:将HDFS上的文件中的数据导入到hbase中实现上面的需求也有两种办法,一种是自定义mr,一种是使用hbase提供好的import工具一.hdfs中的数据是这样的 hbase创建好表 cre ...
phoenix将hdfs数据导入hbase
http://phoenix.apache.org/bulk_dataload.html
大数据查询——HBase读写设计与实践
导语:本文介绍的项目主要解决 check 和 opinion2 张历史数据表(历史数据是指当业务发生过程中的完整中间流程和结果数据)的在线查询.原实现基于 Oracle 提供存储查询服务,随着数据量的 ...
大数据查询——HBase读写设计与实践--转
背景介绍本项目主要解决 check 和 opinion2 张历史数据表(历史数据是指当业务发生过程中的完整中间流程和结果数据)的在线查询.原实现基于 Oracle 提供存储查询服务,随着数据量的不断 ...
Bulk Load－HBase数据导入最佳实践
一.概述 HBase本身提供了非常多种数据导入的方式,通常有两种经常使用方式: 1.使用HBase提供的TableOutputFormat,原理是通过一个Mapreduce作业将数据导入HBase 2 ...
【hbase】——bulk load导入数据时value=\x00\x00\x00\x01问题解析
一.存入数据类型 Hbase里面,rowkey是按照字典序进行排序.存储的value值,当用filter进行数据筛选的时候,所用的比较算法也是字典序的. 1.当存储的value值是float类型的时候 ...
简述HBase的Bulk Load
为什么用Bulk load? 批量加载数据到HBase集群,有很多种方式,比如利用 HBase API 进行批量写入数据.使用Sqoop工具批量导数到HBase集群.使用MapReduce批量导入等等 ...
图解JanusGraph系列 - 关于JanusGraph图数据批量快速导入的方案和想法（bulk load data）
大家好,我是洋仔,JanusGraph图解系列文章,实时更新~ 图数据库文章总目录: 整理所有图相关文章,请移步(超链):图数据库系列-文章总目录源码分析相关可查看github(码文不易,求个sta ...

随机推荐

HDFS的读数据过程分析
我们继续在 FileSystem 类分析,读数据使用的是 open(-)方法,我们可以看到源码 FSDataInputStream in = fileSystem.open(new Path(&quo ...
Struts 2 之文件上传
如果要获得上传文件的原始名称,需要定义一个String类型的属性,属性名必须为***FileName,其中***为File属性的名称:同理,如果要获取该文件的MIME类型,需要定义一个***Conte ...
cassandra 如何写数据以及放置副本
application发送数据到server application 发送请求到server 根据设置的load balance 规则从cluster中挑选一个coordinator,一般使用轮询即可 ...
Python pygame安装过程笔记
今天看到一个教程,是关于Python安装pygame模块的.觉得很好,拿来分享一下. 安装Python 额,这个小题貌似在这里很是多余啊.但是为了照顾到刚刚学习Python的童鞋,我还是多啰嗦两句吧. ...
03SpringMVC,Spring,Hibernate整合（Date时间转换）
项目结构 2 web.xml的配置内容如下: <?xmlversion="1.0"encoding="UTF-8"?> <web-app ...
【一天一道LeetCode】#290. Word Pattern
一天一道LeetCode 本系列文章已全部上传至我的github,地址:ZeeCoder's Github 欢迎大家关注我的新浪微博,我的新浪微博欢迎转载,转载请注明出处 (一)题目 Given a ...
Android开发学习之路--Activity之生命周期
其实这篇文章应该要在介绍Activity的时候写的,不过那个时候还不怎么熟悉Activity,还是在这里详细介绍下好了.还是参考下官方文档的图吧: 从上面的流程,我们可以看出首先就是打开APP,开始执 ...
学习TensorFlow，多层卷积神经网络
一.网络结构二.代码 from tensorflow.examples.tutorials.mnist import input_data mnist = input_data.read_data_ ...
Tag功能介绍—我们为什么打Tag？
想必CSDN的新老用户在访问CSDN网站的博客.社区.下载等服务时,经常能够看到"请您添加标签"的提示.也许很多人对此抱有疑问:加标签有什么用?在这里我们为您集中解答一下疑惑. T ...
（四十五）Modal 模态窗口 -遮盖
任何控制器都能通过Modal方式切换. Modal的默认效果是:新显示的控制器从屏幕底部向上,直到盖住之前的控制器为止. 假设有One和Two两个控制器: One到Two的Modal方法:presen ...

bulk-load 装载HDFS数据到HBase

bulk-load 装载HDFS数据到HBase的更多相关文章

随机推荐

热门专题