HBase本身提供了很多种数据导入的方式，通常有两种常用方式：

使用HBase提供的TableOutputFormat，原理是通过一个Mapreduce作业将数据导入HBase
另一种方式就是使用HBase原生Client API

本文就是示范如何通过MapReduce作业从一个文件读取数据并写入到HBase中。

首先启动Hadoop与HBase，然后创建一个空表，用于后面导入数据：

hbase(main):006:0> create 'mytable','cf'

0 row(s) in 10.8310 seconds

=> Hbase::Table - mytable

hbase(main):007:0> list

TABLE

mytable

1 row(s) in 0.1220 seconds

=> ["mytable"]

hbase(main):008:0> scan 'mytable'

ROW                         COLUMN+CELL

0 row(s) in 0.2130 seconds

一、示例程序

下面的示例程序通过TableOutputFormat将HDFS上具有一定格式的文本数据导入到HBase中。

首先创建MapReduce作业，目录结构如下：

Hdfs2HBase/

├── classes

└── src

    ├── Hdfs2HBase.java

    ├── Hdfs2HBaseMapper.java

    └── Hdfs2HBaseReducer.java

Hdfs2HBaseMapper.java

package com.lisong.hdfs2hbase;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

public class Hdfs2HBaseMapper extends Mapper<LongWritable, Text, Text, Text> {

        public void map(LongWritable key, Text line, Context context) throws IOException,InterruptedException {

                String lineStr = line.toString();

                int index = lineStr.indexOf(":");

                String rowkey = lineStr.substring(0, index);

                String left = lineStr.substring(index+1);

                context.write(new Text(rowkey), new Text(left));

        }

}

Hdfs2HBaseReducer.java

package com.lisong.hdfs2hbase;

import java.io.IOException;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.hbase.io.ImmutableBytesWritable;

import org.apache.hadoop.hbase.client.Put;

import org.apache.hadoop.hbase.util.Bytes;

public class Hdfs2HBaseReducer extends Reducer<Text, Text, ImmutableBytesWritable, Put> {

        public void reduce(Text rowkey, Iterable<Text> value, Context context) throws IOException,InterruptedException {

                String k = rowkey.toString();

                for(Text val : value) {

                        Put put = new Put(k.getBytes());

                        String[] strs = val.toString().split(":");

                        String family = strs[0];

                        String qualifier = strs[1];

                        String v = strs[2];

                        put.add(family.getBytes(), qualifier.getBytes(), v.getBytes());

                        context.write(new ImmutableBytesWritable(k.getBytes()), put);

                }

        }

}

Hdfs2HBase.java

package com.lisong.hdfs2hbase;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.hbase.io.ImmutableBytesWritable;

import org.apache.hadoop.hbase.client.Put;

import org.apache.hadoop.hbase.mapreduce.TableOutputFormat;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.util.GenericOptionsParser;

public class Hdfs2HBase {

    public static void main(String[] args) throws Exception {

        Configuration conf = new Configuration();

        String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();

        if(otherArgs.length != 2) {

            System.err.println("Usage: wordcount <infile> <table>");

            System.exit(2);

        }

        Job job = new Job(conf, "hdfs2hbase");

        job.setJarByClass(Hdfs2HBase.class);

        job.setMapperClass(Hdfs2HBaseMapper.class);

        job.setReducerClass(Hdfs2HBaseReducer.class);

        job.setOutputKeyClass(ImmutableBytesWritable.class);

        job.setOutputValueClass(Put.class);

        job.setOutputFormatClass(TableOutputFormat.class);

        FileInputFormat.addInputPath(job, new Path(otherArgs[0]));

        job.getConfiguration().set(TableOutputFormat.OUTPUT_TABLE, otherArgs[1]);

        System.exit(job.waitForCompletion(true)?0:1);

    }

}

配置javac编译依赖环境：

$HADOOP_HOME/share/hadoop/common/hadoop-common-2.4.1.jar

$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.4.1.jar

$HADOOP_HOME/share/hadoop/common/lib/commons-cli-1.2.jar

这里要操作HBase，故除了上面三个jar包，还需要$HBASE_HOME/lib目录下的jar包。为了方便，我们在/etc/profile的CLASSPATH里包含所有的依赖包：

TEMP=`ls /home/hadoop/hbase/lib/*.jar`

HBASE_JARS=`echo $TEMP | sed 's/ /:/g'`

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:/home/hadoop/hadoop/share/hadoop/common/hadoop-common-2.6.0.jar:/home/hadoop/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.6.0.jar:/home/hadoop/hadoop/share/hadoop/common/lib/commons-cli-1.2.jar:$HBASE_JARS

编译

$ javac -d classes/ src/*.java

打包

$ jar -cvf hdfs2hbase.jar classes

运行

创建一个data.txt文件，内容如下（列族是建表时创建的列族cf）：

r1:cf:c1:value1

r2:cf:c2:value2

r3:cf:c3:value3

将文件复制到hdfs上：

$ hadoop/bin/hadoop fs -put data.txt /hbase

运行MapReduce作业：

$ hadoop/bin/hadoop jar Hdfs2HBase/hdfs2hbase.jar com.lisong.hdfs2hbase.Hdfs2HBase /hbase/data.txt mytable

报错NoClassDefFoundError找不到类定义：

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/io/ImmutableBytesWritable

    at com.lisong.hdfs2hbase.Hdfs2HBase.main(Hdfs2HBase.java:30)

    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)

    ...

    at org.apache.hadoop.util.RunJar.run(RunJar.java:221)

    at org.apache.hadoop.util.RunJar.main(RunJar.java:136)

Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.hbase.io.ImmutableBytesWritable

    at java.net.URLClassLoader.findClass(URLClassLoader.java:381)

    at java.lang.ClassLoader.loadClass(ClassLoader.java:424)

    at java.lang.ClassLoader.loadClass(ClassLoader.java:357)

    ... 7 more

原因是我没有把HBase的jar包加到hadoop-env.sh中。

TEMP=`ls /home/hadoop/hbase/lib/*.jar`

HBASE_JARS=`echo $TEMP | sed 's/ /:/g'`

HADOOP_CLASSPATH=$HBASE_JARS

再次运行发现又报了Unable to initialize MapOutputCollector的错误：

15/08/10 08:55:44 WARN mapred.MapTask: Unable to initialize MapOutputCollector org.apache.hadoop.mapred.MapTask$MapOutputBuffer

java.lang.NullPointerException

    at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.init(MapTask.java:1008)

    at org.apache.hadoop.mapred.MapTask.createSortingCollector(MapTask.java:401)

    ...

    at java.lang.Thread.run(Thread.java:745)

15/08/10 08:55:44 INFO mapred.LocalJobRunner: map task executor complete.

15/08/10 08:55:44 WARN mapred.LocalJobRunner: job_local2138114942_0001

java.lang.Exception: java.io.IOException: Unable to initialize any output collector

    at org.apache.hadoop.mapred.LocalJobRunner$Job.runTasks(LocalJobRunner.java:462)

    at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:522)

Caused by: java.io.IOException: Unable to initialize any output collector

    at org.apache.hadoop.mapred.MapTask.createSortingCollector(MapTask.java:412)

    ...

    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)

    at java.lang.Thread.run(Thread.java:745)

15/08/10 08:55:44 INFO mapreduce.Job: Job job_local2138114942_0001 failed with state FAILED due to: NA

15/08/10 08:55:45 INFO mapreduce.Job: Counters: 0

原因是我没有指明Map输出的Key/Value类型，在Hdfs2HBase.java中添加以下两句：

job.setMapOutputKeyClass(Text.class);

job.setMapOutputValueClass(Text.class);

如果没有专门定义Mapper输出类型的话，job.setOutputKeyClass和job.setOutputValueClass设置的是Mapper和Reducer两个的输出类型。

job.setOutputKeyClass(ImmutableBytesWritable.class);

job.setOutputValueClass(Put.class);

而Hdfs2HBaseMapper输出类型是Text/Text，所以这里需要单独指定。

修改Hdfs2HBase.java

package com.lisong.hdfs2hbase;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.hbase.io.ImmutableBytesWritable;

import org.apache.hadoop.hbase.client.Put;

import org.apache.hadoop.hbase.mapreduce.TableOutputFormat;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.util.GenericOptionsParser;

public class Hdfs2HBase {

    public static void main(String[] args) throws Exception {

        Configuration conf = new Configuration();

        String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();

        if(otherArgs.length != 2) {

            System.err.println("Usage: wordcount <infile> <table>");

            System.exit(2);

        }

        Job job = new Job(conf, "hdfs2hbase");

        job.setJarByClass(Hdfs2HBase.class);

        job.setMapperClass(Hdfs2HBaseMapper.class);

        job.setReducerClass(Hdfs2HBaseReducer.class);

        job.setMapOutputKeyClass(Text.class);    // +

        job.setMapOutputValueClass(Text.class);  // +

        job.setOutputKeyClass(ImmutableBytesWritable.class);

        job.setOutputValueClass(Put.class);

        job.setOutputFormatClass(TableOutputFormat.class);

        FileInputFormat.addInputPath(job, new Path(otherArgs[0]));

        job.getConfiguration().set(TableOutputFormat.OUTPUT_TABLE, otherArgs[1]);

        System.exit(job.waitForCompletion(true)?0:1);

    }

}

再次编译、打包，然后运行成功！

查询HBase表，验证数据是否已导入：

hbase(main):001:0> scan 'mytable'

ROW                         COLUMN+CELL

 r1                         column=cf:c1, timestamp=1439223857492, value=value1

 r2                         column=cf:c2, timestamp=1439223857492, value=value2

 r3                         column=cf:c3, timestamp=1439223857492, value=value3

3 row(s) in 1.3820 seconds

可以看到，数据导入成功！

由于需要频繁的与存储数据的RegionServer通信，占用资源较大，一次性入库大量数据时，TableOutputFormat效率并不好。

二、拓展-TableReducer

我们可以将Hdfs2HBaseReducer.java代码改成下面这样，作用是一样的：

package com.lisong.hdfs2hbase;

import java.io.IOException;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.io.Writable;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.hbase.mapreduce.TableReducer;

import org.apache.hadoop.hbase.io.ImmutableBytesWritable;

import org.apache.hadoop.hbase.client.Put;

import org.apache.hadoop.hbase.util.Bytes;

public class Hdfs2HBaseReducer extends TableReducer<Text, Text, ImmutableBytesWritable> {

    public void reduce(Text rowkey, Iterable<Text> value, Context context) throws IOException,InterruptedException {

        String k = rowkey.toString();

        for(Text val : value) {

            Put put = new Put(k.getBytes());

            String[] strs = val.toString().split(":");

            String family = strs[0];

            String qualifier = strs[1];

            String v = strs[2];

            put.add(family.getBytes(), qualifier.getBytes(), v.getBytes());

            context.write(new ImmutableBytesWritable(k.getBytes()), put);

        }

    }

}

这里直接继承了TableReducer，TableReducer是部分特例化的Reducer，它只有三个类型参数：输入Key/Value是对应Mapper的输出，输出Key可以是任意的类型，但是输出Value必须是一个Put或Delete实例。

编译打包运行，结果与前面的一样！

个人站点：http://songlee24.github.com

MapReduce将HDFS文本数据导入HBase中的更多相关文章

使用sqoop将MySQL数据库中的数据导入Hbase
使用sqoop将MySQL数据库中的数据导入Hbase 前提:安装好 sqoop.hbase. 下载jbdc驱动:mysql-connector-java-5.1.10.jar 将 mysql-con ...
shell编程系列24--shell操作数据库实战之利用shell脚本将文本数据导入到mysql中
shell编程系列24--shell操作数据库实战之利用shell脚本将文本数据导入到mysql中利用shell脚本将文本数据导入到mysql中需求1:处理文本中的数据,将文本中的数据插入到mys ...
Sqoop将mysql数据导入hbase的血与泪
Sqoop将mysql数据导入hbase的血与泪(整整搞了大半天) 版权声明:本文为yunshuxueyuan原创文章.如需转载请标明出处: https://my.oschina.net/yunsh ...
sqoop将mysql数据导入hbase、hive的常见异常处理
原创不易,如需转载,请注明出处https://www.cnblogs.com/baixianlong/p/10700700.html,否则将追究法律责任!!! 一.需求: 1.将以下这张表(test_ ...
java实现服务端守护进程来监听客户端通过上传json文件写数据到hbase中
1.项目介绍: 由于大数据部门涉及到其他部门将数据传到数据中心,大部分公司采用的方式是用json文件的方式传输,因此就需要编写服务端和客户端的小程序了.而我主要实现服务端的代码,也有相应的客户端的测试 ...
简单通过java的socket&serversocket以及多线程技术实现多客户端的数据的传输，并将数据写入hbase中
业务需求说明,由于公司数据中心处于刚开始部署的阶段,这需要涉及其它部分将数据全部汇总到数据中心,这实现的方式是同上传json文件,通过采用socket&serversocket实现传输. 其中 ...
hive和hbase本质区别——hbase本质是OLTP的nosql DB，而hive是OLAP 底层是hdfs，需从已有数据库同步数据到hdfs;hive可以用hbase中的数据，通过hive表映射到hbase表
对于hbase当前noSql数据库的一种,最常见的应用场景就是采集的网页数据的存储,由于是key-value型数据库,可以再扩展到各种key-value应用场景,如日志信息的存储,对于内容信息不需要完 ...
Oracle数据导入Hbase操作步骤
——本文非本人原创,为公司同事整理,发布至此以便查阅一.入库前数据准备 1.入hbase详细要求及rowkey生成规则,参考文档“_入HBase库要求 20190104.docx”. 2.根据标准库 ...
spark批量写写数据到Hbase中（bulkload方式）
1:为什么大批量数据集写入Hbase中,需要使用bulkload BulkLoad不会写WAL,也不会产生flush以及split. 如果我们大量调用PUT接口插入数据,可能会导致大量的GC操作.除了 ...

随机推荐

Java-转换Unicode和utf-8
package com.tj; import java.io.UnsupportedEncodingException; public class MyClass implements Cloneab ...
enq: TX - row lock contention“等待事件的处理
enq: TX - row lock contention“等待事件的处理 session1: SQL> conn scott/triger Connected. SQL> CRE ...
system sys，sysoper sysdba 的区别
--===================================== -- system sys,sysoper sysdba 的区别 --========================= ...
javascript前端下载
<html> <head> <title>测试标题</title> </head> <body> <div> 测试页 ...
xmpp 登录注册小结
将XMPPStream放在APPDelegate,以便全局访问 #pragma mark - XMPP相关的属性和方法定义 /** * 全局xmppstream,只读属性 */ @property ( ...
【AIM Tech Round 5 (Div. 1 + Div. 2) 】
A:https://www.cnblogs.com/myx12345/p/9844152.html B:https://www.cnblogs.com/myx12345/p/9844205.html ...
SQL 随机取出一条数据
今天遇到一需求,需要随机取出一条数据.网上找了下,sqlserver自带的有newID()这个函数,可以随机出来一个guid,用来取随机数还是蛮不错的. 直接上SQL: select top 1 *, ...
python--爬取http://www.kuaidaili.com/并保存为xls
代码如下: 复制在python3上先试试吧^_^ # -*- coding: utf-8 -*- """ Created on Mon Jun 12 13:27:59 2 ...
Python入门--13--递归
什么是递归: 有调用函数自身的行为有一个正确的返回条件设置递归的深度: import sys sys.setrecursionlimit(10000) #可以递归一万次用普通的方法也就是非递归版 ...
html的常见meta标签信息
设置页面不缓存<meta http-equiv="pragma" content="no-cache"><meta http-equiv=&q ...

MapReduce将HDFS文本数据导入HBase中

一、示例程序

二、拓展-TableReducer

MapReduce将HDFS文本数据导入HBase中的更多相关文章

随机推荐

热门专题