HBase从hdfs导入数据

需求：将HDFS上的文件中的数据导入到hbase中

实现上面的需求也有两种办法，一种是自定义mr，一种是使用hbase提供好的import工具

一、hdfs中的数据是这样的

每一行的数据是这样的id name age gender birthday

(my_python_env)[root@hadoop26 ~]# hadoop fs  -cat /t1/*

1    zhangsan    10    male    NULL

2    lisi    NULL    NULL    NULL

3    wangwu    NULL    NULL    NULL

4    zhaoliu    NULL    NULL    1993

二、自定义mr

public class HdfsToHBase {

    public static void main(String[] args) throws Exception{

        Configuration conf = HBaseConfiguration.create();

        conf.set("hbase.zookeeper.quorum", "hadoop26:2181");

        conf.set("hbase.rootdir", "hdfs://hadoop26:9000/hbase");

        conf.set(TableOutputFormat.OUTPUT_TABLE, args[1]);

        Job job = Job.getInstance(conf, HdfsToHBase.class.getSimpleName());

        TableMapReduceUtil.addDependencyJars(job);

        job.setJarByClass(HdfsToHBase.class);

        job.setMapperClass(HdfsToHBaseMapper.class);

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(Text.class);

        job.setReducerClass(HdfsToHBaseReducer.class);

        FileInputFormat.addInputPath(job, new Path(args[0]));

        job.setOutputFormatClass(TableOutputFormat.class);

        job.waitForCompletion(true);

    }

    public static class HdfsToHBaseMapper extends Mapper<LongWritable, Text, Text, Text>{

        private Text outKey = new Text();

        private Text outValue = new Text();

        @Override

        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

            String[] splits = value.toString().split("\t");

            outKey.set(splits[0]);

            outValue.set(splits[1]+"\t"+splits[2]+"\t"+splits[3]+"\t"+splits[4]);

            context.write(outKey, outValue);

        }

    }

    public static class HdfsToHBaseReducer extends TableReducer<Text, Text, NullWritable>{

        @Override

        protected void reduce(Text k2, Iterable<Text> v2s, Context context) throws IOException, InterruptedException {

            Put put = new Put(k2.getBytes());

            for (Text v2 : v2s) {

                String[] splis = v2.toString().split("\t");

                if(splis[0]!=null && !"NULL".equals(splis[0])){

                    put.add("f1".getBytes(), "name".getBytes(),splis[0].getBytes());

                }

                if(splis[1]!=null && !"NULL".equals(splis[1])){

                    put.add("f1".getBytes(), "age".getBytes(),splis[1].getBytes());

                }

                if(splis[2]!=null && !"NULL".equals(splis[2])){

                    put.add("f1".getBytes(), "gender".getBytes(),splis[2].getBytes());

                }

                if(splis[3]!=null && !"NULL".equals(splis[3])){

                    put.add("f1".getBytes(), "birthday".getBytes(),splis[3].getBytes());

                }

            }

            context.write(NullWritable.get(),put);

        }

    }

}

2.1打包运行

首先在hbase中创建一个表

hbase(main)::> create 'table1','f1'

 row(s) in 0.4240 seconds

=> Hbase::Table - table1

然后运行

hadoop jar HdfsToHBase.jar com.lanyun.hadoop2.HdfsToHBase /t1/part* table1

最后查看table1中的数据

hbase(main)::* scan 'table1'

ROW                                              COLUMN+CELL

                                                column=f1:age, timestamp=, value=

                                                column=f1:gender, timestamp=, value=male

                                                column=f1:name, timestamp=, value=zhangsan

                                                column=f1:name, timestamp=, value=lisi

                                                column=f1:name, timestamp=, value=wangwu

                                                column=f1:birthday, timestamp=, value=

                                                column=f1:name, timestamp=, value=zhaoliu

 row(s) in 0.0430 seconds

三、使用habse提供的import工具

首先查看其用法

(my_python_env)[root@hadoop26 ~]# hbase org.apache.hadoop.hbase.mapreduce.Import

ERROR: Wrong number of arguments:

Usage: Import [options] <tablename> <inputdir>

By default Import will load data directly into HBase. To instead generate

HFiles of data to prepare for a bulk data load, pass the option:

  -Dimport.bulk.output=/path/for/output

在hbase中创建表table2

hbase(main)::> create 'table2','f1'

 row(s) in 0.4080 seconds

=> Hbase::Table - table2

在命令中中使用命令进行导入

hbase org.apache.hadoop.hbase.mapreduce.Import table2 /t2

查看table2中的数据

hbase(main)::> scan 'table2'

ROW                                              COLUMN+CELL

                                                column=f1:age, timestamp=, value=

                                                column=f1:gender, timestamp=, value=male

                                                column=f1:name, timestamp=, value=zhangsan

                                                column=f1:name, timestamp=, value=lisi

                                                column=f1:name, timestamp=, value=wangwu

                                                column=f1:birthday, timestamp=, value=

                                                column=f1:name, timestamp=, value=zhaoliu

 row(s) in 0.0440 seconds

四、注意

import工具很方便，但是只能导入Export导出的数据。

HBase从hdfs导入数据的更多相关文章

大数据学习笔记——HBase使用bulkload导入数据
HBase使用bulkload批量导入数据 HBase可使用put命令向一张已经建好了的表中插入数据,然而,当遇到数据量非常大的情况,一条一条的进行插入效率将会大大降低,因此本篇博客将会整理提高批量导 ...
MapReduce的方式进行HBase向HDFS导入和导出
附录代码: HBase---->HDFS import java.io.IOException; import org.apache.hadoop.conf.Configuration; imp ...
HBase高速导入数据--BulkLoad
Apache HBase是一个分布式的.面向列的开源数据库.它能够让我们随机的.实时的訪问大数据.可是如何有效的将数据导入到HBase呢?HBase有多种导入数据的方法.最直接的方法就是在MapRed ...
使用sqoop工具从oracle导入数据
sqoop工具是hadoop下连接关系型数据库和Hadoop的桥梁,支持关系型数据库和hive.hdfs,hbase之间数据的相互导入,可以使用全表导入和增量导入从RDBMS中抽取出的数据可以被Ma ...
sqoop工具从oracle导入数据2
sqoop工具从oracle导入数据 sqoop工具是hadoop下连接关系型数据库和Hadoop的桥梁,支持关系型数据库和hive.hdfs,hbase之间数据的相互导入,可以使用全表导入和增量导入 ...
sqoop:mysql和Hbase/Hive/Hdfs之间相互导入数据
1.安装sqoop 请参考http://www.cnblogs.com/Richardzhu/p/3322635.html 增加了SQOOP_HOME相关环境变量:source ~/.bashrc ...
MapReduce将HDFS文本数据导入HBase中
HBase本身提供了很多种数据导入的方式,通常有两种常用方式: 使用HBase提供的TableOutputFormat,原理是通过一个Mapreduce作业将数据导入HBase 另一种方式就是使用HB ...
使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟
使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟 Sqoop 大数据 Hive HBase ETL 使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟基础环境 ...
Sqoop与HDFS、Hive、Hbase等系统的数据同步操作
Sqoop与HDFS结合下面我们结合 HDFS,介绍 Sqoop 从关系型数据库的导入和导出. Sqoop import 它的功能是将数据从关系型数据库导入 HDFS 中,其流程图如下所示. 我们来 ...

随机推荐

linux secureCRT utf-8编码显示
secureCRT 会话选项-终端-外观-字符编码: 下拉选择UTF-8 关闭当前secureCRT,另开一个新的让设置生效,显示正常.
DELPHI下的SOCK编程(转)
DELPHI下的SOCK编程本文是写给公司新来的程序员的,算是一点培训的教材.本文不会涉及太多的编程细节,只是简单讲解在DELPHI下进行Winsock编程最好了解的知识. 题外话:我认为 ...
PostgreSQL在Ubuntu上安装指南
安装环境: Ubuntu 10.04-desktop-i386 PostgreSQL 8.4 1. 安装PostgreSQL 输入如下命令 sudo apt-get install postgresq ...
sopcinfo路径改变，nios工程该怎么办？
操作系统:Win7 64 bit 开发环境:Quartus II 14.0 (64-Bit) + Nios II EDS 14.0 使用Quartus 时,有时候出于备份的考虑,或者从网上下载别人的 ...
ownDocument和documentElement
<!DOCTYPE html> <html> <head> <meta name="viewport" content="wid ...
Win2008或IIS7的文件上传大小限制解决方案
默认情况下,IIS7的上传限制为200K.当上传文件小于30M时,可以通过如下方法设置:在iis7中找到asp设置,在“asp”的“限制属性”中最后一行“最大请求主体限制”,修改该值为你所想要的,如2 ...
[C++11] Effective Modern C++ 读书笔记
本文记录了我读Effective Modern C++时自己的一些理解和心得. item1:模板类型推导 1)reference属性不能通过传值参数传入模板函数.这就意味着如果模板函数需要一个refe ...
这些优化 Drupal 网站速度的超简单办法，你忽略了多少？
“怎么样能让我的 Drupal 网站更快一些?”是我们最常遇到的一个问题.站点速度确实非常重要,因为它会影响你的 SEO排名效果.访客是否停留以及你自己管理网站所需要的时间. 今天我们就来看看那些通过 ...
Android开发-API指南-应用程序开发基础
Application Fundamentals 英文原文:http://developer.android.com/guide/components/fundamentals.html 采集(更新) ...
docker 1.12设置非https访问registry
升级docker到1.12后,发现使用原来的/etc/sysconfig/docker文件中设置--insecure-registry的方式,访问registry失败,提示"http: se ...

HBase从hdfs导入数据

HBase从hdfs导入数据的更多相关文章

随机推荐

热门专题