HBase从hdfs导入数据

需求：将HDFS上的文件中的数据导入到hbase中

实现上面的需求也有两种办法，一种是自定义mr，一种是使用hbase提供好的import工具

一、hdfs中的数据是这样的

每一行的数据是这样的id name age gender birthday

(my_python_env)[root@hadoop26 ~]# hadoop fs  -cat /t1/*

1    zhangsan    10    male    NULL

2    lisi    NULL    NULL    NULL

3    wangwu    NULL    NULL    NULL

4    zhaoliu    NULL    NULL    1993

二、自定义mr

public class HdfsToHBase {

    public static void main(String[] args) throws Exception{

        Configuration conf = HBaseConfiguration.create();

        conf.set("hbase.zookeeper.quorum", "hadoop26:2181");

        conf.set("hbase.rootdir", "hdfs://hadoop26:9000/hbase");

        conf.set(TableOutputFormat.OUTPUT_TABLE, args[1]);

        Job job = Job.getInstance(conf, HdfsToHBase.class.getSimpleName());

        TableMapReduceUtil.addDependencyJars(job);

        job.setJarByClass(HdfsToHBase.class);

        job.setMapperClass(HdfsToHBaseMapper.class);

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(Text.class);

        job.setReducerClass(HdfsToHBaseReducer.class);

        FileInputFormat.addInputPath(job, new Path(args[0]));

        job.setOutputFormatClass(TableOutputFormat.class);

        job.waitForCompletion(true);

    }

    public static class HdfsToHBaseMapper extends Mapper<LongWritable, Text, Text, Text>{

        private Text outKey = new Text();

        private Text outValue = new Text();

        @Override

        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

            String[] splits = value.toString().split("\t");

            outKey.set(splits[0]);

            outValue.set(splits[1]+"\t"+splits[2]+"\t"+splits[3]+"\t"+splits[4]);

            context.write(outKey, outValue);

        }

    }

    public static class HdfsToHBaseReducer extends TableReducer<Text, Text, NullWritable>{

        @Override

        protected void reduce(Text k2, Iterable<Text> v2s, Context context) throws IOException, InterruptedException {

            Put put = new Put(k2.getBytes());

            for (Text v2 : v2s) {

                String[] splis = v2.toString().split("\t");

                if(splis[0]!=null && !"NULL".equals(splis[0])){

                    put.add("f1".getBytes(), "name".getBytes(),splis[0].getBytes());

                }

                if(splis[1]!=null && !"NULL".equals(splis[1])){

                    put.add("f1".getBytes(), "age".getBytes(),splis[1].getBytes());

                }

                if(splis[2]!=null && !"NULL".equals(splis[2])){

                    put.add("f1".getBytes(), "gender".getBytes(),splis[2].getBytes());

                }

                if(splis[3]!=null && !"NULL".equals(splis[3])){

                    put.add("f1".getBytes(), "birthday".getBytes(),splis[3].getBytes());

                }

            }

            context.write(NullWritable.get(),put);

        }

    }

}

2.1打包运行

首先在hbase中创建一个表

hbase(main)::> create 'table1','f1'

 row(s) in 0.4240 seconds

=> Hbase::Table - table1

然后运行

hadoop jar HdfsToHBase.jar com.lanyun.hadoop2.HdfsToHBase /t1/part* table1

最后查看table1中的数据

hbase(main)::* scan 'table1'

ROW                                              COLUMN+CELL

                                                column=f1:age, timestamp=, value=

                                                column=f1:gender, timestamp=, value=male

                                                column=f1:name, timestamp=, value=zhangsan

                                                column=f1:name, timestamp=, value=lisi

                                                column=f1:name, timestamp=, value=wangwu

                                                column=f1:birthday, timestamp=, value=

                                                column=f1:name, timestamp=, value=zhaoliu

 row(s) in 0.0430 seconds

三、使用habse提供的import工具

首先查看其用法

(my_python_env)[root@hadoop26 ~]# hbase org.apache.hadoop.hbase.mapreduce.Import

ERROR: Wrong number of arguments:

Usage: Import [options] <tablename> <inputdir>

By default Import will load data directly into HBase. To instead generate

HFiles of data to prepare for a bulk data load, pass the option:

  -Dimport.bulk.output=/path/for/output

在hbase中创建表table2

hbase(main)::> create 'table2','f1'

 row(s) in 0.4080 seconds

=> Hbase::Table - table2

在命令中中使用命令进行导入

hbase org.apache.hadoop.hbase.mapreduce.Import table2 /t2

查看table2中的数据

hbase(main)::> scan 'table2'

ROW                                              COLUMN+CELL

                                                column=f1:age, timestamp=, value=

                                                column=f1:gender, timestamp=, value=male

                                                column=f1:name, timestamp=, value=zhangsan

                                                column=f1:name, timestamp=, value=lisi

                                                column=f1:name, timestamp=, value=wangwu

                                                column=f1:birthday, timestamp=, value=

                                                column=f1:name, timestamp=, value=zhaoliu

 row(s) in 0.0440 seconds

四、注意

import工具很方便，但是只能导入Export导出的数据。

HBase从hdfs导入数据的更多相关文章

大数据学习笔记——HBase使用bulkload导入数据
HBase使用bulkload批量导入数据 HBase可使用put命令向一张已经建好了的表中插入数据,然而,当遇到数据量非常大的情况,一条一条的进行插入效率将会大大降低,因此本篇博客将会整理提高批量导 ...
MapReduce的方式进行HBase向HDFS导入和导出
附录代码: HBase---->HDFS import java.io.IOException; import org.apache.hadoop.conf.Configuration; imp ...
HBase高速导入数据--BulkLoad
Apache HBase是一个分布式的.面向列的开源数据库.它能够让我们随机的.实时的訪问大数据.可是如何有效的将数据导入到HBase呢?HBase有多种导入数据的方法.最直接的方法就是在MapRed ...
使用sqoop工具从oracle导入数据
sqoop工具是hadoop下连接关系型数据库和Hadoop的桥梁,支持关系型数据库和hive.hdfs,hbase之间数据的相互导入,可以使用全表导入和增量导入从RDBMS中抽取出的数据可以被Ma ...
sqoop工具从oracle导入数据2
sqoop工具从oracle导入数据 sqoop工具是hadoop下连接关系型数据库和Hadoop的桥梁,支持关系型数据库和hive.hdfs,hbase之间数据的相互导入,可以使用全表导入和增量导入 ...
sqoop:mysql和Hbase/Hive/Hdfs之间相互导入数据
1.安装sqoop 请参考http://www.cnblogs.com/Richardzhu/p/3322635.html 增加了SQOOP_HOME相关环境变量:source ~/.bashrc ...
MapReduce将HDFS文本数据导入HBase中
HBase本身提供了很多种数据导入的方式,通常有两种常用方式: 使用HBase提供的TableOutputFormat,原理是通过一个Mapreduce作业将数据导入HBase 另一种方式就是使用HB ...
使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟
使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟 Sqoop 大数据 Hive HBase ETL 使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟基础环境 ...
Sqoop与HDFS、Hive、Hbase等系统的数据同步操作
Sqoop与HDFS结合下面我们结合 HDFS,介绍 Sqoop 从关系型数据库的导入和导出. Sqoop import 它的功能是将数据从关系型数据库导入 HDFS 中,其流程图如下所示. 我们来 ...

随机推荐

[ActionScript&Flex] FlashBuilder编译条件之如何屏蔽调试代码
下面讲一下在FlashBuilder中如何添加编译器参数使我们在发布的时候不编译调试代码: 首先设置编译参数编译参数设置好后,代码我们可以这样写: public class ConditionalC ...
EXT dateRange
VTYPES: Ext.apply(Ext.form.VTypes, { daterange: function (val, field) { var date = field.parseDate(v ...
[SQL]SQL优化34条
我们要做到不但会写SQL,还要做到写出性能优良的SQL,以下为笔者学习.摘录.并汇总部分资料与大家分享! () 选择最有效率的表名顺序(只在基于规则的优化器中有效): ORACLE 的解析器按照从右到 ...
POJ 2135 Farm Tour [最小费用最大流]
题意: 有n个点和m条边,让你从1出发到n再从n回到1,不要求所有点都要经过,但是每条边只能走一次.边是无向边. 问最短的行走距离多少. 一开始看这题还没搞费用流,后来搞了搞再回来看,想了想建图不是很 ...
Python子类方法的调用（类方法）
class S(object): def Test(self): print("TEST") @classmethod def Test02(cls): print("c ...
使用csc命令进行编译
①如果csc不是内外部变量的情况下需要在计算机高级系统设置的环境变量里面下面的Path中将值的后面用分号隔开增加.net framework 4.0的文件路径 ②重新以“管理员身份运行cmd” ③将路 ...
在word中做复选框打对勾钩
在word中做复选框打对勾钩现在终于搞明白正确的操作方法一.你在word里输入2610,按alt+X就能出空checkbox 你在word里输入2611,按alt+X就能出打了勾的checkb ...
FileZilla - Windows XP经典软件系列
官网: https://filezilla-project.org/ 下载: http://sourceforge.net/projects/filezilla/ 版本:V3.9.0.1 (支持XP最 ...
Android WebView Long Press长按保存图片到手机
<span style="font-size:18px;">首先要先注册长按监听菜单 private String imgurl = ""; /** ...
Web自动化框架LazyUI使用手册（1）--框架简介
作者:cryanimal QQ:164166060 web端自动化简介 web端自动化,即通过自动化的方式,对Web页面施行一系列的仿鼠标键盘操作,以达到对Web页面的功能进行自动化测试的目的. 其一 ...

HBase从hdfs导入数据

HBase从hdfs导入数据的更多相关文章

随机推荐

热门专题