使用bulkload向hbase中批量写入数据

1、数据样式

写入之前，需要整理以下数据的格式，之后将数据保存到hdfs中，本例使用的样式如下（用tab分开）：

row1	N

row2	M

row3	B

row4	V

row5	N

row6	M

row7	B

2、代码

假设要将以上样式的数据写入到hbase中，列族为cf，列名为colb，可以使用下面的代码（参考）

 package com.testdata;

 import java.io.IOException;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.hbase.HBaseConfiguration;

 import org.apache.hadoop.hbase.client.HTable;

 import org.apache.hadoop.hbase.client.Put;

 import org.apache.hadoop.hbase.io.ImmutableBytesWritable;

 import org.apache.hadoop.hbase.mapreduce.HFileOutputFormat2;

 import org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles;

 import org.apache.hadoop.hbase.mapreduce.PutSortReducer;

 import org.apache.hadoop.hbase.util.Bytes;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Job;

 import org.apache.hadoop.mapreduce.Mapper;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 public class TestBulkLoad {

     public static class LoadMapper extends Mapper<Object,Text,ImmutableBytesWritable,Put>{

         @Override

         protected void map(Object key, Text value, Context context)

                 throws IOException, InterruptedException {

             String[] values = value.toString().split("\t");

             if(values.length ==2 ){

                 byte[] rowkey = Bytes.toBytes(values[0]);

                 byte[] col_value = Bytes.toBytes(values[1]);

                 byte[] familly = Bytes.toBytes("cf");

                 byte[] column = Bytes.toBytes("colb");

                 ImmutableBytesWritable rowkeyWritable = new ImmutableBytesWritable(rowkey);

                 Put testput = new Put(rowkey);

                 testput.add(familly,column,col_value);

                 context.write(rowkeyWritable, testput);

             }        

         }

     }

     public static void main(String[] args) throws Exception {

         if(args.length !=4 ){

             System.exit(0);

         }

         String in = args[0];

         String out = args[1];

         int unitmb =Integer.valueOf(args[2]);

         String tbname = args[3];

         Configuration conf = new Configuration();

         conf.set("mapreduce.input.fileinputformat.split.maxsize", String.valueOf(unitmb * 1024 * 1024));

         conf.set("mapred.min.split.size", String.valueOf(unitmb * 1024 * 1024));

         conf.set("mapreduce.input.fileinputformat.split.minsize.per.node", String.valueOf(unitmb * 1024 * 1024));

         conf.set("mapreduce.input.fileinputformat.split.minsize.per.rack", String.valueOf(unitmb * 1024 * 1024));

         Job job = new Job(conf);

         FileInputFormat.addInputPath(job, new Path(in));

         FileOutputFormat.setOutputPath(job, new Path(out));

         job.setMapperClass(LoadMapper.class);

         job.setReducerClass(PutSortReducer.class);

         job.setOutputFormatClass(HFileOutputFormat2.class);

         job.setMapOutputKeyClass(ImmutableBytesWritable.class);

         job.setMapOutputValueClass(Put.class);

         job.setJarByClass(TestBulkLoad.class);

         Configuration hbaseconf = HBaseConfiguration.create();

         HTable table = new HTable(hbaseconf,tbname);

         HFileOutputFormat2.configureIncrementalLoad(job, table);     

         job.waitForCompletion(true);

         LoadIncrementalHFiles loader = new LoadIncrementalHFiles(hbaseconf);

         loader.doBulkLoad(new Path(out), table);

     }

 }

这段代码使用mapreduce程序对数据做了进一步处理，之后调用相关的api将数据写入hbase中。PutSortReducer是一个自带的reducer类，不需要再进行编写。

3、执行

数据保存在TEXT文件中，上面代码导出的jar包为bulkload，hbase的数据表名称为testdata，注意，先指定以下HADOOP_CLASSPATH，避免出错。

1 export HADOOP_CLASSPATH=$HBASE_HOME/lib/*:$HADOOP_CLASSPATH

2 hadoop jar ./Downloads/bulkload.jar com.testdata.TestBulkLoad Test hbasedata 64 testdata

4、结果

，

使用bulkload向hbase中批量写入数据的更多相关文章

HBase BulkLoad批量写入数据实战
1.概述在进行数据传输中,批量加载数据到HBase集群有多种方式,比如通过HBase API进行批量写入数据.使用Sqoop工具批量导数到HBase集群.使用MapReduce批量导入等.这些方式, ...
使用XML向SQL Server 2005批量写入数据——一次有关XML时间格式的折腾经历
原文:使用XML向SQL Server 2005批量写入数据——一次有关XML时间格式的折腾经历常常遇到需要向SQL Server插入批量数据,然后在存储过程中对这些数据进行进一步处理的情况.存储过 ...
MSSQL批量写入数据方案
近来有一个项目Feature需要有批量写入数据的场景,正巧整理资料发现自己以前也类似实现的项目,在重构的同时把相关资料做了一个简单的梳理,方便大家参考. 循环写入(简单粗暴,毕业设计就这样干的)(不推 ...
使用XML向SQL Server 2005批量写入数据——一次有关XML时间格式的折腾经历
使用XML向SQL Server 2005批量写入数据——一次有关XML时间格式的折腾经历原文:使用XML向SQL Server 2005批量写入数据——一次有关XML时间格式的折腾经历常常遇 ...
聊一聊 HBase 是如何写入数据的？
hi,大家好,我是大D.今天继续了解下 HBase 是如何写入数据的,然后再讲解一下一个比较经典的面试题. Region Server 寻址 HBase Client 访问 ZooKeeper: 获取 ...
SQL Server中批量替换数据
SQL Server数据库中批量替换数据的方法 SQL Server数据库操作中,我们可能会根据某写需要去批量替换数据,那么如何批量修改替换数据呢?本文我们就介绍这一部分内容,接下来就让我们一起来了解 ...
C# 批量插入表SQLSERVER SqlBulkCopy往数据库中批量插入数据
#region 帮助实例:SQL 批量插入数据多种方法 /// <summary> /// SqlBulkCopy往数据库中批量插入数据 /// </summary> /// ...
向mysql中批量插入数据的性能分析
MYSQL批量插入数据库实现语句性能分析假定我们的表结构如下代码如下 CREATE TABLE example (example_id INT NOT NULL,name VARCHAR( 5 ...
.Net中批量添加数据的几种实现方法比较
在.Net中经常会遇到批量添加数据,如将Excel中的数据导入数据库,直接在DataGridView控件中添加数据再保存到数据库等等. 方法一:一条一条循环添加通常我们的第一反应是采用for或for ...

随机推荐

不要听吹牛逼什么前端MVVM框架就是好，其实都是一帮没学好分层设计的搞出来的，让你彻底看清前端MVVM的本质
最近前端圈子里面,发现大家都在热炒概念,什么knockout,angularJs,都被捧成神了,鄙人不才,最近心情也不好,特地写这篇文章来找骂写代码的码农都知道,Java社区虽然不是一个提出分层思想 ...
Eclipse安装SVN教程
第1种安装方法下载SVN安装包.地址:subclipse.tigris.org/servlets/ProjectDocumentList?folderID=2240. 根据Eclipse版本进行下载 ...
web全栈开发之网站开发一（Mac环境配置）
个人第一次写博客,想给大家分享的是PHP+HTML5+MySQL开发一个个人网站所需的部分技术,希望能帮到志同道合和开发者,别人小白高手勿喷就行先说一下我在制作这个网站之前的配置: 我用的是MacB ...
mac 无法识别seagate硬盘、无法向其写入文件
1,无法识别 Seagate 硬盘新买的mac air Captian 10.11.6系统,连上硬盘根本不出现盘符,usb插头不要插得太深,慢慢的插入,看到硬盘白灯亮起就可以了 2,无法向 Seag ...
Android Studio vs. Eclipse ADT Comparison
Android Studio 是一个新的基于 IntelliJ IDEA Android 的安卓开发环境,它对 Eclipse ADT 进行了改进并新增了功能. Feature Android Stu ...
ASP.NET MVC5+EF6+EasyUI 后台管理系统（7）-MVC与EasyUI DataGrid
系列目录本节知识点为了符合后面更新后的重构系统,文章于2016-11-1日重写 EasyUI读取MVC后台Json数据开始实现我们的系统似乎越来越有趣了首先从前端入手,开打View下面的Sh ...
计算机程序的思维逻辑 (46) - 剖析PriorityQueue
上节介绍了堆的基本概念和算法,本节我们来探讨堆在Java中的具体实现类 - PriorityQueue. 我们先从基本概念谈起,然后介绍其用法,接着分析实现代码,最后总结分析其特点. 基本概念顾名思 ...
C#索引器
索引器允许类或者结构的实例按照与数组相同的方式进行索引取值,索引器与属性类似,不同的是索引器的访问是带参的. 索引器和数组比较: (1)索引器的索引值(Index)类型不受限制 (2)索引器允许重载 ...
【读fastclick源码有感】彻底解决tap“点透”，提升移动端点击响应速度
申明!!!最后发现判断有误,各位读读就好,正在研究中.....尼玛水太深了前言近期使用tap事件为老夫带来了这样那样的问题,其中一个问题是解决了点透还需要将原来一个个click变为tap,这样的话 ...
【中文分词】隐马尔可夫模型HMM
Nianwen Xue在<Chinese Word Segmentation as Character Tagging>中将中文分词视作为序列标注问题(sequence labeling ...

使用bulkload向hbase中批量写入数据

使用bulkload向hbase中批量写入数据的更多相关文章

随机推荐

热门专题