HBase Bulk Loading
将数据导入到HBase有三种方式:(1) Mapreduce,输出为TableOutputFormat
.(2) 用HBase API .(3)Bulk Loading。对于大量的数据入库,第三种数据是最为有效的。
下图描述了Bulk Loading的过程:先将数据(MySQL ,Oracle ,文本文件等)加载到HDFS,通过MapReduce 将数据做成HFile (HFileOutPutForm)。然后使用HBase提供的CompleteBulkLoad(LoadIncrementalHFiles)工具加载到HBase中,这个过程很快,而且不很耗内存,不影响在线的Hbase
集群的正常操作。因为这个过程不需要结果WAL 和Memstore.
注意事项:
(1)配置一个total order partitioner。
(2)reduce 个数要和表的region 数目匹配。
(3)MR 输出的Key/Value 类型要和HFileOutPutFormat的匹配。
(4)reduce 采用KeyValueSortReducer 或者PutSortReducer。
应用场景:
(1)集群上线,原始数据集加载。
(2)数据增量。需要定期将MySql(Oracle) 的数据导入HBase。
(3)经常性的大批量入库。
对于CSV文件的加载:
hadoop jar /usr/lib/hbase/hbase-0.94.6-cdh4.3.0-
security.jar importtsv
-Dimporttsv.separator=,
-Dimporttsv.bulk.output=output
-Dimporttsv.columns=HBASE_ROW_KEY,f:count wordcount word_count.csv
该文件的数据格式为---> rowkey,列:值 。
导入到的表名为wordcount ,数据文件为word_count.csv
这样做,不会生成wordcount表。
执行
hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles output wordcount
入库完成。
hadoop jar /usr/lib/hbase/hbase-0.94.6-cdh4.3.0-
security.jar importtsv
-Dimporttsv.separator=,
-Dimporttsv.columns=HBASE_ROW_KEY,f:count wordcount word_count.csv
这样做一步到位,直接入库。
或者用
HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbase classpath` ${HADOOP_HOME}/bin/hadoop jar ${HBASE_HOME}/hbase-VERSION.jar completebulkload <hdfs://storefileoutput> <tablename>
同样 一步到位,直接入库。
下面是一个MR生成HFile的例子:
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.KeyValue;import org.apache.hadoop.hbase.client.HTable;import org.apache.hadoop.hbase.io.ImmutableBytesWritable;import org.apache.hadoop.hbase.mapreduce.HFileOutputFormat;import org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;import org.apache.hadoop.util.GenericOptionsParser;/*** HBase bulk import example<br>* Data preparation MapReduce job driver* <ol>* <li>args[0]: HDFS input path* <li>args[1]: HDFS output path* <li>args[2]: HBase table name* </ol>*/public class Driver {public static void main(String[] args) throws Exception {Configuration conf = new Configuration();args = new GenericOptionsParser(conf, args).getRemainingArgs();/** NBA Final 2010 game 1 tip-off time (seconds from epoch)* Thu, 03 Jun 2010 18:00:00 PDT*/conf.setInt("epoch.seconds.tipoff", 1275613200);conf.set("hbase.table.name", args[2]);// Load hbase-site.xmlHBaseConfiguration.addHbaseResources(conf);Job job = new Job(conf, "HBase Bulk Import Example");job.setJarByClass(HBaseKVMapper.class);job.setMapperClass(HBaseKVMapper.class);job.setMapOutputKeyClass(ImmutableBytesWritable.class);job.setMapOutputValueClass(KeyValue.class);job.setInputFormatClass(TextInputFormat.class);HTable hTable = new HTable(args[2]);// Auto configure partitioner and reducerHFileOutputFormat.configureIncrementalLoad(job, hTable);FileInputFormat.addInputPath(job, new Path(args[0]));FileOutputFormat.setOutputPath(job, new Path(args[1]));job.waitForCompletion(true);}}import java.io.IOException;import java.util.Locale;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.KeyValue;import org.apache.hadoop.hbase.io.ImmutableBytesWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import org.joda.time.DateTime;import org.joda.time.DateTimeZone;import org.joda.time.format.DateTimeFormat;import org.joda.time.format.DateTimeFormatter;import au.com.bytecode.opencsv.CSVParser;/*** HBase bulk import example* <p>* Parses Facebook and Twitter messages from CSV files and outputs* <ImmutableBytesWritable, KeyValue>.* <p>* The ImmutableBytesWritable key is used by the TotalOrderPartitioner to map it* into the correct HBase table region.* <p>* The KeyValue value holds the HBase mutation information (column family,* column, and value)*/public class HBaseKVMapper extendsMapper<LongWritable, Text, ImmutableBytesWritable, KeyValue> {final static byte[] SRV_COL_FAM = "srv".getBytes();final static int NUM_FIELDS = 16;CSVParser csvParser = new CSVParser();int tipOffSeconds = 0;String tableName = "";DateTimeFormatter p = DateTimeFormat.forPattern("MMM dd, yyyy HH:mm:ss").withLocale(Locale.US).withZone(DateTimeZone.forID("PST8PDT"));ImmutableBytesWritable hKey = new ImmutableBytesWritable();KeyValue kv;/** {@inheritDoc} */@Overrideprotected void setup(Context context) throws IOException,InterruptedException {Configuration c = context.getConfiguration();tipOffSeconds = c.getInt("epoch.seconds.tipoff", 0);tableName = c.get("hbase.table.name");}/** {@inheritDoc} */@Overrideprotected void map(LongWritable key, Text value, Context context)throws IOException, InterruptedException {if (value.find("Service,Term,") > -1) {// Skip headerreturn;}String[] fields = null;try {fields = csvParser.parseLine(value.toString());} catch (Exception ex) {context.getCounter("HBaseKVMapper", "PARSE_ERRORS").increment(1);return;}if (fields.length != NUM_FIELDS) {context.getCounter("HBaseKVMapper", "INVALID_FIELD_LEN").increment(1);return;}// Get game offset in seconds from tip-offDateTime dt = null;try {dt = p.parseDateTime(fields[9]);} catch (Exception ex) {context.getCounter("HBaseKVMapper", "INVALID_DATE").increment(1);return;}int gameOffset = (int) ((dt.getMillis() / 1000) - tipOffSeconds);String offsetForKey = String.format("%04d", gameOffset);String username = fields[2];if (username.equals("")) {username = fields[3];}// Key: e.g. "1200:twitter:jrkinley"hKey.set(String.format("%s:%s:%s", offsetForKey, fields[0], username).getBytes());// Service columnsif (!fields[0].equals("")) {kv = new KeyValue(hKey.get(), SRV_COL_FAM,HColumnEnum.SRV_COL_SERVICE.getColumnName(), fields[0].getBytes());context.write(hKey, kv);}if (!fields[1].equals("")) {kv = new KeyValue(hKey.get(), SRV_COL_FAM,HColumnEnum.SRV_COL_TERM.getColumnName(), fields[1].getBytes());context.write(hKey, kv);}if (!fields[2].equals("")) {kv = new KeyValue(hKey.get(), SRV_COL_FAM,HColumnEnum.SRV_COL_USERNAME.getColumnName(), fields[2].getBytes());context.write(hKey, kv);}if (!fields[3].equals("")) {kv = new KeyValue(hKey.get(), SRV_COL_FAM,HColumnEnum.SRV_COL_NAME.getColumnName(), fields[3].getBytes());context.write(hKey, kv);}if (!fields[4].equals("")) {kv = new KeyValue(hKey.get(), SRV_COL_FAM,HColumnEnum.SRV_COL_UPDATE.getColumnName(), fields[4].getBytes());context.write(hKey, kv);}if (!fields[9].equals("")) {kv = new KeyValue(hKey.get(), SRV_COL_FAM,HColumnEnum.SRV_COL_TIME.getColumnName(), fields[9].getBytes());context.write(hKey, kv);}context.getCounter("HBaseKVMapper", "NUM_MSGS").increment(1);/** Output number of messages per quarter and before/after game. This should* correspond to the number of messages per region in HBase*/if (gameOffset < 0) {context.getCounter("QStats", "BEFORE_GAME").increment(1);} else if (gameOffset < 900) {context.getCounter("QStats", "Q1").increment(1);} else if (gameOffset < 1800) {context.getCounter("QStats", "Q2").increment(1);} else if (gameOffset < 2700) {context.getCounter("QStats", "Q3").increment(1);} else if (gameOffset < 3600) {context.getCounter("QStats", "Q4").increment(1);} else {context.getCounter("QStats", "AFTER_GAME").increment(1);}}}
/*** HBase table columns for the 'srv' column family*/public enum HColumnEnum {SRV_COL_SERVICE ("service".getBytes()),SRV_COL_TERM ("term".getBytes()),SRV_COL_USERNAME ("username".getBytes()),SRV_COL_NAME ("name".getBytes()),SRV_COL_UPDATE ("update".getBytes()),SRV_COL_TIME ("pdt".getBytes());private final byte[] columnName;HColumnEnum (byte[] column) {this.columnName = column;}public byte[] getColumnName() {return this.columnName;}}
HBase Bulk Loading的更多相关文章
- How-to: Use HBase Bulk Loading, and Why
How-to: Use HBase Bulk Loading, and Why http://blog.cloudera.com/blog/2013/09/how-to-use-hbase-bulk- ...
- How To Use Hbase Bulk Loading
最近在学习hbase,学到利用如何将数据导入到hbase中,采用的方式是批量导入:bulk load的方法,中间出现了一些问题,下面将执行的步骤记录一下,以供日后查阅: 说明:导入的方式是将csv文件 ...
- HBase高速导入数据--BulkLoad
Apache HBase是一个分布式的.面向列的开源数据库.它能够让我们随机的.实时的訪问大数据.可是如何有效的将数据导入到HBase呢?HBase有多种导入数据的方法.最直接的方法就是在MapRed ...
- 通过BulkLoad的方式快速导入海量数据
摘要 加载数据到HBase的方式有多种,通过HBase API导入或命令行导入或使用第三方(如sqoop)来导入或使用MR来批量导入(耗费磁盘I/O,容易在导入的过程使节点宕机),但是这些方式不是慢就 ...
- Sqoop学习之路 (一)
一.概述 sqoop 是 apache 旗下一款“Hadoop 和关系数据库服务器之间传送数据”的工具. 核心的功能有两个: 导入.迁入 导出.迁出 导入数据:MySQL,Oracle 导入数据到 H ...
- Hadoop生态圈-Sqoop部署以及基本使用方法
Hadoop生态圈-Sqoop部署以及基本使用方法 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与 ...
- sqoop导入数据
来源https://www.cnblogs.com/qingyunzong/p/8807252.html 一.概述 sqoop 是 apache 旗下一款“Hadoop 和关系数据库服务器之间传送数据 ...
- 【Sqoop学习之二】Sqoop使用
环境 sqoop-1.4.6 一.基本命令1.帮助命令 [root@node101 ~]# sqoop help Warning: /usr/local/sqoop-/../hbase does no ...
- Bulk Load-HBase数据导入最佳实践
一.概述 HBase本身提供了非常多种数据导入的方式,通常有两种经常使用方式: 1.使用HBase提供的TableOutputFormat,原理是通过一个Mapreduce作业将数据导入HBase 2 ...
随机推荐
- Java并发框架——AQS之原子性如何保证?
在研究AQS框架时,会发现这个类很多地方都使用了CAS操作,在并发实现中CAS操作必须具备原子性,而且是硬件级别的原子性,java被隔离在硬件之上,明显力不从心,这时为了能直接操作操作系统层面,肯定要 ...
- Android开发 Jar mismatch! Fix your dependencies的问题
有时候,当我们在导入Library的时候,会遇到Jar mismatch! Fix your dependencies这个错误.可能有如下原因: 1.两个项目的android-support-v4.j ...
- 什么时候App委托会收到App进程被结束的消息
大熊猫猪·侯佩原创或翻译作品.欢迎转载,转载请注明出处. 如果觉得写的不好请多提意见,如果觉得不错请多多支持点赞.谢谢! hopy ;) 我们在Xcode建立的新项目后,在AppDelegate类会发 ...
- MySQL 存储过程探秘
关于存储过程的优点,本文不再阐述.这里只是对创建存储过程时可能遇到的问题做一下简单的分析. 必备基础 这里说的基础,是相关于如何创建一个存储过程的. DELIMITER:分隔符,定界符. 作用就是:作 ...
- 自定义AlertDialog(仿微信)
安卓自定义AlertDialog,原理很简单: AlertDialog dialog = new AlertDialog.Builder(MainActivity.this).create(); di ...
- Spark技术内幕: Task向Executor提交的源码解析
在上文<Spark技术内幕:Stage划分及提交源码分析>中,我们分析了Stage的生成和提交.但是Stage的提交,只是DAGScheduler完成了对DAG的划分,生成了一个计算拓扑, ...
- 海量并发的无锁编程 (lock free programming)
最近在做在线架构的实现,在线架构和离线架构近线架构最大的区别是服务质量(SLA,Service Level Agreement,SLA 99.99代表10K的请求最多一次失败或者超时)和延时.而离线架 ...
- AndroidManifest.xml中的application中的name属性
被这个不起眼的属性折磨了一天,终于解决了. 由于项目需要,要合并两个android应用,于是拷代码,拷布局文件,拷values,所有的都搞定之后程序还是频频崩溃,一直没有找到原因,学android时间 ...
- Linux上程序调试的基石(1)--ptrace
引子: 1.在Linux系统中,进程状态除了我们所熟知的TASK_RUNNING,TASK_INTERRUPTIBLE,TASK_STOPPED等,还有一个TASK_TRACED.这表明这个进程处于什 ...
- Docker教程:docker的概念及安装
http://blog.csdn.net/pipisorry/article/details/50754385 Why docker 对于运维来说,Docker提供了一种可移植的标准化部署过程,使得规 ...