hbase 从hdfs上读取数据到hbase中

 <dependencies>

     <dependency>

         <groupId>org.apache.hbase</groupId>

         <artifactId>hbase-client</artifactId>

         <version>2.0.2</version>

     </dependency>

     <dependency>

         <groupId>org.apache.hbase</groupId>

         <artifactId>hbase-server</artifactId>

         <version>2.0.2</version>

     </dependency>

     <dependency>

         <groupId>org.apache.hbase</groupId>

         <artifactId>hbase-mapreduce</artifactId>

         <version>2.0.2</version>

     </dependency>

   </dependencies>

Mappper

 package cn.hbase.mapreduce.hdfs;

 import java.io.IOException;

 import java.nio.ByteBuffer;

 import java.util.ArrayList;

 import java.util.HashMap;

 import java.util.Iterator;

 import java.util.List;

 import java.util.Map;

 import java.util.Map.Entry;

 import java.util.Set;

 import org.apache.hadoop.hbase.client.Put;

 import org.apache.hadoop.hbase.io.ImmutableBytesWritable;

 import org.apache.hadoop.hbase.util.Bytes;

 import org.apache.hadoop.io.LongWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Mapper;

 /**

  *

  * @author Tele 输入key hdfs上的文本的行号 输入value 文本 输出key 行键 输出value 将插入hbase的一行数据,需要行键

  *

  */

 public class ReadFruitFromHdfsMapper extends Mapper<LongWritable, Text, ImmutableBytesWritable, Put> {

     @Override

     protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

         // 读取

         String line = value.toString();

         // 切割

         /**

          * 1001 apple red 1002 pear yellow 1003 pineapple yellow

          */

         String[] fields = line.split("\t");

         // 每个列族对应多个列

         Map<String, Object> map = new HashMap<String, Object>();

         // 封装列族下需要的列

         List<String> infoCNList = new ArrayList<String>();

         infoCNList.add("name");// 值对应field[1]

         infoCNList.add("color");// 值对应field[2]

         map.put("info", infoCNList);

         String row = fields[0];

         // 封装

         Put put = new Put(Bytes.toBytes(row));

         // 遍历map,封装每个列族下的列

         Set<Entry<String, Object>> entrySet = map.entrySet();

         Iterator<Entry<String, Object>> iterator = entrySet.iterator();

         while (iterator.hasNext()) {

             Entry<String, Object> entry = iterator.next();

             String cf = entry.getKey();

             List<String> cnList = (List<String>) entry.getValue();

             // 遍历list

             for (int i = 0; i < cnList.size(); i++) {

                 put.addColumn(Bytes.toBytes(cf), Bytes.toBytes(cnList.get(i)), Bytes.toBytes(fields[i + 1]));

             }

         }

         // 行键

         ImmutableBytesWritable immutableBytesWritable = new ImmutableBytesWritable(Bytes.toBytes(fields[0]));

         // 写出

         context.write(immutableBytesWritable, put);

     }

 }

Reducer

 package cn.hbase.mapreduce.hdfs;

 import java.io.IOException;

 import org.apache.hadoop.hbase.client.Mutation;

 import org.apache.hadoop.hbase.client.Put;

 import org.apache.hadoop.hbase.io.ImmutableBytesWritable;

 import org.apache.hadoop.hbase.mapreduce.TableReducer;

 import org.apache.hadoop.io.NullWritable;

 import org.apache.hadoop.mapreduce.Reducer;

 /**

  *

  *@author Tele

  *

  *对hbase上的表操作,继承tablereducer即可

  *

  */

 public class WriteFruitReducer extends TableReducer<ImmutableBytesWritable,Put,NullWritable> {

     @Override

     protected void reduce(ImmutableBytesWritable key, Iterable<Put> value,Context context) throws IOException, InterruptedException {

         for (Put put : value) {

             context.write(NullWritable.get(), put);

         }

     }

 }

Runner

 package cn.hbase.mapreduce.hdfs;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.conf.Configured;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.hbase.HBaseConfiguration;

 import org.apache.hadoop.hbase.client.Put;

 import org.apache.hadoop.hbase.io.ImmutableBytesWritable;

 import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;

 import org.apache.hadoop.mapreduce.Job;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.util.Tool;

 import org.apache.hadoop.util.ToolRunner;

 /**

  *

  * @author Tele

  *

  */

 public class FruitRunner extends Configured implements Tool {

     public int run(String[] args) throws Exception {

         // 实例化job

         Job job = Job.getInstance(this.getConf());

         // 设置jar包路径

         job.setJarByClass(FruitRunner.class);

         // 组装mapper

         job.setMapperClass(ReadFruitFromHdfsMapper.class);

         job.setMapOutputKeyClass(ImmutableBytesWritable.class);

         job.setMapOutputValueClass(Put.class);

         // 设置数据来源

         FileInputFormat.addInputPath(job, new Path("/input_fruit"));

         // 组装reducer

         TableMapReduceUtil.initTableReducerJob("fruit_mr", WriteFruitReducer.class, job);

         // 设置reduce个数

         job.setNumReduceTasks(1);

         // 提交

         return job.waitForCompletion(true) ? 0 : 1;

     }

     public static void main(String[] args) throws Exception {

         Configuration conf = HBaseConfiguration.create();

         ToolRunner.run(new FruitRunner(), args);

     }

 }

ps:需要预先创建表

hbase 从hdfs上读取数据到hbase中的更多相关文章

从PCI上读取数据线程和定时器效率
从PCI上读取数据线程和定时器效率线程: mythread=AfxBeginThread(StartContinuous,(LPVOID)1,THREAD_PRIORITY_NORMAL,0,CR ...
一个I/O线程可以并发处理N个客户端连接和读写操作 I/O复用模型基于Buf操作NIO可以读取任意位置的数据 Channel中读取数据到Buffer中或将数据 Buffer 中写入到 Channel 事件驱动消息通知观察者模式
Tomcat那些事儿 https://mp.weixin.qq.com/s?__biz=MzI3MTEwODc5Ng==&mid=2650860016&idx=2&sn=549 ...
hbase 从hbase上读取数据写入到hdfs
Mapper package cn.hbase.mapreduce.hb2hdfs; import java.io.IOException; import org.apache.hadoop.hbas ...
【HBase】HBase与MapReduce集成——从HDFS的文件读取数据到HBase
目录需求步骤一.创建maven工程,导入jar包二.开发MapReduce程序三.结果需求将HDFS路径 /hbase/input/user.txt 文件的内容读取并写入到HBase 表 ...
HBase 在HDFS 上的目录树
总所周知,HBase 是天生就是架设在 HDFS 上,在这个分布式文件系统中,HBase 是怎么去构建自己的目录树的呢? 这里只介绍系统级别的目录树. 一.0.94-cdh4.2.1版本系 ...
HBase在HDFS上的目录介绍
总所周知,HBase 是天生就是架设在 HDFS 上,在这个分布式文件系统中,HBase 是怎么去构建自己的目录树的呢? 第一,介绍系统级别的目录树. 一.0.94-cdh4.2.1版本系统级别的一 ...
HBase在HDFS上的目录树
众所周知,HBase 是天生就是架设在 HDFS 上,在这个分布式文件系统中,HBase 是怎么去构建自己的目录树的呢? 这里只介绍系统级别的目录树: 一.0.94-cdh4.2.1版本系统级别的一 ...
HBase 在HDFS上的物理目录结构
根目录配置项 hbase.rootdir 默认 "/hbase" 根级文件 /hbase/WALs 被HLog实例管理的WAL文件. /hbase/WALs/data-hbase ...
Spark从HDFS上读取JSON数据
代码如下: import org.apache.spark.sql.Row; import org.apache.spark.SparkConf; import org.apache.spark.ap ...

随机推荐

jdk目录详解及其使用方法
jdk目录详解 jdk目录详解 JDK(Java Development Kit,Java开发包,Java开发工具)是一个写Java的applet和应用程序的程序开发环境.它由一个处于操作系统层之上的 ...
洛谷—— P1434 滑雪
https://www.luogu.org/problem/show?pid=1434#sub 题目描述 Michael喜欢滑雪.这并不奇怪,因为滑雪的确很刺激.可是为了获得速度,滑的区域必须向下倾斜 ...
node的express参数获取
1.express中的不定向路由参数的获取如: app.get('/profile/:id', function(req, res) { var id=req.params.id res.send( ...
linux中获取系统时间 gettimeofday函数
linux的man页中对gettimeofday函数的说明中,有这样一个说明: $ man gettimeofday DESCRIPTION The functions gettimeof ...
Linux下设置MySQL不区分大写和小写
MySQL在Linux下数据库名.表名.列名.别名大写和小写规则: 1.数据库名与表名是严格区分大写和小写 2.表的别名是严格区分大写和小写 3.列名与列的别名在全部的情况下均是 ...
硬件——STM32 , SN74HC573锁存器
74HC573是一款高速CMOS器件: 上图中:输出使能为:OE 锁存使能为:LE 典型电路: 上图中:PWR-AL-0,PWR-AL-1,PWR-AL-2:是单片机输出的高低电平给573 对应的 ...
Ajax之旅（二）--XMLHttpRequest
上文中提到的Ajax的异步更新.主要使用XMLHttpRequest对象来实现的,XMLHttpRequest对象能够在不向server提交整个页面的情况下,实现局部更新网页. 当页面所有载 ...
STATUS CODE: 91, occurs when trying to move media from one volume pool to another.
Overview:Symantec NetBackup (tm) will not allow a tape with active images to be moved from one volum ...
30、在LCD上显示摄像头图像
1. 准备虚拟机2．安装工具链sudo tar xjf arm-linux-gcc-4.3.2.tar.bz2 -C /设置环境变量:sudo vi /etc/environment : PATH=& ...
3D 应用程序性能
原文:3D 应用程序性能版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/m0_37591671/article/details/74595999 3 ...

hbase 从hdfs上读取数据到hbase中

hbase 从hdfs上读取数据到hbase中的更多相关文章

随机推荐

热门专题