HBase学习之路（五）MapReduce操作Hbase

MapReduce从HDFS读取数据存储到HBase中

现有HDFS中有一个student.txt文件，格式如下

95002,刘晨,女,19,IS

95017,王风娟,女,18,IS

95018,王一,女,19,IS

95013,冯伟,男,21,CS

95014,王小丽,女,19,CS

95019,邢小丽,女,19,IS

95020,赵钱,男,21,IS

95003,王敏,女,22,MA

95004,张立,男,19,IS

95012,孙花,女,20,CS

95010,孔小涛,男,19,CS

95005,刘刚,男,18,MA

95006,孙庆,男,23,CS

95007,易思玲,女,19,MA

95008,李娜,女,18,CS

95021,周二,男,17,MA

95022,郑明,男,20,MA

95001,李勇,男,20,CS

95011,包小柏,男,18,MA

95009,梦圆圆,女,18,MA

95015,王君,男,18,MA

将HDFS上的这个文件里面的数据写入到HBase数据块中

MapReduce实现代码如下

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.hbase.HBaseConfiguration;

import org.apache.hadoop.hbase.client.Put;

import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;

import org.apache.hadoop.hbase.mapreduce.TableReducer;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

public class ReadHDFSDataToHbaseMR extends Configured implements Tool{

    public static void main(String[] args) throws Exception {

        int run = ToolRunner.run(new ReadHDFSDataToHbaseMR(), args);

        System.exit(run);

    }

    @Override

    public int run(String[] arg0) throws Exception {

        Configuration conf = HBaseConfiguration.create();

        conf.set("fs.defaultFS", "hdfs://myha01/");

        conf.set("hbase.zookeeper.quorum", "hadoop1:2181,hadoop2:2181,hadoop3:2181");

        System.setProperty("HADOOP_USER_NAME", "hadoop");

        FileSystem fs = FileSystem.get(conf);

//        conf.addResource("config/core-site.xml");

//        conf.addResource("config/hdfs-site.xml");

        Job job = Job.getInstance(conf);

        job.setJarByClass(ReadHDFSDataToHbaseMR.class);

        job.setMapperClass(HDFSToHbaseMapper.class);

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(NullWritable.class);

        TableMapReduceUtil.initTableReducerJob("student", HDFSToHbaseReducer.class, job,null,null,null,null,false);

        job.setOutputKeyClass(NullWritable.class);

        job.setOutputValueClass(Put.class);

        Path inputPath = new Path("/student/input/");

        Path outputPath = new Path("/student/output/");

        if(fs.exists(outputPath)) {

            fs.delete(outputPath,true);

        }

        FileInputFormat.addInputPath(job, inputPath);

        FileOutputFormat.setOutputPath(job, outputPath);

        boolean isDone = job.waitForCompletion(true);

        return isDone ? 0 : 1;

    }

    public static class HDFSToHbaseMapper extends Mapper<LongWritable, Text, Text, NullWritable>{

        @Override

        protected void map(LongWritable key, Text value, Context context)

                throws IOException, InterruptedException {

            context.write(value, NullWritable.get());

        }

    }

    /**

     * 95015,王君,男,18,MA

     * */

    public static class HDFSToHbaseReducer extends TableReducer<Text, NullWritable, NullWritable>{

        @Override

        protected void reduce(Text key, Iterable<NullWritable> values,Context context)

                throws IOException, InterruptedException {

            String[] split = key.toString().split(",");

            Put put = new Put(split[0].getBytes());

            put.addColumn("info".getBytes(), "name".getBytes(), split[1].getBytes());

            put.addColumn("info".getBytes(), "sex".getBytes(), split[2].getBytes());

            put.addColumn("info".getBytes(), "age".getBytes(), split[3].getBytes());

            put.addColumn("info".getBytes(), "department".getBytes(), split[4].getBytes());

            context.write(NullWritable.get(), put);

        }

    }

}

MapReduce从HBase读取数据计算平均年龄并存储到HDFS中

import java.io.IOException;

import java.util.List;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.hbase.Cell;

import org.apache.hadoop.hbase.CellUtil;

import org.apache.hadoop.hbase.HBaseConfiguration;

import org.apache.hadoop.hbase.client.Result;

import org.apache.hadoop.hbase.client.Scan;

import org.apache.hadoop.hbase.io.ImmutableBytesWritable;

import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;

import org.apache.hadoop.hbase.mapreduce.TableMapper;

import org.apache.hadoop.hbase.util.Bytes;

import org.apache.hadoop.io.DoubleWritable;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

public class ReadHbaseDataToHDFS extends Configured implements Tool{

    public static void main(String[] args) throws Exception {

        int run = ToolRunner.run(new ReadHbaseDataToHDFS(), args);

        System.exit(run);

    }

    @Override

    public int run(String[] arg0) throws Exception {

        Configuration conf = HBaseConfiguration.create();

        conf.set("fs.defaultFS", "hdfs://myha01/");

        conf.set("hbase.zookeeper.quorum", "hadoop1:2181,hadoop2:2181,hadoop3:2181");

        System.setProperty("HADOOP_USER_NAME", "hadoop");

        FileSystem fs = FileSystem.get(conf);

//        conf.addResource("config/core-site.xml");

//        conf.addResource("config/hdfs-site.xml");

        Job job = Job.getInstance(conf);

        job.setJarByClass(ReadHbaseDataToHDFS.class);

        // 取对业务有用的数据 info,age

        Scan scan = new Scan();

        scan.addColumn("info".getBytes(), "age".getBytes());

        TableMapReduceUtil.initTableMapperJob(

                "student".getBytes(), // 指定表名

                scan, // 指定扫描数据的条件

                HbaseToHDFSMapper.class, // 指定mapper class

                Text.class,     // outputKeyClass mapper阶段的输出的key的类型

                IntWritable.class, // outputValueClass mapper阶段的输出的value的类型

                job, // job对象

                false

                );

        job.setReducerClass(HbaseToHDFSReducer.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(DoubleWritable.class);

        Path outputPath = new Path("/student/avg/");

        if(fs.exists(outputPath)) {

            fs.delete(outputPath,true);

        }

        FileOutputFormat.setOutputPath(job, outputPath);

        boolean isDone = job.waitForCompletion(true);

        return isDone ? 0 : 1;

    }

    public static class HbaseToHDFSMapper extends TableMapper<Text, IntWritable>{

        Text outKey = new Text("age");

        IntWritable outValue = new IntWritable();

        // key是hbase中的行键

        // value是hbase中的所行键的所有数据

        @Override

        protected void map(ImmutableBytesWritable key, Result value,Context context)

                throws IOException, InterruptedException {

            boolean isContainsColumn = value.containsColumn("info".getBytes(), "age".getBytes());

            if(isContainsColumn) {

                List<Cell> listCells = value.getColumnCells("info".getBytes(), "age".getBytes());

                System.out.println("listCells:\t"+listCells);

                Cell cell = listCells.get(0);

                System.out.println("cells:\t"+cell);

                byte[] cloneValue = CellUtil.cloneValue(cell);

                String ageValue = Bytes.toString(cloneValue);

                outValue.set(Integer.parseInt(ageValue));

                context.write(outKey,outValue);

            }

        }

    }

    public static class HbaseToHDFSReducer extends Reducer<Text, IntWritable, Text, DoubleWritable>{

        DoubleWritable outValue = new DoubleWritable();

        @Override

        protected void reduce(Text key, Iterable<IntWritable> values,Context context)

                throws IOException, InterruptedException {

            int count = 0;

            int sum = 0;

            for(IntWritable value : values) {

                count++;

                sum += value.get();

            }

            double avgAge = sum * 1.0 / count;

            outValue.set(avgAge);

            context.write(key, outValue);

        }

    }

}

HBase学习之路（五）MapReduce操作Hbase的更多相关文章

HBase学习之路（三）HBase集群Shell操作
进入HBase命令行在你安装的随意台服务器节点上,执行命令:hbase shell,会进入到你的 hbase shell 客户端 [hadoop@hadoop1 ~]$ hbase shell S ...
HBase学习之路（四）HBase的API操作
Eclipse环境搭建具体的jar的引入方式可以参考http://www.cnblogs.com/qingyunzong/p/8623309.html HBase API操作表和数据 import ...
HBase学习之路（一）HBase基础介绍
产生背景自 1970 年以来,关系数据库用于数据存储和维护有关问题的解决方案.大数据的出现后, 好多公司实现处理大数据并从中受益,并开始选择像 Hadoop 的解决方案.Hadoop 使用分布式文 ...
HBase 学习之路（九）——HBase容灾与备份
一.前言本文主要介绍Hbase常用的三种简单的容灾备份方案,即CopyTable.Export/Import.Snapshot.分别介绍如下: 二.CopyTable 2.1 简介 CopyTabl ...
HBase 学习之路（八）——HBase协处理器
一.简述在使用HBase时,如果你的数据量达到了数十亿行或数百万列,此时能否在查询中返回大量数据将受制于网络的带宽,即便网络状况允许,但是客户端的计算处理也未必能够满足要求.在这种情况下,协处理器( ...
HBase 学习之路（七）——HBase过滤器详解
一.HBase过滤器简介 Hbase提供了种类丰富的过滤器(filter)来提高数据处理的效率,用户可以通过内置或自定义的过滤器来对数据进行过滤,所有的过滤器都在服务端生效,即谓词下推(predica ...
HBase学习之路（七）HBase 原理
系统架构错误图解这张图是有一个错误点:应该是每一个 RegionServer 就只有一个 HLog,而不是一个 Region 有一个 HLog. 正确图解从HBase的架构图上可以看出,HBas ...
HBase 学习之路（十）—— HBase的SQL中间层 Phoenix
一.Phoenix简介 Phoenix是HBase的开源SQL中间层,它允许你使用标准JDBC的方式来操作HBase上的数据.在Phoenix之前,如果你要访问HBase,只能调用它的Java API ...
HBase 学习之路（六）——HBase Java API 的基本使用
一.简述截至到目前(2019.04),HBase 有两个主要的版本,分别是1.x 和 2.x ,两个版本的Java API有所不同,1.x 中某些方法在2.x中被标识为@deprecated过时.所 ...
HBase 学习之路（一）—— HBase简介
一.Hadoop的局限 HBase是一个构建在Hadoop文件系统之上的面向列的数据库管理系统. 要想明白为什么产生HBase,就需要先了解一下Hadoop存在的限制?Hadoop可以通过HDFS来存 ...

随机推荐

SpringBoot(六) Web Applications: Embedded Containers(嵌入式容器)
参考文档: 28.4 Embedded Servlet Container Support
JVM类加载器及Java类的生命周期
预定义类加载器(三种): 启动(Bootstrap)类加载器: 是用本地代码实现的类装入器,它负责将<Java_Runtime_Home>/lib下面的类库加载到内存中(比如rt.jar) ...
完善：HTML5表单新特征简介与举例——张鑫旭
一.前言一撇其实关于HTML5的表单特征早在去年“你必须知道的28个HTML5特征.窍门和技术”一文中就有所介绍(在第十一项),不过,有些遗憾的是,此部分的介绍是以视频形式展示的,其实,是视频还好啦 ...
python学习之老男孩python全栈第九期_day016知识点总结
'''数据类型:intbool... 数据结构:dict (python独有的)listtuple (pytho独有的)setstr''' # reverse() 反转l = [1,2,3,4,5]l ...
JavaWeb学习总结（七）：通过Servlet生成验证码及其应用（BufferedImage类）
一.BufferedImage类介绍生成验证码图片主要用到了一个BufferedImage类,如下:
koa 中，中间件异步与同步的相关问题
同步中间件很容易理解,如以下代码: const Router = require('koa-router') , koa = new Router({ prefix: '/koa' }) , fs = ...
Android CheckBox大小调整
关键是: android:scaleX="0.5" <CheckBox android:id="@+id/checkBox1" android:layou ...
C#秒转换小时
#region 秒转换小时 SecondToHour /// <summary> /// 秒转换小时 /// </summary> /// <param name=&qu ...
linux下postgresql的安装与卸载
安装: sudo apt-get update sudo apt-get install postgresql 启动: sudo /etc/init.d/postgresql start 查看是否启动 ...
C# Redis的操作
Nuget添加StackExchange.Redis的引用由于Redis封装类同时使用了Json,需要添加JSON.NET引用(Newtonsoft.Json) Redis封装类 /// <s ...

HBase学习之路 （五）MapReduce操作Hbase

MapReduce从HDFS读取数据存储到HBase中

MapReduce从HBase读取数据计算平均年龄并存储到HDFS中

HBase学习之路 （五）MapReduce操作Hbase的更多相关文章

随机推荐

热门专题

HBase学习之路（五）MapReduce操作Hbase

HBase学习之路（五）MapReduce操作Hbase的更多相关文章