【HBase】HBase与MapReduce集成——从HDFS的文件读取数据到HBase

需求

将HDFS路径 /hbase/input/user.txt 文件的内容读取并写入到HBase 表myuser2中

首先在HDFS上准备些数据让我们用

hdfs dfs -mkdir -p /hbase/input

cd /export/servers/

vim user.txt

填写一下数据，注意是用 \t 分隔的

0007	zhangsan	18

0008	lisi	25

0009	wangwu	20

保存后上传到HDFS上就行

hdfs dfs -put user.txt /hbase/input

步骤

一、创建maven工程，导入jar包

<repositories>

        <repository>

            <id>cloudera</id>

            <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>

        </repository>

    </repositories>

    <dependencies>

        <dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-client</artifactId>

            <version>2.6.0-mr1-cdh5.14.0</version>

        </dependency>

        <dependency>

            <groupId>org.apache.hbase</groupId>

            <artifactId>hbase-client</artifactId>

            <version>1.2.0-cdh5.14.0</version>

        </dependency>

        <dependency>

            <groupId>org.apache.hbase</groupId>

            <artifactId>hbase-server</artifactId>

            <version>1.2.0-cdh5.14.0</version>

        </dependency>

        <dependency>

            <groupId>junit</groupId>

            <artifactId>junit</artifactId>

            <version>4.12</version>

            <scope>test</scope>

        </dependency>

        <dependency>

            <groupId>org.testng</groupId>

            <artifactId>testng</artifactId>

            <version>6.14.3</version>

            <scope>test</scope>

        </dependency>

    </dependencies>

    <build>

        <plugins>

            <plugin>

                <groupId>org.apache.maven.plugins</groupId>

                <artifactId>maven-compiler-plugin</artifactId>

                <version>3.0</version>

                <configuration>

                    <source>1.8</source>

                    <target>1.8</target>

                    <encoding>UTF-8</encoding>

                    <!--    <verbal>true</verbal>-->

                </configuration>

            </plugin>

            <plugin>

                <groupId>org.apache.maven.plugins</groupId>

                <artifactId>maven-shade-plugin</artifactId>

                <version>2.2</version>

                <executions>

                    <execution>

                        <phase>package</phase>

                        <goals>

                            <goal>shade</goal>

                        </goals>

                        <configuration>

                            <filters>

                                <filter>

                                    <artifact>*:*</artifact>

                                    <excludes>

                                        <exclude>META-INF/*.SF</exclude>

                                        <exclude>META-INF/*.DSA</exclude>

                                        <exclude>META-INF/*/RSA</exclude>

                                    </excludes>

                                </filter>

                            </filters>

                        </configuration>

                    </execution>

                </executions>

            </plugin>

        </plugins>

    </build>

二、开发MapReduce程序

定义一个Main方法类——HdfsReadHbaseWrite

package cn.itcast.mr.demo2;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.hbase.HBaseConfiguration;

import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

public class HdfsReadHbaseWrite extends Configured implements Tool {

    @Override

    public int run(String[] args) throws Exception {

        //获取Job对象

        Job job = Job.getInstance(super.getConf(), "hdfs->hbase");

        //获取输入数据和路径

        job.setInputFormatClass(TextInputFormat.class);

        TextInputFormat.setInputPaths(job, new Path("hdfs://node01:8020/hbase/input"));

        //自定义Map逻辑

        job.setMapperClass(HDFSReadMapper.class);

        //获取k2,v2输出类型

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(NullWritable.class);

        //自定义Reduce逻辑

        TableMapReduceUtil.initTableReducerJob("myuser2", HbaseWriteReducer.class, job);

        //设置reduceTask个数

        job.setNumReduceTasks(1);

        //提交任务

        boolean b = job.waitForCompletion(true);

        return b ? 0 : 1;

    }

    public static void main(String[] args) throws Exception {

        Configuration configuration = HBaseConfiguration.create();

        configuration.set("hbase.zookeeper.quorum", "node01:2181,node02:2181,node03:2181");

        int run = ToolRunner.run(configuration, new HdfsReadHbaseWrite(), args);

        System.exit(run);

    }

}

自定义Map逻辑，定义一个Mapper类——HDFSReadMapper

package cn.itcast.mr.demo2;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class HDFSReadMapper extends Mapper<LongWritable, Text, Text, NullWritable> {

    @Override

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        /*

        0007	zhangsan	18

        0008	lisi	25

        0009	wangwu	20

        我们要读取的数据都直接封装到了value中，所以直接拿到以后输出就行

         */

        context.write(value, NullWritable.get());

    }

}

自定义Reduce逻辑，定义一个Reducer类——HbaseWriteReducer

package cn.itcast.mr.demo2;

import org.apache.hadoop.hbase.client.Put;

import org.apache.hadoop.hbase.io.ImmutableBytesWritable;

import org.apache.hadoop.hbase.mapreduce.TableReducer;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import java.io.IOException;

public class HbaseWriteReducer extends TableReducer<Text, NullWritable, ImmutableBytesWritable> {

    @Override

    protected void reduce(Text key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException {

        /*

        0007	zhangsan	18

        0008	lisi	25

        0009	wangwu	20

         */

        //先把拿到的数据分割一下

        String[] split = key.toString().split("\t");

        //拿到rowKey

        byte[] rowKey = split[0].getBytes();

        //拿到nameValue

        byte[] nameValue = split[1].getBytes();

        //拿到ageValue

        byte[] ageValue = split[2].getBytes();

        //创建put对象

        Put put = new Put(rowKey);

        //添加数据

        put.addColumn("f1".getBytes(), "name".getBytes(), nameValue);

        put.addColumn("f1".getBytes(), "age".getBytes(), ageValue);

        //构建ImmutableBytesWritable

        ImmutableBytesWritable immutableBytesWritable = new ImmutableBytesWritable();

        immutableBytesWritable.set(rowKey);

        //转换成k3,v3输出

        context.write(immutableBytesWritable, put);

    }

}

三、结果

【HBase】HBase与MapReduce集成——从HDFS的文件读取数据到HBase的更多相关文章

java实现服务端守护进程来监听客户端通过上传json文件写数据到hbase中
1.项目介绍: 由于大数据部门涉及到其他部门将数据传到数据中心,大部分公司采用的方式是用json文件的方式传输,因此就需要编写服务端和客户端的小程序了.而我主要实现服务端的代码,也有相应的客户端的测试 ...
hbase 从hdfs上读取数据到hbase中
<dependencies> <dependency> <groupId>org.apache.hbase</groupId> <artifact ...
Hbase对hive的支持没有hdfs的好的原因及hbase什么时候使用及rowkey设计技巧
hive-=mareduce 的 split 在 hbase就是 region了,,,,,,,访问region必须通过hregionserver 会造成regionser负担过大, 另外 reg ...
MapReduce将HDFS文本数据导入HBase中
HBase本身提供了很多种数据导入的方式,通常有两种常用方式: 使用HBase提供的TableOutputFormat,原理是通过一个Mapreduce作业将数据导入HBase 另一种方式就是使用HB ...
批量导入数据到HBase
hbase一般用于大数据的批量分析,所以在很多情况下需要将大量数据从外部导入到hbase中,hbase提供了一种导入数据的方式,主要用于批量导入大量数据,即importtsv工具,用法如下: Us ...
大数据学习——Hbase
1. Hbase基础 1.1 hbase数据库介绍 1.简介 hbase是bigtable的开源java版本.是建立在hdfs之上,提供高可靠性.高性能.列存储.可伸缩.实时读写nosql的数据库系统 ...
简单通过java的socket&serversocket以及多线程技术实现多客户端的数据的传输，并将数据写入hbase中
业务需求说明,由于公司数据中心处于刚开始部署的阶段,这需要涉及其它部分将数据全部汇总到数据中心,这实现的方式是同上传json文件,通过采用socket&serversocket实现传输. 其中 ...
HDFS写文件过程分析
转自http://shiyanjun.cn/archives/942.html HDFS是一个分布式文件系统,在HDFS上写文件的过程与我们平时使用的单机文件系统非常不同,从宏观上来看,在HDFS文件 ...
HBase概念学习（七）HBase与Mapreduce集成
这篇文章是看了HBase权威指南之后,依据上面的解说搬下来的样例,可是略微有些不一样. HBase与mapreduce的集成无非就是mapreduce作业以HBase表作为输入,或者作为输出,也或者作 ...

随机推荐

利用Ajax实现异步请求
Ajax 1.课程引入静态网站和动态网站都是同步的,但同步方式有缺点:页面请求响应式阻塞,影响用户体验为了解决这个问题,可以通过变通的手段实现页面的局部更新(隐藏帧),由于隐藏 ...
STL迭代器的使用
STL的迭代器听起来怪吓人的,其实并不是什么高深的东西,说白了就是定义了一个指向STL的指针.. 对于没个STIL都可以定义 set,,vector ,,map,,,string 定义: set< ...
PHP 将字符串转换为字符集格式UTF8/GB2312/GBK 函数iconv（）
iconv()介绍 iconv函数可以将一种已知的字符集文件转换成另一种已知的字符集文件 iconv('要转化的格式',‘转化后的格式’,‘转化的数据’); 但是转化是经常出错,一般需要在转成的编码 ...
基于nodejs的游戏服务器
开源一个四年前自己写的node服务器,有兴趣的可以继续开发-- 架构为mysql,redis,node. 数据格式为 protocol buff 如果只做简单的演示,这个架构非常适合你.. 还是typ ...
【mybatis xml】数据层框架应用--Mybatis 基于XML映射文件实现数据的CRUD
使用MyBatis框架进行持久层开发 MyBatis是支持普通SQL查询,存储过程和高级映射的优秀持久层框架. MyBatis消除了几乎所有的JDBC代码和参数的手工设置以及对结果集的检索. MyBa ...
SpringMVC Spring Mybatis整合篇
1.创建WEB项目创建项目:(ssmbuild)步骤略........ 给项目添加lib文件夹,用于存放jar包: 在WEB-INF目录下创建lib文件夹: 创建完成:运行项目时需要把jar导入到l ...
bash cookbook
目录简介变量静态变量变量操作数组应用四则运算条件测试整数测试文件测试字符测试组合条件测试选择语句循环语句 for--有限循环 while--无线循环 until conti ...
基于MySQL Binlog的Elasticsearch数据同步实践
一.为什么要做随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品.订单等数据的多维度检索. 使用 Elasticsearch 存储业务数 ...
java算法-二分法查找实现
什么是二分法查找首先,使用二分法查找的前提是:被查找的数组已排好序具体实现: 假如有一组数为3,12,24,36,55,68,75,88要查给定的值24.可设三个变量front,mid,end分别 ...
PHP中的数据库操作
PDO project data object 连接到数据库 $db=new PDO("mysql:dbname=database;host=sever","userna ...