HBase with MapReduce （Only Read）

最近在学习HBase，在看到了如何使用Mapreduce来操作Hbase，下面将几种情况介绍一下，具体的都可以参照官网上的文档说明。官网文档连接：http://hbase.apache.org/book.html 。通过学习我个人的对MapReduce操作HBase的方式可以看作的是Map过程是负责读取过程，Reduce负责的是写入的过程，一读一写可以完成对HBase的读写过程。

利用MapReduce 读取（Read）HBase中的表数据，这一过程由于只涉及到读过程，因此仅仅只需要实现Map函数即可。

　　（1）ReadHbaseMapper类的实现是需要继承TableMapper的，具体的实现如下：

package com.datacenter.HbaseMapReduce.Read;

import java.io.IOException;

import java.util.Map.Entry;

import java.util.NavigableMap;

import org.apache.hadoop.hbase.client.Result;

import org.apache.hadoop.hbase.io.ImmutableBytesWritable;

import org.apache.hadoop.hbase.mapreduce.TableMapper;

import org.apache.hadoop.hbase.util.Bytes;

import org.apache.hadoop.io.Text;

public class ReadHbaseMapper extends TableMapper<Text, Text> {

	public void map(ImmutableBytesWritable row, Result value, Context context)

			throws InterruptedException, IOException {

		// process data for the row from the Result instance.

		printResult(value);

	}

	// 按顺序输出

	public void printResult(Result rs) {

		if (rs.isEmpty()) {

			System.out.println("result is empty!");

			return;

		}

		NavigableMap<byte[], NavigableMap<byte[], NavigableMap<Long, byte[]>>> temps = rs

				.getMap();

		String rowkey = Bytes.toString(rs.getRow()); // actain rowkey

		System.out.println("rowkey->" + rowkey);

		for (Entry<byte[], NavigableMap<byte[], NavigableMap<Long, byte[]>>> temp : temps

				.entrySet()) {

			System.out.print("\tfamily->" + Bytes.toString(temp.getKey()));

			for (Entry<byte[], NavigableMap<Long, byte[]>> value : temp

					.getValue().entrySet()) {

				System.out.print("\tcol->" + Bytes.toString(value.getKey()));

				for (Entry<Long, byte[]> va : value.getValue().entrySet()) {

					System.out.print("\tvesion->" + va.getKey());

					System.out.print("\tvalue->"

							+ Bytes.toString(va.getValue()));

					System.out.println();

				}

			}

		}

	}

}

　　（2）添加main函数类，来加载配置信息，是实现如下：

package com.datacenter.HbaseMapReduce.Read;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.hbase.HBaseConfiguration;

import org.apache.hadoop.hbase.client.HConnection;

import org.apache.hadoop.hbase.client.HConnectionManager;

import org.apache.hadoop.hbase.client.Scan;

import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.output.NullOutputFormat;

//通过map从hbase中读取数据

public class ReadHbase {

	static public String rootdir = "hdfs://hadoop3:8020/hbase";

	static public String zkServer = "hadoop3";

	static public String port = "2181";

	private static Configuration conf;

	private static HConnection hConn = null;

	public static void HbaseUtil(String rootDir, String zkServer, String port) {

		conf = HBaseConfiguration.create();// 获取默认配置信息

		conf.set("hbase.rootdir", rootDir);

		conf.set("hbase.zookeeper.quorum", zkServer);

		conf.set("hbase.zookeeper.property.clientPort", port);

		try {

			hConn = HConnectionManager.createConnection(conf);

		} catch (IOException e) {

			// TODO Auto-generated catch block

			e.printStackTrace();

		}

	}

	public static void main(String[] args) throws Exception {

		HbaseUtil( rootdir,  zkServer, port);

		//Configuration config = HBaseConfiguration.create();

		Job job = new Job(conf, "ExampleRead");

		job.setJarByClass(ReadHbase.class);     // class that contains mapper

		Scan scan = new Scan();      //此处可以添加过滤器来设置过滤等

		scan.setCaching(500);        // 1 is the default in Scan, which will be bad for MapReduce jobs

		scan.setCacheBlocks(false);  // don't set to true for MR jobs

		// set other scan attrs

		TableMapReduceUtil.initTableMapperJob(

		  "score",        // input HBase table name

		  scan,             // Scan instance to control CF and attribute selection

		  ReadHbaseMapper.class,   // mapper

		  null,             // mapper output key

		  null,             // mapper output value

		  job);

		job.setOutputFormatClass(NullOutputFormat.class);   // because we aren't emitting anything from mapper

		boolean b = job.waitForCompletion(true);

		if (!b) {

		  throw new IOException("error with job!");

		}

	}

}

此时已经完成了对一个表进行遍历的操作的过程，也就是输出整张表的内容的操作。

HBase with MapReduce （Only Read）的更多相关文章

HBase with MapReduce （MultiTable Read）
hbase当中没有两表联查的操作,要实现两表联查或者在查询一个表的同时也需要访问另外一张表的时候,可以通过mapreduce的方式来实现,实现方式如下:由于查询是map过程,因此这个过程不需要设计re ...
[转帖]HBase详解（很全面）
HBase详解(很全面) very long story 简单看了一遍很多不明白的地方.. 2018-06-08 16:12:32 卢子墨阅读数 34857更多分类专栏: HBase [转自 ...
HBase Block Cache（块缓存）
Block Cache HBase提供了两种不同的BlockCache实现,用于缓存从HDFS读出的数据.这两种分别为: 默认的,存在于堆内存的(on-heap)LruBlockCache 存在堆外内 ...
HBase笔记4（调优）
Master/Region Server调优 JVM调优默认的RegionServer内存是1G,而Memstore默认占40%,即400M,实在是太小了,可以通过HBASE_HEAPSIZE参数修 ...
HBase with MapReduce （SummaryToFile）
上一篇文章是实现统计hbase单元值出现的个数,并将结果存放到hbase的表中,本文是将结果存放到hdfs上.其中的map实现与前文一直,连接:http://www.cnblogs.com/ljy20 ...
HBase with MapReduce （Summary）
我们知道,hbase没有像关系型的数据库拥有强大的查询功能和统计功能,本文实现了如何利用mapreduce来统计hbase中单元值出现的个数,并将结果携带目标的表中, (1)mapper的实现 pac ...
HBase with MapReduce （Read and Write）
上面一篇文章仅仅是介绍如何通过mapReduce来对HBase进行读的过程,下面将要介绍的是利用mapreduce进行读写的过程,前面我们已经知道map实际上是读过程,reduce是写的过程,然而ma ...
Hadoop学习笔记—15.HBase框架学习（基础实践篇）
一.HBase的安装配置 1.1 伪分布模式安装伪分布模式安装即在一台计算机上部署HBase的各个角色,HMaster.HRegionServer以及ZooKeeper都在一台计算机上来模拟. 首先 ...
hbase 集群（完全分布式）方式安装
一,环境 1, 主节点一台: ubuntu desktop 16.04 zhoujun 172.16.12.1 从节点(slave)两台:ubuntu server 16.04 hadoo ...

随机推荐

CentOS配置SSH免密码登录后,仍提示输入密码
CentOS配置SSH无密码登录需要3步: 生成公钥和私钥导入公钥到认证文件,更改权限测试 1.生成公钥和私钥 ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa 默 ...
c/s 与b/s构架
C/S架构是一种比较早的软件架构,主要应用于局域网内.在这之前经历了集中计算模式,随着计算机网络的进步与发展,尤其是可视化工具的应用,出现过两层C/S和三层C/S架构,不过一直很流行也比较经典的是我们 ...
hadoop2.0初识1.1
1.伪分布式hdfs文件系统的搭建(单节点文件系统) 1.1.根据上节的讲解,配置主机映射.jdk和解压hadoop压缩包 1.2.配置namenode 在/opt/modules/hadoop-2. ...
NRF52832学习笔记
一.打印函数 printf("");用于在调试串口时在电脑端的串口调试工具上打印: 宏定义时每行后面的斜杠,在最后一行不加斜杠.
Postman Postman测试接口之POST提交本地文件数据
举例: 文件同步接口接口地址:http://183.xxx.xxx.xxx:23333/ditui/fileupload HTTP请求方式:POST 针对上述这种POST本地文件的接口,接口数据咋提 ...
GSEA的使用
下载GSEA 网址:http://software.broadinstitute.org/gsea/downloads.jsp gsea2-2.2.2.jar c2.cp.kegg.v5.1.symb ...
awk命令简单介绍
简介 awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大.简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再 ...
centos BIND服务基础及域主服务器配置
系统信息: Linux localhost.localdomain -.el6.i686 # SMP Tue Dec :: GMT i686 i686 i386 GNU/Linux 因为看的是linu ...
【转】linux命令详解：md5sum命令
[转]linux命令详解:md5sum命令转自:http://blog.itpub.net/29320885/viewspace-1710218/ 前言在网络传输.设备之间转存.复制大文件等时,可 ...
N的阶乘末尾0的个数和其二进制表示中最后位1的位置
问题一解法: 我们知道求N的阶乘结果末尾0的个数也就是说我们在从1做到N的乘法的时候里面产生了多少个10, 我们可以这样分解,也就是将从0到N的数分解成因式,再将这些因式相乘,那么里面有多少个 ...

HBase with MapReduce （Only Read）

HBase with MapReduce （Only Read）的更多相关文章

随机推荐

热门专题