HBase with MapReduce （Only Read）

最近在学习HBase，在看到了如何使用Mapreduce来操作Hbase，下面将几种情况介绍一下，具体的都可以参照官网上的文档说明。官网文档连接：http://hbase.apache.org/book.html 。通过学习我个人的对MapReduce操作HBase的方式可以看作的是Map过程是负责读取过程，Reduce负责的是写入的过程，一读一写可以完成对HBase的读写过程。

利用MapReduce 读取（Read）HBase中的表数据，这一过程由于只涉及到读过程，因此仅仅只需要实现Map函数即可。

　　（1）ReadHbaseMapper类的实现是需要继承TableMapper的，具体的实现如下：

package com.datacenter.HbaseMapReduce.Read;

import java.io.IOException;

import java.util.Map.Entry;

import java.util.NavigableMap;

import org.apache.hadoop.hbase.client.Result;

import org.apache.hadoop.hbase.io.ImmutableBytesWritable;

import org.apache.hadoop.hbase.mapreduce.TableMapper;

import org.apache.hadoop.hbase.util.Bytes;

import org.apache.hadoop.io.Text;

public class ReadHbaseMapper extends TableMapper<Text, Text> {

	public void map(ImmutableBytesWritable row, Result value, Context context)

			throws InterruptedException, IOException {

		// process data for the row from the Result instance.

		printResult(value);

	}

	// 按顺序输出

	public void printResult(Result rs) {

		if (rs.isEmpty()) {

			System.out.println("result is empty!");

			return;

		}

		NavigableMap<byte[], NavigableMap<byte[], NavigableMap<Long, byte[]>>> temps = rs

				.getMap();

		String rowkey = Bytes.toString(rs.getRow()); // actain rowkey

		System.out.println("rowkey->" + rowkey);

		for (Entry<byte[], NavigableMap<byte[], NavigableMap<Long, byte[]>>> temp : temps

				.entrySet()) {

			System.out.print("\tfamily->" + Bytes.toString(temp.getKey()));

			for (Entry<byte[], NavigableMap<Long, byte[]>> value : temp

					.getValue().entrySet()) {

				System.out.print("\tcol->" + Bytes.toString(value.getKey()));

				for (Entry<Long, byte[]> va : value.getValue().entrySet()) {

					System.out.print("\tvesion->" + va.getKey());

					System.out.print("\tvalue->"

							+ Bytes.toString(va.getValue()));

					System.out.println();

				}

			}

		}

	}

}

　　（2）添加main函数类，来加载配置信息，是实现如下：

package com.datacenter.HbaseMapReduce.Read;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.hbase.HBaseConfiguration;

import org.apache.hadoop.hbase.client.HConnection;

import org.apache.hadoop.hbase.client.HConnectionManager;

import org.apache.hadoop.hbase.client.Scan;

import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.output.NullOutputFormat;

//通过map从hbase中读取数据

public class ReadHbase {

	static public String rootdir = "hdfs://hadoop3:8020/hbase";

	static public String zkServer = "hadoop3";

	static public String port = "2181";

	private static Configuration conf;

	private static HConnection hConn = null;

	public static void HbaseUtil(String rootDir, String zkServer, String port) {

		conf = HBaseConfiguration.create();// 获取默认配置信息

		conf.set("hbase.rootdir", rootDir);

		conf.set("hbase.zookeeper.quorum", zkServer);

		conf.set("hbase.zookeeper.property.clientPort", port);

		try {

			hConn = HConnectionManager.createConnection(conf);

		} catch (IOException e) {

			// TODO Auto-generated catch block

			e.printStackTrace();

		}

	}

	public static void main(String[] args) throws Exception {

		HbaseUtil( rootdir,  zkServer, port);

		//Configuration config = HBaseConfiguration.create();

		Job job = new Job(conf, "ExampleRead");

		job.setJarByClass(ReadHbase.class);     // class that contains mapper

		Scan scan = new Scan();      //此处可以添加过滤器来设置过滤等

		scan.setCaching(500);        // 1 is the default in Scan, which will be bad for MapReduce jobs

		scan.setCacheBlocks(false);  // don't set to true for MR jobs

		// set other scan attrs

		TableMapReduceUtil.initTableMapperJob(

		  "score",        // input HBase table name

		  scan,             // Scan instance to control CF and attribute selection

		  ReadHbaseMapper.class,   // mapper

		  null,             // mapper output key

		  null,             // mapper output value

		  job);

		job.setOutputFormatClass(NullOutputFormat.class);   // because we aren't emitting anything from mapper

		boolean b = job.waitForCompletion(true);

		if (!b) {

		  throw new IOException("error with job!");

		}

	}

}

此时已经完成了对一个表进行遍历的操作的过程，也就是输出整张表的内容的操作。

HBase with MapReduce （Only Read）的更多相关文章

HBase with MapReduce （MultiTable Read）
hbase当中没有两表联查的操作,要实现两表联查或者在查询一个表的同时也需要访问另外一张表的时候,可以通过mapreduce的方式来实现,实现方式如下:由于查询是map过程,因此这个过程不需要设计re ...
[转帖]HBase详解（很全面）
HBase详解(很全面) very long story 简单看了一遍很多不明白的地方.. 2018-06-08 16:12:32 卢子墨阅读数 34857更多分类专栏: HBase [转自 ...
HBase Block Cache（块缓存）
Block Cache HBase提供了两种不同的BlockCache实现,用于缓存从HDFS读出的数据.这两种分别为: 默认的,存在于堆内存的(on-heap)LruBlockCache 存在堆外内 ...
HBase笔记4（调优）
Master/Region Server调优 JVM调优默认的RegionServer内存是1G,而Memstore默认占40%,即400M,实在是太小了,可以通过HBASE_HEAPSIZE参数修 ...
HBase with MapReduce （SummaryToFile）
上一篇文章是实现统计hbase单元值出现的个数,并将结果存放到hbase的表中,本文是将结果存放到hdfs上.其中的map实现与前文一直,连接:http://www.cnblogs.com/ljy20 ...
HBase with MapReduce （Summary）
我们知道,hbase没有像关系型的数据库拥有强大的查询功能和统计功能,本文实现了如何利用mapreduce来统计hbase中单元值出现的个数,并将结果携带目标的表中, (1)mapper的实现 pac ...
HBase with MapReduce （Read and Write）
上面一篇文章仅仅是介绍如何通过mapReduce来对HBase进行读的过程,下面将要介绍的是利用mapreduce进行读写的过程,前面我们已经知道map实际上是读过程,reduce是写的过程,然而ma ...
Hadoop学习笔记—15.HBase框架学习（基础实践篇）
一.HBase的安装配置 1.1 伪分布模式安装伪分布模式安装即在一台计算机上部署HBase的各个角色,HMaster.HRegionServer以及ZooKeeper都在一台计算机上来模拟. 首先 ...
hbase 集群（完全分布式）方式安装
一,环境 1, 主节点一台: ubuntu desktop 16.04 zhoujun 172.16.12.1 从节点(slave)两台:ubuntu server 16.04 hadoo ...

随机推荐

安装appcan后打开eclipse出错
原有eclipse,后安装appcan后打开eclipse出错,因为appcan是自带的编译器也是eclipse所以会产生冲突,只需要在环境变量path里面把java_home参数移到appcan参数 ...
关于treeview手动添加的方法
1.首先判断有没有父节点,有父节点的,NEW一个父节点然后增加:没有父节点就选当前的节点 treeView2.Nodes.Add(newChildNode); 2.父节点的判断可以用leveL来判断 ...
Python—I/O多路复用
一.I/O多路复用概念: 监听多个描述符的状态,如果描述符状态改变,则会被内核修改标志位,从而被进程获取进而进行读写操作二.select,poll,epoll select模块,提供了:select ...
流镜像（华为S9306和S5700）
流镜像是指将设备.端口或者VLAN内收.发的指定类型报文复制到观察端口上,监控设备只对指定类型报文进行监测. 流镜像有基于ACL和基于MQC(即复杂流分类)两种配置方式.前者配置简便,但是没有后者支持 ...
Hadoop集群环境搭建
----------------------------------------------------------- 自学记录,交流学习请发送邮件至gxz1984@gmail.com ------- ...
C#的多态性
参考网址:http://www.cnblogs.com/zhangkai2237/archive/2012/12/20/2826734.html 多态的定义:同一操作作用于不同的对象,可以有不同的解释 ...
Apache Solr 访问权限控制
Current state of affairs SSL support was added in version 4.2 (SolrCloud v4.7). Protection of Zookee ...
IntelliJ IDEA中使用综合使用Maven和Struts2
在Intellij IDEA中手动使用Maven创建Web项目并引入Struts2 创建一个新的Maven项目建好项目之后点击左下角的enable auto import 项目部署在Moudule ...
事务码 ListSchema：查看Cube星型结构Schema
声明:原创作品,转载时请注明文章来自SAP师太技术博客( 博/客/园www.cnblogs.com):www.cnblogs.com/jiangzhengjun,并以超链接形式标明文章原始出处,否则将 ...
ZooKeeper 编程(一)
Zookeeper的节点都是存放在内存中的,所以读写速度很快.更新日志被记录到了磁盘中,以便用于恢复数据.在更新内在中节点数之前,会先序列化到磁盘中. 为避免单点失效,zookeeper的数据是在多个 ...

HBase with MapReduce （Only Read）

HBase with MapReduce （Only Read）的更多相关文章

随机推荐

热门专题