HBase with MapReduce （Summary）

我们知道，hbase没有像关系型的数据库拥有强大的查询功能和统计功能，本文实现了如何利用mapreduce来统计hbase中单元值出现的个数，并将结果携带目标的表中，

（1）mapper的实现

package com.datacenter.HbaseMapReduce.Summary;

import java.io.IOException;

import java.util.NavigableMap;

import java.util.Map.Entry;

import org.apache.hadoop.hbase.client.Result;

import org.apache.hadoop.hbase.io.ImmutableBytesWritable;

import org.apache.hadoop.hbase.mapreduce.TableMapper;

import org.apache.hadoop.hbase.util.Bytes;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

public class SummaryMapper extends TableMapper<Text, IntWritable> { // 这里是指定map中context输出的类型

	public static final byte[] CF = "cf".getBytes();

	public static final byte[] ATTR1 = "attr1".getBytes();

	private final IntWritable ONE = new IntWritable(1);

	private Text text = new Text();

	@Override

	protected void map(ImmutableBytesWritable key, Result value, Context context)

			throws IOException, InterruptedException {

		// TODO Auto-generated method stub

/*		byte[] ss = value.getValue(CF, ATTR1); // 这里是只是获取特定的列族，特定列的值的个数，也可以根据实际的情况修改

		String val = new String(ss);

		text.set(val); // we can only emit Writables..

		context.write(text, ONE);*/

		//统计所有的列族和列的值的个数

		try {

			DealResult( value , context);

		} catch (Exception e) {

			// TODO Auto-generated catch block

			e.printStackTrace();

		}

	}

	// 统计所有列族和列的值的个数

	public void DealResult(Result rs ,Context context) throws Exception {

		if (rs.isEmpty()) {

			System.out.println("result is empty!");

			return;

		}

		NavigableMap<byte[], NavigableMap<byte[], NavigableMap<Long, byte[]>>> tableResulrt = rs

				.getMap();

		String rowkey = Bytes.toString(rs.getRow()); // actain rowkey

		///System.out.println("rowkey->" + rowkey);

		for (Entry<byte[], NavigableMap<byte[], NavigableMap<Long, byte[]>>> familyResult : tableResulrt

				.entrySet()) {

			//System.out.print("\tfamily->" + Bytes.toString(temp.getKey()));

			for (Entry<byte[], NavigableMap<Long, byte[]>> columnResult : familyResult

					.getValue().entrySet()) {

				///System.out.print("\tcol->" + Bytes.toString(value.getKey()));

				for (Entry<Long, byte[]> valueResult : columnResult.getValue().entrySet()) {

					//System.out.print("\tvesion->" + va.getKey());

					//System.out.print("\tvalue->"+ Bytes.toString(va.getValue()));

					//System.out.println();

					text.set(new String(valueResult.getValue()));

					context.write(text, ONE);

				}

			}

		}

	}

}

（2）reduce的实现

package com.datacenter.HbaseMapReduce.Summary;

import java.io.IOException;

import org.apache.hadoop.hbase.Cell;

import org.apache.hadoop.hbase.client.Mutation;

import org.apache.hadoop.hbase.client.Put;

import org.apache.hadoop.hbase.io.ImmutableBytesWritable;

import org.apache.hadoop.hbase.mapreduce.TableReducer;

import org.apache.hadoop.hbase.util.Bytes;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

public class SummaryReducer extends

		TableReducer<Text, IntWritable, ImmutableBytesWritable> {

	public static final byte[] CF = "cf".getBytes();

	public static final byte[] COUNT = "count".getBytes();

	@SuppressWarnings("deprecation")

	@Override

	protected void reduce(Text key, Iterable<IntWritable> values, Context context)

			throws IOException, InterruptedException {

		// TODO Auto-generated method stub

		int i = 0;

		for (IntWritable val : values) {

			i += val.get();

		}

		Put put = new Put(Bytes.toBytes(key.toString()));

		//Cell s=new

		put.add(CF, COUNT, 100,Bytes.toBytes(i));  //在对应的列族中增加一列count，记录其个数

		context.write(null, put);

	}

}

（3）主类加载信息的实现

package com.datacenter.HbaseMapReduce.Summary;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.hbase.HBaseConfiguration;

import org.apache.hadoop.hbase.client.HConnection;

import org.apache.hadoop.hbase.client.HConnectionManager;

import org.apache.hadoop.hbase.client.Scan;

import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

//统计hbase表中，每行的值在整个表的个数

public class SummaryMain {

	static String rootdir = "hdfs://hadoop3:8020/hbase";

	static String zkServer = "hadoop3";

	static String port = "2181";

	private static Configuration conf;

	private static HConnection hConn = null;

	public static void HbaseUtil(String rootDir, String zkServer, String port) {

		conf = HBaseConfiguration.create();// 获取默认配置信息

		conf.set("hbase.rootdir", rootDir);

		conf.set("hbase.zookeeper.quorum", zkServer);

		conf.set("hbase.zookeeper.property.clientPort", port);

		try {

			hConn = HConnectionManager.createConnection(conf);

		} catch (IOException e) {

			// TODO Auto-generated catch block

			e.printStackTrace();

		}

	}

	public static void main(String[] args) throws Exception {

		// TODO Auto-generated method stub

		HbaseUtil(rootdir, zkServer, port);

		Job job = new Job(conf, "ExampleSummary");

		job.setJarByClass(SummaryMain.class); // class that contains mapper and

												// reducer

		Scan scan = new Scan();

		scan.setCaching(500); // 1 is the default in Scan, which will be bad for

								// MapReduce jobs

		scan.setCacheBlocks(false); // don't set to true for MR jobs

		// set other scan attrs

		TableMapReduceUtil.initTableMapperJob("score", // input table

				scan, // Scan instance to control CF and attribute selection

				SummaryMapper.class, // mapper class

				Text.class, // mapper output key

				IntWritable.class, // mapper output value

				job);

		TableMapReduceUtil.initTableReducerJob("test", // output table

				SummaryReducer.class, // reducer class

				job);

		job.setNumReduceTasks(1); // at least one, adjust as required

		boolean b = job.waitForCompletion(true);

		if (!b) {

			throw new IOException("error with job!");

		}

	}

}

HBase with MapReduce （Summary）的更多相关文章

HBase with MapReduce （SummaryToFile）
上一篇文章是实现统计hbase单元值出现的个数,并将结果存放到hbase的表中,本文是将结果存放到hdfs上.其中的map实现与前文一直,连接:http://www.cnblogs.com/ljy20 ...
Hbase 技术细节笔记（上）
欢迎大家前往腾讯云技术社区,获取更多腾讯海量技术实践干货哦~ 作者:张秀云前言最近在跟进Hbase的相关工作,由于之前对Hbase并不怎么了解,因此系统地学习了下Hbase,为了加深对Hbase的 ...
深入HBase架构解析（二）【转】
转自:http://www.blogjava.net/DLevin/archive/2015/08/22/426950.html 前言这是<深入HBase架构解析(一)>的续,不多废话, ...
[转]毕设- 深入HBase架构解析（二）
深入HBase架构解析(二) 前言这是<深入HBase架构解析(一)>的续,不多废话,继续.... HBase读的实现通过前文的描述,我们知道在HBase写时,相同Cell(RowKe ...
HBase框架基础（四）
* HBase框架基础(四) 上一节我们介绍了如何使用HBase搞一些MapReduce小程序,其主要作用呢是可以做一些数据清洗和分析或者导入数据的工作,这一节我们来介绍如何使用HBase与其他框架进 ...
HBase框架基础（三）
* HBase框架基础(三) 本节我们继续讨论HBase的一些开发常识,以及HBase与其他框架协调使用的方式.在开始之前,为了框架之间更好的适配,以及复习之前HBase的配置操作,请使用cdh版本的 ...
HBase框架基础（一）
* HBase框架基础(一) 官方网址:http://hbase.apache.org/ * HBase是什么妖怪? 要解释HBase,我们就先说一说经常接触到的RDBMS,即关系型数据库: ** m ...
HBase框架基础（二）
* HBase框架基础(二) 上一节我们了解了HBase的架构原理和模块组成,这一节我们先来聊一聊HBase的读写数据的过程. * HBase的读写流程及3个机制 HBase的读数据流程: 1.HRe ...
MapReduce（二）
MapReduce(二) mapreduce 将Text转化为对象进行处理数据. 根据一来说,将date,classname,name,subject,score变为对象属性我的数据是:是有重复的. ...

随机推荐

JS逗号运算符的用法详解
逗号运算符的用法详解注意: 一.由于目前正在功读JavaScript技术,所以这里拿JavaScript为例.你可以自己在PHP中试试. 二.JavaScript语法比较复杂,因此拿JavaScri ...
[充电][库]Zlib文件压缩和解压
原文链接: http://www.cnblogs.com/fairycao/archive/2009/12/09/1620414.html 开源代码:http://www.zlib.net/zlib使 ...
python : jquery实现左侧菜单
左侧菜单 <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3 ...
RAM与ROM
随着对计算机行业的深入了解,很多人开始听到一些RAM和ROM的讨论话题,之前我也不是很清楚,也不知道他和电脑的内存有什么联系.下面就让我们一起来学习一下这个吧. 首先RAM和ROM是什么 RAM和RO ...
华东交通大学2016年ACM“双基”程序设计竞赛 1008
Problem Description halfyarn找你写个简单的题?好哒!给你n个整数,现在要求你选择两个位置的数,例如选择第pos_a个数a,和第pos_b个数b,给定ans=min(a,b) ...
SQL GROUP BY 后排序
由于GROUP BY 使用Sum函数后 ID等唯一值就无法查询出来了,所以想按照ID排序也就不可以了. 这时可以使用一个MIN 或者MAX函数来取得一个最小或者最大的ID 这样就可以实现以其中一条ID ...
使用servlet实现用户注册功能
<%@ page language="java" contentType="text/html; charset=UTF-8" pageEncoding= ...
Java 中文字符串编码之GBK转UTF-8
写过两篇关于编码的文章了,以为自己比较了解编码了呢?! 结果今天又结结实实的上了一课. 以前转来转去解决的问题终归还是简单的情形.即iso-8859-1转utf-8,或者iso-8859-1转gbk, ...
hosts代理
hosts代理文件:C:\Windows\System32\drivers\etc\HOSTS 内容如下: # Copyright (c) -, racaljk. # https://github.c ...
超越线程池：Java并发并没有你想的那么糟糕
转载: 超越线程池:Java并发并没有你想的那么糟糕

HBase with MapReduce （Summary）

HBase with MapReduce （Summary）的更多相关文章

随机推荐

热门专题