MapReduce-读取HBase

MapReduce读取HBase数据

代码如下

package com.hbase.mapreduce;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.hbase.Cell;

import org.apache.hadoop.hbase.CellUtil;

import org.apache.hadoop.hbase.HBaseConfiguration;

import org.apache.hadoop.hbase.KeyValue;

import org.apache.hadoop.hbase.client.Result;

import org.apache.hadoop.hbase.client.Scan;

import org.apache.hadoop.hbase.io.ImmutableBytesWritable;

import org.apache.hadoop.hbase.mapreduce.TableInputFormat;

import org.apache.hadoop.hbase.mapreduce.TableMapper;

import org.apache.hadoop.hbase.util.Bytes;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

/**

* @author:FengZhen

* @create:2018年9月17日

* MapReduce读取HBase中数据

*/

public class AnalyzeData extends Configured implements Tool{

	private static String addr="HDP233,HDP232,HDP231";

	private static String port="2181";

	public enum Counters { ROWS, COLS, VALID, ERROR }

	static class AnalyzeMapper extends TableMapper<Text, IntWritable>{

		private IntWritable ONE = new IntWritable(1);

		@Override

		protected void map(ImmutableBytesWritable key, Result value,

				Mapper<ImmutableBytesWritable, Result, Text, IntWritable>.Context context)

				throws IOException, InterruptedException {

			context.getCounter(Counters.ROWS).increment(1);

			try {

				for (Cell cell : value.listCells()) {

					context.getCounter(Counters.COLS).increment(1);

					String hbaseValue = Bytes.toString(CellUtil.cloneValue(cell));

					context.write(new Text(hbaseValue), ONE);

					context.getCounter(Counters.VALID).increment(1);

				}

			} catch (Exception e) {

				e.printStackTrace();

				context.getCounter(Counters.ERROR).increment(1);

			}

		}

	}

	static class AnalyzeReducer extends Reducer<Text, IntWritable, Text, IntWritable>{

		@Override

		protected void reduce(Text key, Iterable<IntWritable> values,

				Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {

			int count = 0;

			for (IntWritable intWritable : values) {

				count = count + intWritable.get();

			}

			context.write(key, new IntWritable(count));

		}

	}

	public int run(String[] arg0) throws Exception {

		String table = arg0[0];

		String column = arg0[1];

		String outPath = arg0[2];

		Scan scan = new Scan();

		if (null != column) {

			byte[][] colkey = KeyValue.parseColumn(Bytes.toBytes(column));

			if (colkey.length > 1) {

				scan.addColumn(colkey[0], colkey[1]);

			}else {

				scan.addFamily(colkey[0]);

			}

		}

		Configuration configuration = HBaseConfiguration.create();

		configuration.set("hbase.zookeeper.quorum",addr);

		configuration.set("hbase.zookeeper.property.clientPort", port);

		configuration.set(TableInputFormat.INPUT_TABLE, table);

		Job job = Job.getInstance(configuration);

		job.setJobName("AnalyzeData");

		job.setJarByClass(AnalyzeData.class);

		job.setMapperClass(AnalyzeMapper.class);

		job.setInputFormatClass(TableInputFormat.class);

		TableInputFormat.addColumns(scan, KeyValue.parseColumn(Bytes.toBytes(column)));

		job.setMapOutputKeyClass(Text.class);

		job.setMapOutputValueClass(IntWritable.class);

		//使用TableMapReduceUtil会报类找不到错误

		//Caused by: java.lang.ClassNotFoundException: com.yammer.metrics.core.MetricsRegistry

		//TableMapReduceUtil.initTableMapperJob(table, scan, AnalyzeMapper.class, Text.class, IntWritable.class, job);

		job.setReducerClass(AnalyzeReducer.class);

		job.setOutputKeyClass(Text.class);

		job.setOutputValueClass(IntWritable.class);

		job.setNumReduceTasks(1);

		FileOutputFormat.setOutputPath(job, new Path(outPath));

		return job.waitForCompletion(true) ? 0 : 1;

	}

	public static void main(String[] args) throws Exception {

		String[] params = new String[] {"test_table_mr","data:info","hdfs://fz/data/fz/output/mrReadHBase"};

		int exitCode = ToolRunner.run(new AnalyzeData(), params);

		System.exit(exitCode);

	}

}

MapReduce-读取HBase的更多相关文章

使用MapReduce读取HBase数据存储到MySQL
Mapper读取HBase数据 package MapReduce; import org.apache.hadoop.hbase.Cell; import org.apache.hadoop.hba ...
Mapreduce读取Hbase表，写数据到一个Hbase表中
public class LabelJob { public static void main(String[] args) throws Exception { Job job = Job.getI ...
Mapreduce读取Hbase表，写数据到多个Hbase表中
Job端的变化: 通过设置conf,配置输出表,在reduce中获取输出表名字 Configuration conf = job.getConfiguration(); //输出表1 conf.set ...
深入浅出Hadoop实战开发(HDFS实战图片、MapReduce、HBase实战微博、Hive应用)
Hadoop是什么,为什么要学习Hadoop? Hadoop是一个分布式系统基础架构,由Apache基金会开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力高速运 ...
Mapreduce操作HBase
这个操作和普通的Mapreduce还不太一样,比如普通的Mapreduce输入可以是txt文件等,Mapreduce可以直接读取Hive中的表的数据(能够看见是以类似txt文件形式),但Mapredu ...
Hbase理论&&hbase shell&&python操作hbase&&python通过mapreduce操作hbase
一.Hbase搭建: 二.理论知识介绍: 1Hbase介绍: Hbase是分布式.面向列的开源数据库(其实准确的说是面向列族).HDFS为Hbase提供可靠的底层数据存储服务,MapReduce为Hb ...
Hbase框架原理及相关的知识点理解、Hbase访问MapReduce、Hbase访问Java API、Hbase shell及Hbase性能优化总结
转自:http://blog.csdn.net/zhongwen7710/article/details/39577431 本blog的内容包含: 第一部分:Hbase框架原理理解第二部分:Hbas ...
HBase学习之路（五）MapReduce操作Hbase
MapReduce从HDFS读取数据存储到HBase中现有HDFS中有一个student.txt文件,格式如下 95002,刘晨,女,19,IS 95017,王风娟,女,18,IS 95018,王一 ...
Hbase第五章 MapReduce操作HBase
容易遇到的坑: 当用mapReducer操作HBase时,运行jar包的过程中如果遇到 java.lang.NoClassDefFoundError 类似的错误时,一般是由于hadoop环境没有hba ...
[How to] MapReduce on HBase ----- 简单二级索引的实现
1.简介 MapReduce计算框架是二代hadoop的YARN一部分,能够提供大数据量的平行批处理.MR只提供了基本的计算方法,之所以能够使用在不用的数据格式上包括HBase表上是因为特定格式上的数 ...

随机推荐

48、ViewFlow ---- 滑动广告页
 <?xml version="1.0" encoding="utf-8"?> <LinearL ...
js 日期加一天
经常在js 重要做时间加一的处理记录一下 ps:时间格式为:'2017-03-30' 一:源码: //时间加一天 function addDate(date, days) { if (days == ...
Apple 企业开发者账号申请记录
1.账号分类 Apple开发者账号分三种,个人,公司,还有企业.个人和公司都称为标准账号. 还有一种是教育机构的账号. 记录:申请日期2013年4月26,看申请周期多长. 个人和公司的就不说了,现在只 ...
CAS 源码编译
准备 :gradle idea 第一次用Idea 还是有点不熟悉呀,还是eclipse 顺手! 哈哈下载源码 :我的是4.2.7 解压导入idea 重点: 调试时候在写 .没时间
spark2.0.2基于hadoop2.4搭建分布式集群
一.Scala安装因为spark的版本原因,所以Scala我用的2.11.7. 下载目录http://www.scala-lang.org/download/ 拷贝到要安装的地址,我的地址是/usr ...
docker desktop
https://github.com/rogaha/docker-desktop http://blog.csdn.net/tinylab/article/details/45443563
JavaScript数据结构与算法-散列练习
散列的实现 // 散列类 - 线性探测法 function HashTable () { this.table = new Array(137); this.values = []; this.sim ...
VM安装之分区、自定义安装包
一.分区 1.一般分为3个区:/root .swap./ 1)./root:引导分区.存放引导文件和Linux内核等. 启动文件:用于判断你需要启动哪个操作系统或者哪个内核: 内核:程序与硬件之间的桥 ...
poj 1012 & hdu 1443 Joseph（约瑟夫环变形）
题目链接: POJ 1012: id=1012">http://poj.org/problem?id=1012 HDU 1443: pid=1443">http:// ...
021-Spring Boot 测试，Junit方式使用，mock方式，Controller测试
一.概述二.Junit方式使用 2.1.基本使用 eclipse在新建的类上,右键→new→Junit Test Case,修改一下Source folder,选择src/test/java,下一步 ...

MapReduce-读取HBase

MapReduce读取HBase数据

代码如下

MapReduce-读取HBase的更多相关文章

随机推荐

热门专题