hadoop拾遗（五）---- mapreduce 输出到多个文件 / 文件夹

今天要把HBase中的部分数据转移到HDFS上，想根据时间戳来自动输出到以时间戳来命名的每个文件夹下。虽然以前也做过相似工作，但有些细节还是忘记了，所以这次写个随笔记录一下。

package com.chuntent.hadoop;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.hbase.HBaseConfiguration;

import org.apache.hadoop.hbase.client.Result;

import org.apache.hadoop.hbase.client.Scan;

import org.apache.hadoop.hbase.io.ImmutableBytesWritable;

import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;

import org.apache.hadoop.hbase.mapreduce.TableMapper;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.mapreduce.lib.output.MultipleOutputs;

import org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat;

import org.apache.hadoop.util.GenericOptionsParser;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

import com.chuntent.tool.HBaseTool;

import com.chuntent.tool.StringTool;

import com.chuntent.tool.bean.DataRecord;

public class CopyOfGetDataFromHBase4Phrase extends Configured implements Tool{

    /**

     * TableMapper<Text,IntWritable>  Text:输出的key类型，IntWritable：输出的value类型

     */

    public static class MyMapper extends TableMapper<Text,Text>{

        @Override

        protected void map(ImmutableBytesWritable key, Result value,

                Context context)

                throws IOException, InterruptedException {           

        	DataRecord dr = new DataRecord(value);

        	context.write(new Text(key.get()), new Text(dr.toString().replaceAll("\r|\n", "")));

        }

    }

	public static class ReduceByStamp extends Reducer<Text, Text, Text, Text> {

		private MultipleOutputs<Text, Text> mos;

		@Override

		protected void setup(Context context) throws IOException,

				InterruptedException {

			mos = new MultipleOutputs<Text, Text>(context);

		}

		public void reduce(Text key, Iterable<Text> values,

				Context context) throws IOException, InterruptedException {

			for(Text text : values){

				mos.write(key, text, getName(key.toString()));

				context.getCounter("data", "num").increment(1);

			}

		}

		public String getName(String stamp){

			//返回文件夹的名称

			return StringTool.getDateFromRowKey(stamp) + "/";

		}

		@Override

		protected void cleanup(Context context) throws IOException,

				InterruptedException {

			// 流操作必须有,否则在数据量小的情况,数据全部停留在缓冲区中

			mos.close();

		}

	}

    @Override

    public int run(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

        Configuration conf = HBaseConfiguration.create(HBaseTool.getConfig());

        conf.set("mapred.reduce.slowstart.completed.maps", "0.99");

        Job job = new Job(conf,"Move Data");

        job.setJarByClass(CopyOfGetDataFromHBase4Phrase.class);

        job.setOutputFormatClass(SequenceFileOutputFormat.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(Text.class);

        job.setReducerClass(ReduceByStamp.class);

        job.setNumReduceTasks(1);

        Scan scan = new Scan();

        //指定Mapper读取的表为word

        TableMapReduceUtil.initTableMapperJob("news", scan, MyMapper.class, Text.class, Text.class, job);

        Path output = new Path(args[2]);

        FileOutputFormat.setOutputPath(job, output);

        FileSystem fs = FileSystem.get(getConf());

		if (fs.exists(output))

			fs.delete(output, true);

        job.waitForCompletion(true);

		return job.isSuccessful() ? 0 : 1;

    }

    public static void main(String [] args){

    	try{

	    	Configuration conf = new Configuration();

//	    	conf.set(name, value);

			String[] otheragrs = new GenericOptionsParser(conf, args)

					.getRemainingArgs();

			int result = ToolRunner.run(conf, new CopyOfGetDataFromHBase4Phrase(), otheragrs);

			System.exit(result);

    	}catch(Exception e){

    		e.printStackTrace();

    	}

    }

}

hadoop拾遗（五）---- mapreduce 输出到多个文件 / 文件夹的更多相关文章

从Hadoop框架与MapReduce模式中谈海量数据处理（含淘宝技术架构） (转)
转自:http://blog.csdn.net/v_july_v/article/details/6704077 从hadoop框架与MapReduce模式中谈海量数据处理前言几周前,当我最初听到 ...
Hadoop学习之Mapreduce执行过程详解
一.MapReduce执行过程 MapReduce运行时,首先通过Map读取HDFS中的数据,然后经过拆分,将每个文件中的每行数据分拆成键值对,最后输出作为Reduce的输入,大体执行流程如下图所示: ...
每天收获一点点------Hadoop之初始MapReduce
一.神马是高大上的MapReduce MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算.对于大数据量的计算,通常采用的处理手法就是并行计算.但对许多开发者来 ...
hadoop系列三:mapreduce的使用(一)
转载请在页首明显处注明作者与出处 http://www.cnblogs.com/zhuxiaojie/p/7224772.html 一:说明此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的 ...
hadoop系列四:mapreduce的使用(二)
转载请在页首明显处注明作者与出处一:说明此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的一些内容,如hadoop,spark,storm,机器学习等. 当前使用的hadoop版本为2.6 ...
马士兵hadoop第五课：java开发Map/Reduce
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...
马士兵hadoop第五课：java开发Map/Reduce（转）
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...
hadoop学习(七)----mapReduce原理以及操作过程
前面我们使用HDFS进行了相关的操作,也了解了HDFS的原理和机制,有了分布式文件系统我们如何去处理文件呢,这就的提到hadoop的第二个组成部分-MapReduce. MapReduce充分借鉴了分 ...
Hadoop 中利用 mapreduce 读写 mysql 数据
Hadoop 中利用 mapreduce 读写 mysql 数据有时候我们在项目中会遇到输入结果集很大,但是输出结果很小,比如一些 pv.uv 数据,然后为了实时查询的需求,或者一些 OLAP ...
Hadoop实战3:MapReduce编程-WordCount统计单词个数-eclipse-java-ubuntu环境
之前习惯用hadoop streaming环境编写python程序,下面总结编辑java的eclipse环境配置总结,及一个WordCount例子运行. 一下载eclipse安装包及hadoop插件 ...

随机推荐

http概述
HTTP是一个属于应用层的面向对象的协议,由于其简捷.快速的方式,适用于分布式超媒体信息系统.它于1990年提出,经过几年的使用与发展,得到不断地完善和扩展.目前在WWW中使用的是HTTP/1.0的第 ...
Ubuntu 14.04安装Chromium浏览器并添加Flash插件Pepper Flash Player
安装方法Ubuntu 14.04及衍生版本用户命令: 因为默认库里面有Chromium和Pepper Flash Player,安装非常容易,打开终端,输入以下命令: sudo apt-get upd ...
cookie、session的联系和区别，多台web服务器如何共享session？
cookie在客户端保存状态,session在服务器端保存状态.但是由于在服务器端保存状态的时候,在客户端也需要一个标识,所以session也可能要借助cookie来实现保存标识位的作用.cookie ...
dom4j增删改查
//dom4j添加内容,在第一本书上指定位置添加售价更改保存所有孩子list集合的顺序 @Test public void add1() throws Exception{ //读 SAXReade ...
C++中用辗转相除法求两个数的最大公约数和最小公倍数
两个数的最大公约数:不能大于两个数中的最小值,算法口诀:小的给大的,余数给小的,整除返回小的,即最大公约数,(res=max%min)==0? max=min,min=res return min; ...
CROSSTOOL-NG建立交叉编译工具链
CROSSTOOL-NG建立交叉编译工具链因为考试和学习的原因我已经一段时间没有玩我的JZ2440,现在终于考完试了,我再次找出了我的JZ2440.我之前学习的时候使用的是韦东山老师提供的开发工具, ...
1231: [Usaco2008 Nov]mixup2 混乱的奶牛 - BZOJ
Description 混乱的奶牛 [Don Piele, 2007] Farmer John的N(4 <= N <= 16)头奶牛中的每一头都有一个唯一的编号S_i (1 <= S ...
c++ 常用数据接口 set
#include <set> #include <iostream> #include <string> int main(void) { std::set< ...
linux进程管理之服务
init进程首先通过initable查看运行级别,然后运行rc.d下面的sysinit,然后调用rc,然后运行rc###连接到init.d下面的服务.自启动. chkconfig命令只是查看和设置服 ...
【机器学习】BP神经网络实现手写数字识别
最近用python写了一个实现手写数字识别的BP神经网络,BP的推导到处都是,但是一动手才知道,会理论推导跟实现它是两回事.关于BP神经网络的实现网上有一些代码,可惜或多或少都有各种问题,在下手写了一 ...

hadoop拾遗（五）---- mapreduce 输出到多个文件 / 文件夹

hadoop拾遗（五）---- mapreduce 输出到多个文件 / 文件夹的更多相关文章

随机推荐

热门专题