hadoop拾遗（五）---- mapreduce 输出到多个文件 / 文件夹

今天要把HBase中的部分数据转移到HDFS上，想根据时间戳来自动输出到以时间戳来命名的每个文件夹下。虽然以前也做过相似工作，但有些细节还是忘记了，所以这次写个随笔记录一下。

package com.chuntent.hadoop;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.hbase.HBaseConfiguration;

import org.apache.hadoop.hbase.client.Result;

import org.apache.hadoop.hbase.client.Scan;

import org.apache.hadoop.hbase.io.ImmutableBytesWritable;

import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;

import org.apache.hadoop.hbase.mapreduce.TableMapper;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.mapreduce.lib.output.MultipleOutputs;

import org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat;

import org.apache.hadoop.util.GenericOptionsParser;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

import com.chuntent.tool.HBaseTool;

import com.chuntent.tool.StringTool;

import com.chuntent.tool.bean.DataRecord;

public class CopyOfGetDataFromHBase4Phrase extends Configured implements Tool{

    /**

     * TableMapper<Text,IntWritable>  Text:输出的key类型，IntWritable：输出的value类型

     */

    public static class MyMapper extends TableMapper<Text,Text>{

        @Override

        protected void map(ImmutableBytesWritable key, Result value,

                Context context)

                throws IOException, InterruptedException {           

        	DataRecord dr = new DataRecord(value);

        	context.write(new Text(key.get()), new Text(dr.toString().replaceAll("\r|\n", "")));

        }

    }

	public static class ReduceByStamp extends Reducer<Text, Text, Text, Text> {

		private MultipleOutputs<Text, Text> mos;

		@Override

		protected void setup(Context context) throws IOException,

				InterruptedException {

			mos = new MultipleOutputs<Text, Text>(context);

		}

		public void reduce(Text key, Iterable<Text> values,

				Context context) throws IOException, InterruptedException {

			for(Text text : values){

				mos.write(key, text, getName(key.toString()));

				context.getCounter("data", "num").increment(1);

			}

		}

		public String getName(String stamp){

			//返回文件夹的名称

			return StringTool.getDateFromRowKey(stamp) + "/";

		}

		@Override

		protected void cleanup(Context context) throws IOException,

				InterruptedException {

			// 流操作必须有,否则在数据量小的情况,数据全部停留在缓冲区中

			mos.close();

		}

	}

    @Override

    public int run(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

        Configuration conf = HBaseConfiguration.create(HBaseTool.getConfig());

        conf.set("mapred.reduce.slowstart.completed.maps", "0.99");

        Job job = new Job(conf,"Move Data");

        job.setJarByClass(CopyOfGetDataFromHBase4Phrase.class);

        job.setOutputFormatClass(SequenceFileOutputFormat.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(Text.class);

        job.setReducerClass(ReduceByStamp.class);

        job.setNumReduceTasks(1);

        Scan scan = new Scan();

        //指定Mapper读取的表为word

        TableMapReduceUtil.initTableMapperJob("news", scan, MyMapper.class, Text.class, Text.class, job);

        Path output = new Path(args[2]);

        FileOutputFormat.setOutputPath(job, output);

        FileSystem fs = FileSystem.get(getConf());

		if (fs.exists(output))

			fs.delete(output, true);

        job.waitForCompletion(true);

		return job.isSuccessful() ? 0 : 1;

    }

    public static void main(String [] args){

    	try{

	    	Configuration conf = new Configuration();

//	    	conf.set(name, value);

			String[] otheragrs = new GenericOptionsParser(conf, args)

					.getRemainingArgs();

			int result = ToolRunner.run(conf, new CopyOfGetDataFromHBase4Phrase(), otheragrs);

			System.exit(result);

    	}catch(Exception e){

    		e.printStackTrace();

    	}

    }

}

hadoop拾遗（五）---- mapreduce 输出到多个文件 / 文件夹的更多相关文章

从Hadoop框架与MapReduce模式中谈海量数据处理（含淘宝技术架构） (转)
转自:http://blog.csdn.net/v_july_v/article/details/6704077 从hadoop框架与MapReduce模式中谈海量数据处理前言几周前,当我最初听到 ...
Hadoop学习之Mapreduce执行过程详解
一.MapReduce执行过程 MapReduce运行时,首先通过Map读取HDFS中的数据,然后经过拆分,将每个文件中的每行数据分拆成键值对,最后输出作为Reduce的输入,大体执行流程如下图所示: ...
每天收获一点点------Hadoop之初始MapReduce
一.神马是高大上的MapReduce MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算.对于大数据量的计算,通常采用的处理手法就是并行计算.但对许多开发者来 ...
hadoop系列三:mapreduce的使用(一)
转载请在页首明显处注明作者与出处 http://www.cnblogs.com/zhuxiaojie/p/7224772.html 一:说明此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的 ...
hadoop系列四:mapreduce的使用(二)
转载请在页首明显处注明作者与出处一:说明此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的一些内容,如hadoop,spark,storm,机器学习等. 当前使用的hadoop版本为2.6 ...
马士兵hadoop第五课：java开发Map/Reduce
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...
马士兵hadoop第五课：java开发Map/Reduce（转）
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...
hadoop学习(七)----mapReduce原理以及操作过程
前面我们使用HDFS进行了相关的操作,也了解了HDFS的原理和机制,有了分布式文件系统我们如何去处理文件呢,这就的提到hadoop的第二个组成部分-MapReduce. MapReduce充分借鉴了分 ...
Hadoop 中利用 mapreduce 读写 mysql 数据
Hadoop 中利用 mapreduce 读写 mysql 数据有时候我们在项目中会遇到输入结果集很大,但是输出结果很小,比如一些 pv.uv 数据,然后为了实时查询的需求,或者一些 OLAP ...
Hadoop实战3:MapReduce编程-WordCount统计单词个数-eclipse-java-ubuntu环境
之前习惯用hadoop streaming环境编写python程序,下面总结编辑java的eclipse环境配置总结,及一个WordCount例子运行. 一下载eclipse安装包及hadoop插件 ...

随机推荐

GITHUB 提交错误 Error: Permission denied (publickey) 解决
1. 在开发机上生成自己的密钥 ssh-keygen -b 1024 -t rsa -b 指密钥对长度 -t 指加密方式 Enter file in which to save the key ( ...
Android修改system只读权限
在Root后的真机上使用adb remount命令不知道为什么不行. 但有些时候还是想向system文件夹下面写文件,例如把tcpdump工具放到/system/bin 下面,然后就可以直接使用tcp ...
ORA-1653: unable to extend table SYS.AUD$
今早运维组的同事反映有个系统功能很多地方都报错,怀疑是不是数据库有什么问题.于是登录数据库检查,通过crsctl status res -t检查,发现所有集群资源都是OK的,没有哪个资源挂掉了.于是到 ...
0x04 高级语法
while-endw .while(条件) 循环体(条件满足时执行) .endw repeat-until .repeat 循环体(条件不满足时执行) .until(条件) if-elseif-end ...
标签跳转break和continue
标签是后面跟有冒号的标识符,例如 label1: 在java中,标签起作用的唯一的地方刚好是在迭代语句之前. “刚好之前”的意思表明,在标签和迭代之间置入热和语句都不好. 而在迭代之前设置标签的唯一 ...
javascript之六种数据类型以及特殊注意点
在js中常见的六种数据类型:String类型.Null类型.Number类型.Boolean类型.Object类型. 1.typeof的注意点涉及到数据类型,不免会提到,操作符 typeof.要注意 ...
How to avoid C# console applications from closing automatically.
One way is to interop it with msvcrt.dll You can pinvoke this C function into your C# application. T ...
unable to start within 45 seconds. If the server requires more time, try increasing the timeout in the server editor
eclipse启动项目时,提示超时: 解决方案: 修改 workspace\.metadata\.plugins\org.eclipse.wst.server.core\servers.xml文件. ...
hdoj 2204 Eddy's爱好
原文链接:http://www.cnblogs.com/DrunBee/archive/2012/09/05/2672546.html 题意:给你一个正整数N,确定在1到N之间有多少个可以表示成M^K ...
POJ 3126 Prime Path(BFS求“最短路”)
题意:给出两个四位数的素数,按如下规则变换,使得将第一位数变换成第二位数的花费最少,输出最少值,否则输出0. 每次只能变换四位数的其中一位数,使得变换后的数也为素数,每次变换都需要1英镑(即使换上的数 ...

hadoop拾遗（五）---- mapreduce 输出到多个文件 / 文件夹

hadoop拾遗（五）---- mapreduce 输出到多个文件 / 文件夹的更多相关文章

随机推荐

热门专题