MapReduce之自定义OutputFormat

OutputFormat接口实现类
自定义OutputFormat使用场景及步骤
- 使用场景
自定义OutputFormat 案例实操

OutputFormat接口实现类

OutputFormat是MapReduce输出的基类，所有实现MapReduce输出都实现了OutputFormat接口。下面介绍几种常见的OutputFormat实现类。

文本输出TextoutputFormat

默认的输出格式是TextOutputFormat，它把每条记录写为文本行。它的键和值可以是任意类型，因为TextOutputFormat调用toString()方法把它们转换为字符串。
SequenceFileOutputFormat

将SecquenceFileOutputFormat输出作为后续MapReduce任务的输入，这便是一种好的输出格式，因为它的格式紧凑，很容易被压缩。
自定义OutputFormat

根据用户需求，自定义实现输出。

自定义OutputFormat使用场景及步骤

使用场景

为了实现控制最终文件的输出路径和输出格式，可以自定义OutputFormat。

例如：要在一个MapReduce程序中根据数据的不同输出两类结果到不同目录，这类灵活的输出需求可以通过自定义OutputFormat来实现。
自定义OutputFormat步骤

（1）自定义一个类继承FileOutputFormat。

（2）改写RecordWriter，具体改写输出数据的方法write()。

自定义OutputFormat 案例实操

需求

过滤输入的log日志，包含atguigu的网站输出到e:/atguigu.log，不包含atguigu的网站输出到e:/other.log。

输入数据

什么时候需要Reduce

①合并

②需要对数据排序

所以本案例不需要Reduce阶段，key-value不需要实现序列化

CustomOFMapper.java

public class CustomOFMapper extends Mapper<LongWritable, Text, String, NullWritable>{

	@Override

	protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, String, NullWritable>.Context context) throws IOException, InterruptedException {

		String content = value.toString();

		//value不需要，但是不能用Null这个关键字，要使用NullWritable对象

		context.write(content+"\r\n", NullWritable.get());

	}

}

MyOutPutFormat.java

public class MyOutPutFormat extends FileOutputFormat<String, NullWritable>{

	@Override

	public RecordWriter<String, NullWritable> getRecordWriter(TaskAttemptContext job)

			throws IOException, InterruptedException {

		return new MyRecordWriter(job);//传递job对象，才能在RecordWriter中获取配置

	}

}

MyRecordWriter.java

public class MyRecordWriter extends RecordWriter<String, NullWritable> {

	private Path atguiguPath=new Path("e:/atguigu.log");

	private Path otherPath=new Path("e:/other.log");

	private FSDataOutputStream atguguOS ;

	private FSDataOutputStream otherOS ;

	private FileSystem fs;

	private TaskAttemptContext context;

	public MyRecordWriter(TaskAttemptContext job) throws IOException {

			context=job;

			Configuration conf = job.getConfiguration();

			fs=FileSystem.get(conf);

			atguiguOS = fs.create(atguiguPath);

			otherOS = fs.create(otherPath);

	}

	// 将key-value写出到文件

	@Override

	public void write(String key, NullWritable value) throws IOException, InterruptedException {

		if (key.contains("atguigu")) {

			atguguOS.write(key.getBytes());//写到atguigu.log

			//统计输出的含有atguigu字符串的key-value个数

			context.getCounter("MyCounter", "atguiguCounter").increment(1);

		}else {

			otherOS.write(key.getBytes());//写到other.log

			context.getCounter("MyCounter", "otherCounter").increment(1);

		}

	}

	// 关闭流

	@Override

	public void close(TaskAttemptContext context) throws IOException, InterruptedException {

		if (atguguOS != null) {

			IOUtils.closeStream(atguguOS);

		}

		if (otherOS != null) {

			IOUtils.closeStream(otherOS);

		}

		if (fs != null) {

			fs.close();

		}

	}

}

CustomOFDriver.java

public class CustomOFDriver {

	public static void main(String[] args) throws Exception {

		Path inputPath=new Path("e:/mrinput/outputformat");

		Path outputPath=new Path("e:/mroutput/outputformat");

		//作为整个Job的配置

		Configuration conf = new Configuration();

		//保证输出目录不存在

		FileSystem fs=FileSystem.get(conf);

		if (fs.exists(outputPath)) {

			fs.delete(outputPath, true);

		}

		// ①创建Job

		Job job = Job.getInstance(conf);

		//重点，设置为自定义的输出格式

		job.setJarByClass(CustomOFDriver.class);

		// ②设置Job

		// 设置Job运行的Mapper，Reducer类型，Mapper,Reducer输出的key-value类型

		job.setMapperClass(CustomOFMapper.class);

		// 设置输入目录和输出目录

		FileInputFormat.setInputPaths(job, inputPath);

		FileOutputFormat.setOutputPath(job, outputPath);

		// 设置输入和输出格式

		job.setOutputFormatClass(MyOutPutFormat.class);

		// 取消reduce阶段。设置为0，默认为1

		job.setNumReduceTasks(0);

		// ③运行Job

		job.waitForCompletion(true);

	}

}

输出文件：

MapReduce之自定义OutputFormat的更多相关文章

第3节 mapreduce高级：7、自定义outputformat实现输出到不同的文件夹下面
2.1 需求现在有一些订单的评论数据,需求,将订单的好评与差评进行区分开来,将最终的数据分开到不同的文件夹下面去,数据内容参见资料文件夹,其中数据第九个字段表示好评,中评,差评.0:好评,1:中评, ...
Hadoop案例（五）过滤日志及自定义日志输出路径（自定义OutputFormat)
过滤日志及自定义日志输出路径(自定义OutputFormat) 1.需求分析过滤输入的log日志中是否包含xyg (1)包含xyg的网站输出到e:/xyg.log (2)不包含xyg的网站输出到e: ...
Hadoop_27_MapReduce_运营商原始日志增强(自定义OutputFormat)
1.需求: 现有一些原始日志需要做增强解析处理,流程: 1. 从原始日志文件中读取数据(日志文件:https://pan.baidu.com/s/12hbDvP7jMu9yE-oLZXvM_g) 2. ...
hadoop 自定义OutputFormat
1.继承FileOutputFormat,复写getRecordWriter方法 /** * @Description:自定义outputFormat,输出数据到不同的文件 */ public cla ...
关于spark写入文件至文件系统并制定文件名之自定义outputFormat
引言: spark项目中通常我们需要将我们处理之后数据保存到文件中,比如将处理之后的RDD保存到hdfs上指定的目录中,亦或是保存在本地 spark保存文件: 1.rdd.saveAsTextFile ...
关于MapReduce中自定义分区类（四）
MapTask类在MapTask类中找到run函数 if(useNewApi){ runNewMapper(job, splitMetaInfo, umbilical, reporter ...
关于MapReduce中自定义分组类（三）
Job类 /** * Define the comparator that controls which keys are grouped together * for a single ...
关于MapReduce中自定义带比较key类、比较器类（二）——初学者从源码查看其原理
Job类 /** * Define the comparator that controls * how the keys are sorted before they * are pa ...
关于MapReduce中自定义Combine类（一）
MRJobConfig public static fina COMBINE_CLASS_ATTR 属性COMBINE_CLASS_ATTR = "mapreduce.j ...

随机推荐

SQLAlchemy（一)：SQLAlchemy去连接数据库、ORM介绍、将ORM模型映射到数据库中
SQLAlchemy01 /SQLAlchemy去连接数据库.ORM介绍.将ORM模型映射到数据库中目录 SQLAlchemy01 /SQLAlchemy去连接数据库.ORM介绍.将ORM模型映射到 ...
前端04 /css样式
前端04 /css样式目录前端04 /css样式昨日内容回顾 css引入选择器基础选择器组合选择器属性选择器伪类选择器伪元素选择器优先级(权重) 通用选择器 css样式 1高度宽度 ...
数据可视化之PowerQuery篇（十五）如何使用Power BI计算新客户数量？
https://zhuanlan.zhihu.com/p/65119988 每个企业的经营活动都是围绕着客户而开展的,在服务好老客户的同时,不断开拓新客户是每个企业的经营目标之一. 开拓新客户必然要付 ...
Firefox 底部多出了一个白条
如图所示下方多了个白条 html{ font-size:0px; }
软件测试工程师入门——Linux【使用说明书】
先来说一下linux是什么? linux 是一个开源.免费的操作系统,其稳定性.安全性.处理多并发已经得到业界的认可,目前很多中性,大型甚至是巨型项目都在使用linux. linux 内核:redha ...
sqlserver——merge用法
merge集插入,更新,删除于一体,如果要对一个表同时进行插入,更新,删除2个或3三个操作.效率要高于单个操作. merge into tableb b --被操作表using (select id, ...
java文件导出过程 CS、BS差别
最近在做一个需求,类似和navicat工具差不多的,通过java代码吧数据库表的数据导出来.jdbc获取数据库连接,查询表数据,分批次用流写入文件txt.csv.json.xls.xlsx,搞定之后, ...
CSMA/CD ，现在的交换式以太网还用吗？谈全双工，半双工与CSMA/CD的关系
我们知道:以太网访问控制用的是CSMA/CD,即载波侦听多点接入/ 冲突检测,是以广播的方式将数据发送到所有端口: 我们还知道:交换机能主动学习端口所接设备的MAC地址,在获知该端口的MAC 地址后, ...
自动化不知如何参数化（二）？xlrd来帮你解决
在昨天的博文中介绍了普通单元格数据的获取,以及单元格数据类型的转换,详细见博文:自动化不知如何参数化(一)?xlrd来帮你解决. 昨天的那篇博文中,还有个获取合并单元格数据的问题没解决,今天就专门来讲 ...
Python环境那点儿事（Windows篇）
Python环境配置那点儿事(Windows篇) 版本选择 (根据你的开发经验选择合适版) 适当版2.7 适当版3.6 适当版3.7 下载链接:python.org 安装正规的Windows10操作 ...