hadoop 自定义OutputFormat

1、继承FileOutputFormat，复写getRecordWriter方法

/**

 * @Description:自定义outputFormat，输出数据到不同的文件

 */

public class FilterOutputFormat extends FileOutputFormat<Text, NullWritable> {

    @Override

    public RecordWriter<Text, NullWritable> getRecordWriter(TaskAttemptContext job) throws IOException, InterruptedException {

        return new FRecordWriter(job);

    }

}

2、实现RecordWriter

/**

 * @Description: 继承RecordWriter，实现数据输出到不同目录文件

 */

public class FRecordWriter extends RecordWriter<Text, NullWritable> {

    FSDataOutputStream out1 = null;

    FSDataOutputStream out2 = null;

    @Override

    public void write(Text key, NullWritable value) throws IOException, InterruptedException {

        // 判断是否包含“baidu”和"alibaba"字符串,输出到不同文件

        if (key.toString().contains("baidu") || key.toString().contains("alibaba")) {

            out1.write(key.toString().getBytes());

        } else {

            out2.write(key.toString().getBytes());

        }

    }

    @Override

    public void close(TaskAttemptContext context) throws IOException, InterruptedException {

        IOUtils.closeStream(out1);

        IOUtils.closeStream(out2);

    }

    public FRecordWriter(TaskAttemptContext job) {

        FileSystem fs;

        try {

            Path path1 = new Path("output1/a.log");

            Path path2 = new Path("output2/b.log");

            System.out.println(path1.getName());

            System.out.println(path2.getName());

            fs = FileSystem.get(job.getConfiguration());

            out1 = fs.create(path1);

            out2 = fs.create(path2);

        }catch (Exception e){

            e.printStackTrace();

        }

    }

}

3、map

/**

 * @Description: 按行读取，按行写入

 */

public class FilterMapper extends Mapper<LongWritable, Text, Text, NullWritable> {

    @Override

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        context.write(value,NullWritable.get());

    }

}

4、reducer

public class FilterReducer extends Reducer<Text, NullWritable,Text,NullWritable> {

    private Text newLine = new Text();

    @Override

    protected void reduce(Text key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException {

        //循环null值的values是防止key里有重复的数据没有被取出

        //Iterable<NullWritable> values迭代器里存储了key和value（虽然本例中value都是null值）

        //通过循环迭代器，迭代器里的key值也会被不断取出赋值到Text key中（公用内存地址）

        for (NullWritable value : values) {

            newLine.set(key.toString()+"\r\n");

            context.write(newLine,value);

        }

    }

}

5、driver

/**

 * @Description: 自定义输出

 * 实现对样本按行分割，判断是否包含baidu或alibaba字符串，

 * 包含则写入目录1，不包含写入目录2，

 */

public class FilterDriver {

   public static void main(String args[]) throws Exception{

       if(args.length!=2)

       {

           System.err.println("使用格式：FilterDriver <input path> <output path>");

           System.exit(-1);

       }

       Configuration conf = new Configuration();

       Job job = Job.getInstance(conf);

       job.setJarByClass(FilterDriver.class);

       job.setMapperClass(FilterMapper.class);

       job.setReducerClass(FilterReducer.class);

       job.setMapOutputKeyClass(Text .class);

       job.setMapOutputValueClass(NullWritable .class);

       job.setOutputKeyClass(Text.class);

       job.setOutputValueClass(NullWritable.class);

       // 要将自定义的输出格式组件设置到job中

       job.setOutputFormatClass(FilterOutputFormat.class);

       FileInputFormat.setInputPaths(job, new Path(args[0]));

       // 虽然我们自定义了outputformat，但是因为我们的outputformat继承自fileoutputformat

       // 而fileoutputformat要输出一个_SUCCESS文件，所以，在这还得指定一个输出目录

       FileOutputFormat.setOutputPath(job, new Path(args[1]));

       Path outPath = new Path(args[1]);

       FileSystem fs = FileSystem.get(conf);

       if(fs.exists(outPath)){

           fs.delete(outPath,true);

       }

       boolean result = job.waitForCompletion(true);

       System.exit(result ? 0 : 1);

   }

}

hadoop 自定义OutputFormat的更多相关文章

[Hadoop] - 自定义Mapreduce InputFormat&OutputFormat
在MR程序的开发过程中,经常会遇到输入数据不是HDFS或者数据输出目的地不是HDFS的,MapReduce的设计已经考虑到这种情况,它为我们提供了两个组建,只需要我们自定义适合的InputFormat ...
Hadoop案例（五）过滤日志及自定义日志输出路径（自定义OutputFormat)
过滤日志及自定义日志输出路径(自定义OutputFormat) 1.需求分析过滤输入的log日志中是否包含xyg (1)包含xyg的网站输出到e:/xyg.log (2)不包含xyg的网站输出到e: ...
Hadoop_27_MapReduce_运营商原始日志增强(自定义OutputFormat)
1.需求: 现有一些原始日志需要做增强解析处理,流程: 1. 从原始日志文件中读取数据(日志文件:https://pan.baidu.com/s/12hbDvP7jMu9yE-oLZXvM_g) 2. ...
Hadoop自定义类型处理手机上网日志
job提交源码分析在eclipse中的写的代码如何提交作业到JobTracker中的哪?(1)在eclipse中调用的job.waitForCompletion(true)实际上执行如下方法 con ...
第3节 mapreduce高级：7、自定义outputformat实现输出到不同的文件夹下面
2.1 需求现在有一些订单的评论数据,需求,将订单的好评与差评进行区分开来,将最终的数据分开到不同的文件夹下面去,数据内容参见资料文件夹,其中数据第九个字段表示好评,中评,差评.0:好评,1:中评, ...
MapReduce之自定义OutputFormat
@ 目录 OutputFormat接口实现类自定义OutputFormat使用场景及步骤使用场景自定义OutputFormat 案例实操 OutputFormat接口实现类 OutputForm ...
关于spark写入文件至文件系统并制定文件名之自定义outputFormat
引言: spark项目中通常我们需要将我们处理之后数据保存到文件中,比如将处理之后的RDD保存到hdfs上指定的目录中,亦或是保存在本地 spark保存文件: 1.rdd.saveAsTextFile ...
Hadoop自定义分组Group
matadata: hadoop a spark a hive a hbase a tachyon a storm a redis a 自定义分组 import org.apache.hadoop.c ...
Hadoop日记Day13---使用hadoop自定义类型处理手机上网日志
测试数据的下载地址为:http://pan.baidu.com/s/1gdgSn6r 一.文件分析首先可以用文本编辑器打开一个HTTP_20130313143750.dat的二进制文件,这个文件的内 ...

随机推荐

linux中vi和vim操作
一.简单介绍 vi 和 vim 类似于windows的文本编辑器所有的Linux系统都会内置vi文本编辑器 vim可以看做是vi增强版,具有程序编辑能力,支持语法高亮,代码补全,编译及错误跳转等功能 ...
【React Native】在原生和React Native间通信（RN调用原生）
一.从React Native中调用原生方法(原生模块) 原生模块是JS中也可以使用的Objective-C类.一般来说这样的每一个模块的实例都是在每一次通过JS bridge通信时创建的.他们可以导 ...
关于ImageView的几个常见问题
版权声明:本文为xing_star原创文章,转载请注明出处! 本文同步自http://javaexception.com/archives/173 最近几天碰到了ImageView的backgroun ...
关于discuz的fap.php 漏洞问题
discuz后台SQL注入漏洞 discuz的/faq.php的$action == 'grouppermission'处理逻辑中,对$gids未进行初始化,黑客可通过构造特殊HTTP请求借助变量覆盖 ...
ABP入门教程3 - 解决方案
点这里进入ABP入门教程目录创建项目点这里进入ABP启动模板如图操作,我们先生成一个基于.NET Core的MPA(多页面应用)．点击"Create my project!" ...
gdisk分区及swap分区
gdisk分区及swap分区 gdisk分区,分区表是GPT,支持更大的分区,128G gdisk分区一,添加硬盘二,分区 1,安装gdisk [root@oldboy ~]# yum insta ...
Django模版中加载静态文件配置详解
.settings.INSTALLED_APPS下添加:django.contrib.staticfiles .settings.py下添加:STATIC_URL = '/static/' . ()在 ...
Python语法速查： 1. 数据类型与内置函数
返回目录 (1)常用内置数据类型分类类型名称描述数字 int 整数 float 浮点数 complex 复数 bool 布尔值序列 str 字符串(不可变序列) list 列表 tuple ...
itest(爱测试) 4.2.1 发布，开源BUG 跟踪管理 & 敏捷测试管理软件
itest 入选 2019 年度最受欢迎开源中国软件开源工具的发展,离不开你我的支持,需要您投上宝贵的一票去投票 itest 简介:查看简介 itest 开源敏捷测试管理,testOps 践行者 ...
MYSQL的备份与恢复--逻辑备份mysqldump
目录 0.备份与恢复概述 1.逻辑备份-完整备份与恢复 2.逻辑备份-增量备份与恢复 (1)环境准备 (2)恢复全量数据 (3)恢复增量备份 3.新来的开发妹子删了库! (1)模拟环境准备 (2)全备 ...

hadoop 自定义OutputFormat

hadoop 自定义OutputFormat的更多相关文章

随机推荐

热门专题