Hadoop案例（五）过滤日志及自定义日志输出路径（自定义OutputFormat)

过滤日志及自定义日志输出路径（自定义OutputFormat）

1.需求分析

过滤输入的log日志中是否包含xyg

（1）包含xyg的网站输出到e:/xyg.log

（2）不包含xyg的网站输出到e:/other.log

2.数据准备

http://www.baidu.com

http://www.google.com

http://cn.bing.com

http://www.xyg.com

http://www.sohu.com

http://www.sina.com

http://www.sin2a.com

http://www.sin2desa.com

http://www.sindsafa.com

log.txt

输出预期：

http://www.xyg.com

xyg.txt

http://cn.bing.com

http://www.baidu.com

http://www.google.com

http://www.sin2a.com

http://www.sin2desa.com

http://www.sina.com

http://www.sindsafa.com

http://www.sohu.com

other.txt

3.代码实现

（1）自定义一个outputformat

package com.xyg.mapreduce.outputformat;

import java.io.IOException;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.RecordWriter;

import org.apache.hadoop.mapreduce.TaskAttemptContext;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class FilterOutputFormat extends FileOutputFormat<Text, NullWritable>{

    @Override

    public RecordWriter<Text, NullWritable> getRecordWriter(TaskAttemptContext job) throws IOException, InterruptedException {

        // 创建一个RecordWriter

        return new FilterRecordWriter(job);

    }

}

（2）具体的写数据RecordWriter

package com.xyg.mapreduce.outputformat;

import java.io.IOException;

import org.apache.hadoop.fs.FSDataOutputStream;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.RecordWriter;

import org.apache.hadoop.mapreduce.TaskAttemptContext;

public class FilterRecordWriter extends RecordWriter<Text, NullWritable> {

    FSDataOutputStream atguiguOut = null;

    FSDataOutputStream otherOut = null;

    public FilterRecordWriter(TaskAttemptContext job) {

        // 1 获取文件系统

        FileSystem fs;

        try {

            fs = FileSystem.get(job.getConfiguration());

            // 2 创建输出文件路径

            Path atguiguPath = new Path("e:/xyg.log");

            Path otherPath = new Path("e:/other.log");

            // 3 创建输出流

            atguiguOut = fs.create(atguiguPath);

            otherOut = fs.create(otherPath);

        } catch (IOException e) {

            e.printStackTrace();

        }

    }

    @Override

    public void write(Text key, NullWritable value) throws IOException, InterruptedException {

        // 判断是否包含“xyg”输出到不同文件

        if (key.toString().contains("xyg")) {

            atguiguOut.write(key.toString().getBytes());

        } else {

            otherOut.write(key.toString().getBytes());

        }

    }

    @Override

    public void close(TaskAttemptContext context) throws IOException, InterruptedException {

        // 关闭资源

        if (atguiguOut != null) {

            atguiguOut.close();

        }

        if (otherOut != null) {

            otherOut.close();

        }

    }

}

（3）编写FilterMapper

package com.xyg.mapreduce.outputformat;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

public class FilterMapper extends Mapper<LongWritable, Text, Text, NullWritable>{

    Text k = new Text();

    @Override

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        // 1 获取一行

        String line = value.toString();

        k.set(line);

        // 3 写出

        context.write(k, NullWritable.get());

    }

}

（4）编写FilterReducer

package com.xyg.mapreduce.outputformat;

import java.io.IOException;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

public class FilterReducer extends Reducer<Text, NullWritable, Text, NullWritable> {

    @Override

    protected void reduce(Text key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException {

        String k = key.toString();

        k = k + "\r\n";

        context.write(new Text(k), NullWritable.get());

    }

}

（5）编写FilterDriver

package com.xyg.mapreduce.outputformat;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class FilterDriver {

    public static void main(String[] args) throws Exception {

        args = new String[] { "e:/inputoutputformat", "e:/output2" };

        Configuration conf = new Configuration();

        Job job = Job.getInstance(conf);

        job.setJarByClass(FilterDriver.class);

        job.setMapperClass(FilterMapper.class);

        job.setReducerClass(FilterReducer.class);

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(NullWritable.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(NullWritable.class);

        // 要将自定义的输出格式组件设置到job中

        job.setOutputFormatClass(FilterOutputFormat.class);

        FileInputFormat.setInputPaths(job, new Path(args[]));

        // 虽然我们自定义了outputformat，但是因为我们的outputformat继承自fileoutputformat

        // 而fileoutputformat要输出一个_SUCCESS文件，所以，在这还得指定一个输出目录

        FileOutputFormat.setOutputPath(job, new Path(args[]));

        boolean result = job.waitForCompletion(true);

        System.exit(result ?  : );

    }

}

Hadoop案例（五）过滤日志及自定义日志输出路径（自定义OutputFormat)的更多相关文章

Flink FileSink 自定义输出路径——StreamingFileSink、BucketingSink 和 StreamingFileSink简单比较
接上篇:Flink FileSink 自定义输出路径——BucketingSink 上篇使用BucketingSink 实现了自定义输出路径,现在来看看 StreamingFileSink( 据说是S ...
Hadoop案例（一）之日志清洗
日志清洗案例一. 简单解析版 1)需求去除日志中字段长度小于等于11的日志. 2)输入数据 /Sep/::: +] "-" "Mozilla/4.0 (compati ...
《手把手教你》系列基础篇（八十五）-java+ selenium自动化测试-框架设计基础-TestNG自定义日志-下篇（详解教程）
1.简介 TestNG为日志记录和报告提供的不同选项.现在,宏哥讲解分享如何开始使用它们.首先,我们将编写一个示例程序,在该程序中我们将使用 ITestListener方法进行日志记录. 2.Test ...
《手把手教你》系列基础篇（九十五）-java+ selenium自动化测试-框架之设计篇-java实现自定义日志输出（详解教程）
1.简介前面宏哥一连几篇介绍如何通过开源jar包Log4j.jar.log4j2.jar和logback实现日志文件输出,Log4j和logback确实很强大,能生成三种日志文件,一种是保存到磁盘的 ...
log4j分离日志输出自定义过滤自定义日志文件
普通的log4j.properties 定义: ### set log levels ### log4j.rootLogger = debug,D,E ## Disable other log log ...
ELK收集Nginx自定义日志格式输出
1.ELK收集日志的有两种常用的方式: 1.1:不修改源日志格式,简单的说就是在logstash中转通过 grok方式进行过滤处理,将原始无规则的日志转换为规则日志(Logstash自定义日志格式) ...
ATS配置自定义日志
修改records.config,开启日志自定义功能更改日志目录,默认日志存放在/var/log/trafficserver: CONFIG proxy.config.log.logfile_dir ...
SpringBoot系列（十三）统一日志处理，logback+slf4j AOP+自定义注解，走起！
往期精彩推荐 SpringBoot系列(一)idea新建Springboot项目 SpringBoot系列(二)入门知识 springBoot系列(三)配置文件详解 SpringBoot系列(四)we ...
Nginx日志配置及日志分析脚本案例
https://blog.csdn.net/bbwangj/article/details/82186162 nginx的log日志分为access log 和 error log 其中access ...

随机推荐

Winform中的Treeview动态绑定数据库
http://bbs.csdn.net/topics/370139193 SQL code ? 1 2 3 4 5 6 CREATE TABLE [dbo].[Company] ( [Id ...
phpstorm改变文件编码由utf变为gbk
PhpStorm是一个轻量级且便捷的PHP IDE,其旨在提供用户效率,可深刻理解用户的编码,提供智能代码补全,快速导航以及即时错误检查. 由于PHPStorm编辑器默认是UTF-8编码如果开发的是 ...
conda 虚拟环境
一.jupyter notbook (1)需要安装: conda install ipykernel (2)首先激活对应的conda环境 source activate 环境名称 (3)将环境写入no ...
CSS中filter滤镜的学习笔记
1．CSS静态滤镜样式 (filter)(只有IE4.0以上支持) CSS静态滤镜样式的使用方法:{ filter : filtername( parameters1, parameters2, . ...
[hadoop]hadoop学习路线
1.主要学习hadoop中的四大框架:hdfs.mapreduce.hive.hbase.这四大框架是hadoop最最核心的,学习难度最大的,也是应用最广泛的. 2.熟悉了解hadoop基本知识及其所 ...
5、Linux操作系统介绍
1操作系统的作用·是现代计算机系统中最基本和最重要的系统软件·是配置在计算机硬件上的第一层软件,是对硬件系统的首次扩展·主要作用是管理好硬件设备,并为用户和应用程序提供一个简单的接口,以便于使用·而其 ...
vc6列表框多选时，获取哪些项被选中
//vc6列表框多选时,获取哪些项被选中...... void CWebcyzDlg::OnButton2() { int n = m_mylist1.GetSelCount();//首先获取一共有多 ...
DIDM源码分析
DIDM源码分析版本来源:GitHub上Opendaylight DIDM项目参考资料来源:DIDM:Developer Guide 概述 DIDM是设备标识与驱动管理(Device Identi ...
docker-It's possible that too few managers are online. Make sure more than half of the managers are online.
问题:docker ---- It's possible that too few managers are online. Make sure more than half of the manag ...
King's Quest POJ - 1904 匈牙利算法的思想+tarjan缩点＋染色
题目链接:https://cn.vjudge.net/problem/POJ-1904 自己一开始的想法,打算用匈牙利算法实现,找二分图的最大匹配.但是打了打发现,不太好实现.原因如下:匈牙利算法是不 ...

Hadoop案例（五）过滤日志及自定义日志输出路径（自定义OutputFormat)

过滤日志及自定义日志输出路径（自定义OutputFormat）

1.需求分析

2.数据准备

3.代码实现

Hadoop案例（五）过滤日志及自定义日志输出路径（自定义OutputFormat)的更多相关文章

随机推荐

热门专题