【原创】MapReduce计数器

MapReduce框架内置了一些计数器的支持，当然，我们也可以设置自己的计数器用来满足一些特殊的要求。

其实计数器可以用来完成很多事，关键要看你如何用，例如你想知道map输入数据的指定记录特定的信息有多少可以设置计数，还有，在MR执行过程中，一些特定事件的发生次数也可以记录。使用计数器的莫大好处在于整个计数的过程只需要再map阶段就可以完成，而且也可以不做任何输出，可以快速的得到自己想要的一些计数结果。但并不是计数器可以设置为无限多，因为计数器过多会影响JT的效率，甚至可能被自定义的分析程序拖垮。

计数器原理

计数器的信息是存储再JobTracker中的内存中的，TaskTracker执行任务时会对设定的信息进行计数，按照既定的条件对计数器进行累加，并聚合汇报给JT。JT在工作完成的时候做整体聚合。

程序实例

首先需要定义个枚举类：

package zebra.shlgao.counters;

public enum MyCounter {

    CounterA,CounterB

}

然后在MR程序中分别计数不同Counter的数量：

package zebra.shlgao.counters;

import java.io.IOException;

import java.net.URI;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.*;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class TestCounter {

    public static class CounterMapper extends Mapper<Object, Text, Text, Text>{

        @Override

        protected void map(Object key, Text value,Context context)

                throws IOException, InterruptedException {

            // TODO Auto-generated method stub

            String txt = value.toString();

            if (txt.contains("java")){

                context.getCounter(MyCounter.CounterA).increment(1);

            }else{

                context.getCounter(MyCounter.CounterB).increment(2);

            }

//            context.write(new Text(key), value);

        }

    }

    public static void main(String args[]) throws IOException, ClassNotFoundException, InterruptedException{

        Configuration conf = new Configuration();

        Job job = new Job(conf, "testCounter");

        job.setJarByClass(TestCounter.class);

        job.setMapperClass(CounterMapper.class);

//        job.setNumReduceTasks(0);

        FileInputFormat.setInputPaths(job, new Path("hdfs://localhost:19000/testdir/file22m"));

        FileOutputFormat.setOutputPath(job, new Path("hdfs://localhost:19000/testdir/file22mResult"));

        int finish = job.waitForCompletion(true) ? 0 : 1 ;

        FileSystem fs  =  FileSystem.get(URI.create("hdfs://localhost:19000/testdir/file22mResult"),conf);

        fs.delete(new Path("hdfs://localhost:19000/testdir/file22mResult"),true);//删除空的输出路径

        System.exit(finish);

    }

}

由于这里是快速计数，所以可以不必做任何输出，但是在配置Job的时候必须定义输出路径，所以可以在最后将空的输出路径删除。

【原创】MapReduce计数器的更多相关文章

MapReduce计数器
1.MapReduce计数器是什么? 计数器是用来记录job的执行进度和状态的.它的作用可以理解为日志.我们可以在程序的某个位置插入计数器,记录数据或者进度的变化情况. 2.MapReduce计数器能 ...
MapReduce 计数器简介
转自:http://my.oschina.net/leejun2005/blog/276891?utm_source=tuicool&utm_medium=referral 1.计数器简介 ...
大数据【四】MapReduce（单词计数；二次排序；计数器；join；分布式缓存）
前言: 根据前面的几篇博客学习,现在可以进行MapReduce学习了.本篇博客首先阐述了MapReduce的概念及使用原理,其次直接从五个实验中实践学习(单词计数,二次排序,计数器,join,分 ...
Hadoop学习之路（十五）MapReduce的多Job串联和全局计数器
MapReduce 多 Job 串联需求一个稍复杂点的处理逻辑往往需要多个 MapReduce 程序串联处理,多 job 的串联可以借助 MapReduce 框架的 JobControl 实现实 ...
Hadoop MapReduce编程 API入门系列之计数器（二十七）
不多说,直接上代码. MapReduce 计数器是什么? 计数器是用来记录job的执行进度和状态的.它的作用可以理解为日志.我们可以在程序的某个位置插入计数器,记录数据或者进度的变化情况. Ma ...
Hadoop计数器
1. MapReduce计数器是什么计数器是用来记录Job的执行进度和状态的,其作用类似于日志.我们可以在程序的某个位置插入计数器,记录数据或进度的变化情况. 2. MapReduce计数器能做什么 ...
用户定义的java计数器
mapreduce 计数器用来做某个信息的统计. 计数器是全局的.mapreduce 框架将跨所有map和reduce聚集这些计数器,并且作业结束时产生一个最终的结果. 语法像 java 的 enum ...
MapReduce高级编程
MapReduce 计数器.最值: 计数器数据集在进行MapReduce运算过程中,许多时候,用户希望了解待分析的数据的运行的运行情况.Hadoop内置的计数器功能收集作业的主要统计信息,可以帮助用 ...
大数据入门第九天——MapReduce详解（六）MR其他补充
一.自定义in/outputFormat 1.需求现有一些原始日志需要做增强解析处理,流程: 1. 从原始日志文件中读取数据 2. 根据日志中的一个URL字段到外部知识库中获取信息增强到原始日志 3 ...

随机推荐

常用后台frame框架
一般后台框架结构: top:左边显示logo,右边显示模块信息. left:对应模块的菜单信息. content:具体的内容. bottom:版权.时间等一些碎屑信息. Html代码: <htm ...
poj 2559 Largest Rectangle in a Histogram （单调栈）
http://poj.org/problem?id=2559 Largest Rectangle in a Histogram Time Limit: 1000MS Memory Limit: 6 ...
matlab高斯模板生成，K是归一化系数，上面是一个半径200的高斯模板用来做MSR
R3=; F=zeros(*R3+,*R3+); sigma=R3/; r=; :*R3+ :*R3+ r=(x-R3)*(x-R3)+(y-R3)*(y-R3); ...
delphi xe5 android listbox的 TMetropolisUIListBoxItem
listbox实现以下效果: \ 关键代码,采用数据集的方式 type PpatientData=^RpatientData; RpatientData= record patient_id:stri ...
sass教程汇总
Sass @at-root http://www.w3cplus.com/preprocessor/Sass-3-3-new-feature-at-root-bem.html Sass中连体符(&am ...
BZOJ 3992 [SDOI 2015] 序列统计解题报告
这个题最暴力的搞法就是这样的: 设 $Dp[i][j]$ 为前 $i$ 个数乘积为 $j$ 的方案数. 转移的话就不多说了哈... 当前复杂度 $O(nm^2)$ 注意到,$M$ 是个质数,就说明 $ ...
configure脚本参数介绍
configure脚本有大量的命令行选项. 下面对每一个选项进行简略的介绍: --cache-file=FILE'configure' 会在你的系统上测试存在的特性(或者bug!).为了加速随后进行的 ...
《ArcGIS Engine+C#实例开发教程》第一讲桌面GIS应用程序框架的建立
原文:<ArcGIS Engine+C#实例开发教程>第一讲桌面GIS应用程序框架的建立摘要:本讲主要是使用MapControl.PageLayoutControl.ToolbarCon ...
hdu2852KiKi's K-Number（区间K值）
http://acm.hdu.edu.cn/showproblem.php?pid=2852 区间K值写错了... #include <iostream> #include<cstd ...
mapreduce: InputFormat详解 -- RecordReader篇
InputFormat是MapReduce中一个很常用的概念,它在程序的运行中到底起到了什么作用呢? InputFormat其实是一个接口,包含了两个方法: public interface Inpu ...

【原创】MapReduce计数器

【原创】MapReduce计数器的更多相关文章

随机推荐

热门专题