hadoop 各种counter 解读
http://blog.sina.com.cn/s/blog_61ef49250100uxwh.html
经过了两天的休息与放松,精神饱满了吧?上星期我们学习了MapReduce的过程,了解了其基本过程,学会了如何在Ubuntu上搭建Hadoop环境,并测试了实例。今天我们来学些辅助性的东西,不然在测试实例时有些输出信息看不懂 :-)
我们今天要学的有三点:
* Counters
* Reporter
* StatusReporter
Counters是一种计数器,Hadoop框架提供三种Counter:
l Built-in Counters
l User-Defined Java Counters
l Dynamic Counters
Built-in Counters
Hadoop为每个作业(job)内建了多个计数器报告作业的多种指标。如图Figure1:
Figure1:Built-in Counters
Counters由与它关联的任务(task)来维护,并定期把它发送给tasktracker,接着再被发送到jobtracker,因此Counters能够被聚集起来(想想聚集起来干嘛?)。内建的Job Counters由jobtracker来维护,因此它不像其他Counters(包括用户自定义的Counters),它不需要通过网络传输。
Counter的值只有在作业(job)成功执行后才能最终确定。
User-Defined Java Counters
MapReduce允许用户自行定义一组Counters,从而控制Counters在mapper或reducer中的变化。Counters由Java的枚举类型定义,旨在方便将相关的Counters聚合在一起。一个作业(job)可能定义一组任意数量的枚举变量,每一个枚举变量定义任意数量的域。枚举变量的名为计数器组(group)的名,枚举变量的域为计数器(counter)的名。Counters属于全局范围:MapReduce框架通过所有的maps和reducers聚集所有的计数器,最后在作业(job)结束时产生一个Counters的总和。
Dynamic Counters
动态计数器不使用Java枚举类型(Enum)定义,因为Java枚举类型的域是在编译时定义的,不能在运行时使用enums创建新的计数器。在接口Reporter中有两个创建计数器的方法incrCounter:
public void incrCounter(String group, String counter, long amount)
public void incrCounter(Enum<?> key, long amount)
这个我们在下一节会进行详细介绍。
我们拿上次运行的实例的输出结果来看看Counters输出是怎样的,如图Figure2:
– MapReduce过程(2)" title="Hadoop – MapReduce过程(2)" height="351" width="690">
Figure2:实例输出结果
看到没有?在Job complete之后有Counters:18,这是代表18个计数器,由Figure1可得,这些计数器都是Built-in Counters。在Counters:18下面按计数器的类别输出这18个计数器和对应值。
要定义自己的计数器吗?不难,Hadoop有个实例wordcount可能实现你的愿望。如果不知道如何操作,可以参考这里。
Reporter是Map-Reduce应用程序用于报告进度、更新计数器和状态信息的机制。
Mapper或Reducer可以调用Reporter来报告进度,或者仅是表明自己运行正常,在那些需要花很长时间处理个别键值对的场景中,这种机制很重要,如果不是这样的话,框架可能会认为该任务超时,从而将它杀死。
Map-Reduce应用程序可以用Reporter来更新计数器(Counter),我们在上一节讲过Counters。
Figure3是Reporter类图:
– MapReduce过程(2)" title="Hadoop – MapReduce过程(2)" height="217" width="295">
Figure3:Reporter类图
getCounter(Enum<?>):根据计数器池内枚举变量的名称返回计数器;
getCounter(String,
String):第一个参数是计数器池,第二个参数是计数器的名称,即分别指定计数器池和计数器名称来返回一个计数器(counter);
getInputSplit:返回输入的分片(InputSplit),然后map读取这些分片;
incrCounter(Enum<?>,
long):创建计数器或将已有的计数器按第二个参数的量增加;
incrCounter(String, String,
long):创建计数器或将已有的计数器按第三个参数的量增加;
setStatus(String):将参数中的状态信息写到任务中;
这里我们主要看incrCounter方法,incrCounter方法有一个重载方法,第一个方法是根据计数器的key值(枚举类型)来递增计数器(counter),Hadoop将枚举类型转换成String类型,然后通过RPC协议发送计数器(Counter)。因为枚举类型容易操作,提供类型安全,适合大部分的作业,但使用该方法不能动态地创建新的计数器(counter)。要想在运行时(动态)也能创建新的计数器(counter),就应该使用:
incrCounter(String group, String
counter, long amount)
该方法需要指定计数器池,计数器名和增量。
从Reducer类的内部类Context可以看到,其中有一个参数为StatusReporter。StatusReporter对象能通知Hadoop
Map-Reduce框架当前作业的执行状态。如果需要较长时间执行map方法或reduce方法,它们就得定期地调用StausReporter对象,通知Hadoop Map-Reduce框架map方法或reduce方法的执行状态。如果一个任务在10分钟内没过发出任何报告,Hadoop会强制关闭该任务。StatusReporter是一个抽象类,提供了四个抽象方法:两个getCounter方法,progress方法和setStatus方法。Figure4是StatusReporter类图:
– MapReduce过程(2)" title="Hadoop – MapReduce过程(2)" height="151" width="242">
Figure4:StatusReporter类图
getCounter(Enum<?>):根据枚举类型的计数器名返回计数器;
getCounter(String,
String):根据指定的计数器池和计数器名返回计数器
progress():报告任务当前进度
setStatus(String):将参数中的状态信息写到任务中
我们知道,每一个Counter由一个枚举值命名并保存一个long类型的值,它是由Map-Reduce框架或应用程序定义的全局计数器。同一特定的Enum类型的Counter可以汇集到一个组,其类型为Counters.group。
这个类作大概了解就行了,单个来看StatusReporter只是一个抽象类,不提供任何操作。但是它是TaskInputOutputContext的域,而TaskInputOUtputContext是MapContext和ReduceContext的父类。我们在上一篇笔记中说到Mapper::Context和Reducer::Context,但没详细将ContextMapContext和ReduceContext,现在我们来看看这几个类的关系,Figure5是它们的关系图:
Figure5:类关系图
图中可以看到,两个Context中包含了很多参数,其中一个是StatusReporter,该参数就包含当前任务的进度和状态信息。它会定期地向Hadoop
Map-Reduce框架发送当前任务的进度和状态信息,这样就能使得框架随时了解到任务的信息,不会因为有些任务执行时间过长而将它杀死。
Reporter、Counters和StatusReporter对于我们了解Hadoop Map-Reduce框架很重要,没有它们的话我们就不能掌握Map-Reduce过程,也不知道Map-Reduce做了些什么。而且Counters的作用远远不止如此,既然是计数器,当然可以进行统计学方面的应用,比如WordCount就是一个很好的例子。好了,今天就学习到这里。
hadoop 各种counter 解读的更多相关文章
- [Hadoop源码解读](六)MapReduce篇之MapTask类
MapTask类继承于Task类,它最主要的方法就是run(),用来执行这个Map任务. run()首先设置一个TaskReporter并启动,然后调用JobConf的getUseNewAPI()判断 ...
- Hadoop源码解读系列目录
Hadoop源码解读系列 1.hadoop源码|common模块-configuration详解2.hadoop源码|core模块-序列化与压缩详解3.hadoop源码|core模块-远程调用与NIO ...
- [Hadoop源码解读](四)MapReduce篇之Counter相关类
当我们定义一个Counter时,我们首先要定义一枚举类型: public static enum MY_COUNTER{ CORRUPTED_DATA_COUNTER, NORMAL_DATA_COU ...
- [Hadoop源码解读](三)MapReduce篇之Job类
下面,我们只涉及MapReduce 1,而不涉及YARN. 当我们在写MapReduce程序的时候,通常,在main函数里,我们会像下面这样做.建立一个Job对象,设置它的JobName,然后配置输入 ...
- [Hadoop源码解读](二)MapReduce篇之Mapper类
前面在讲InputFormat的时候,讲到了Mapper类是如何利用RecordReader来读取InputSplit中的K-V对的. 这一篇里,开始对Mapper.class的子类进行解读. 先回忆 ...
- Hadoop十年解读与发展预测
编者按:Hadoop于2006年1月28日诞生,至今已有10年,它改变了企业对数据的存储.处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用.在2016年Ha ...
- [Hadoop源码解读](五)MapReduce篇之Writable相关类
前面讲了InputFormat,就顺便讲一下Writable的东西吧,本来应当是放在HDFS中的. 当要在进程间传递对象或持久化对象的时候,就需要序列化对象成字节流,反之当要将接收到或从磁盘读取的字节 ...
- [Hadoop源码解读](一)MapReduce篇之InputFormat
平时我们写MapReduce程序的时候,在设置输入格式的时候,总会调用形如job.setInputFormatClass(KeyValueTextInputFormat.class);来保证输入文件按 ...
- Hadoop自定义Counter
1.通过enum自定义Counter public static num LOG_PROCESSOR_COUNTER { BAD_RECORDS }; 2.在Mapper或者Reducer中操作Cou ...
随机推荐
- Image控件播放 GIF文件
uses Vcl.Imaging.GIFImg;procedure TForm1.Button2Click(Sender: TObject);begin Image1.Picture.LoadF ...
- 使用Parse内付费服务出现的Error Domain=Parse Code=146 "The operation couldn’t be completed. (Parse error 146.)
因为开发一个应用有个内付费去广告功能,介于苹果官方提供的方法没用过,感觉有些复杂,于是选用了第三方组件Parse来解决这个问题,简单易操作: Parse简化苹果官方内付费问题,使用方法分厂简单只有两个 ...
- lua 基本
Lua 的语法比较简单,学习起来也比较省力,但功能却并不弱. 所以,我只简单的归纳一下 Lua 的一些语法规则,使用起来方便好查就可以了.估计看完了,就懂得怎么写 Lua 程序了. 在 Lua 中,一 ...
- 编写跨平台代码之memory alignment
编写网络包(存储在堆上)转换程序时,在hp-ux机器上运行时会遇到 si_code: 1 - BUS_ADRALN - Invalid address alignment. Please refer ...
- hdu2041java
超级楼梯 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others)Total Submis ...
- Android开发之sharedpreferences 详解
SharedPreferences简介: 做软件开发应该都知道,很多软件会有配置文件,里面存放这程序运行当中的各个属性值,由于其配置信息并不多,如果采用数据库来存放并不划算,因为数据库连接跟操作等 ...
- Linux服务器常用性能监控命令汇总
1.ifconfig 网卡数目.ip地址.Mac地址.MTU大小 eth0 Link encap:Ethernet HWaddr 00:0d:3a:50:12:e9 inet addr:10.0.0. ...
- 多目标遗传算法 ------ NSGA-II (部分源码解析) 快速排序代码 sort.c
/* Routines for randomized recursive quick-sort */ # include <stdio.h> # include <stdlib.h& ...
- PHPStorm&PHPstudy环境配置
因为实习要求,最近在学php,补下开发环境的配置,原博客链接:点击打开链接 1.创建新的项目(project),创建完成之后单击工具栏的应用运行/调试(Select Run/Debug Configu ...
- 深入理解Javascript变量作用域
在学习JavaScript的变量作用域之前,我们应当明确几点: a.JavaScript的变量作用域是基于其特有的作用域链的. b.JavaScript没有块级作用域. c.函数中声明的变量在整个函数 ...