一、Hadoop中的计数器

计数器：计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们通常可以在程序的某个位置插入计数器，用来记录数据或者进度的变化情况，它比日志更便利进行分析。

　　例如，我们有一个文件，其中包含如下内容：

hello you

hello me

　　它被WordCount程序执行后显示如下日志：

　　在上图所示中，计数器有19个，分为四个组：File Output Format Counters、FileSystemCounters、File Input Format Counters和Map-Reduce Framkework。

　　分组File Input Format Counters包括一个计数器Bytes Read，表示job执行结束后输出文件的内容包括19个字节(空格、换行都是字符)，如下所示。

hello

me

you

　　分组File Output Format Counters包括一个计数器Bytes Written，表示job执行时读取的文件内容包括19个字节(空格、换行都是字符)，如下所示。

hello you

hello me

　　关于以上这段计数器日志中详细的说明请见下面的注释：

    Counters: 19 // Counter表示计数器，19表示有19个计数器（下面一共4计数器组）

    File Output Format Counters // 文件输出格式化计数器组

      Bytes Written=19 // reduce输出到hdfs的字节数，一共19个字节

    FileSystemCounters// 文件系统计数器组

      FILE_BYTES_READ=481

      HDFS_BYTES_READ=38

      FILE_BYTES_WRITTEN=81316

      HDFS_BYTES_WRITTEN=19

    File Input Format Counters // 文件输入格式化计数器组

      Bytes Read=19 // map从hdfs读取的字节数

    Map-Reduce Framework // MapReduce框架

      Map output materialized bytes=49

      Map input records=2 // map读入的记录行数，读取两行记录,”hello you”,”hello me”

      Reduce shuffle bytes=0 // 规约分区的字节数

      Spilled Records=8

      Map output bytes=35

      Total committed heap usage (bytes)=266469376

      SPLIT_RAW_BYTES=105

      Combine input records=0 // 合并输入的记录数

      Reduce input records=4 // reduce从map端接收的记录行数

      Reduce input groups=3  // reduce函数接收的key数量，即归并后的k2数量

      Combine output records=0 // 合并输出的记录数

      Reduce output records=3 // reduce输出的记录行数。<helllo,{1,1}>,<you,{1}>,<me,{1}>

      Map output records=4 // map输出的记录行数，输出4行记录

二、用户自定义计数器

　　以上是在Hadoop中系统内置的标准计数器。除此之外，由于不同的场景有不同的计数器应用需求，因此我们也可以自己定义计数器使用。

2.1 敏感词记录-准备

　　现在假设我们需要对文件中的敏感词做一个统计，即对敏感词在文件中出现的次数做一个记录。这里，我们还是以下面这个文件为例：

Hello World!

Hello Hadoop!

　　文本内容很简单，这里我们指定Hello是一个敏感词，显而易见这里出现了两次Hello，即两次敏感词需要记录下来。

2.2 敏感词记录-程序

　　在WordCount程序的基础之上，改写Mapper类中的map方法，统计Hello出现的次数，如下代码所示：

        public static class MyMapper extends

            Mapper<LongWritable, Text, Text, LongWritable> {

        /*

         * @param KEYIN →k1 表示每一行的起始位置（偏移量offset）

         *

         * @param VALUEIN →v1 表示每一行的文本内容

         *

         * @param KEYOUT →k2 表示每一行中的每个单词

         *

         * @param VALUEOUT →v2表示每一行中的每个单词的出现次数，固定值为1

         */

        protected void map(LongWritable key, Text value,

                Mapper<LongWritable, Text, Text, LongWritable>.Context context)

                throws java.io.IOException, InterruptedException {

            Counter sensitiveCounter = context.getCounter("Sensitive Words:", "Hello");

            String line = value.toString();

            // 这里假定Hello是一个敏感词

            if(line.contains("Hello")){

                sensitiveCounter.increment(1L);

            }

            String[] spilted = line.split(" ");

            for (String word : spilted) {

                context.write(new Text(word), new LongWritable(1L));

            }

        };

    }

　　我们首先通过Mapper.Context类直接获得计数器对象。这里有两个形参，第一个是计数器组的名称，第二是计数器的名称。

　　然后通过String类的contains方法判断是否存在Hello敏感词。如果有，进入条件判断语句块，调用计数器对象的increment方法。

2.3 敏感词记录-结果

　　通过查看控制台日志信息，可以看到如下图所示的信息：

　　我们可以清楚地看到计数器由原来的19个变为20个，多出来的这个计数器正是我们自定义的敏感词计数器，由于文件中只有两个Hello，因此这里显示Hello=2。

参考资料

（1）Suddenly，《Hadoop日记17-计数器、Map规约与分区》：http://www.cnblogs.com/sunddenly/p/4009568.html

（2）吴超，《Hadoop中的计数器》：http://www.superwu.cn/2013/08/14/460

（3）dajuezhao，《Hadoop中自定义计数器》：http://blog.csdn.net/dajuezhao/article/details/5788705

（4）万川梅、谢正兰，《Hadoop应用开发实战详解（修订版）》：http://item.jd.com/11508248.html

作者：周旭龙

出处：http://edisonchou.cnblogs.com/

本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文链接。

Hadoop学习笔记—7.计数器与自定义计数器的更多相关文章

Hadoop学习笔记—8.Combiner与自定义Combiner
一.Combiner的出现背景 1.1 回顾Map阶段五大步骤在第四篇博文<初识MapReduce>中,我们认识了MapReduce的八大步凑,其中在Map阶段总共五个步骤,如下图所示: ...
Hadoop学习笔记—9.Partitioner与自定义Partitioner
一.初步探索Partitioner 1.1 再次回顾Map阶段五大步骤在第四篇博文<初识MapReduce>中,我们认识了MapReduce的八大步凑,其中在Map阶段总共五个步骤,如下 ...
Hadoop学习笔记—5.自定义类型处理手机上网日志
转载自http://www.cnblogs.com/edisonchou/p/4288737.html Hadoop学习笔记—5.自定义类型处理手机上网日志一.测试数据:手机上网日志 1.1 关于这 ...
Hadoop学习笔记系列文章导航
一.为何要学习Hadoop? 这是一个信息爆炸的时代.经过数十年的积累,很多企业都聚集了大量的数据.这些数据也是企业的核心财富之一,怎样从累积的数据里寻找价值,变废为宝炼数成金成为当务之急.但数据增长 ...
Hadoop学习笔记系列
Hadoop学习笔记系列一.为何要学习Hadoop? 这是一个信息爆炸的时代.经过数十年的积累,很多企业都聚集了大量的数据.这些数据也是企业的核心财富之一,怎样从累积的数据里寻找价值,变废为宝炼 ...
Hadoop学习笔记(7) ——高级编程
Hadoop学习笔记(7) ——高级编程从前面的学习中,我们了解到了MapReduce整个过程需要经过以下几个步骤: 1.输入(input):将输入数据分成一个个split,并将split进一步拆成 ...
Hadoop学习笔记—22.Hadoop2.x环境搭建与配置
自从2015年花了2个多月时间把Hadoop1.x的学习教程学习了一遍,对Hadoop这个神奇的小象有了一个初步的了解,还对每次学习的内容进行了总结,也形成了我的一个博文系列<Hadoop学习笔 ...
Hadoop学习笔记(6) ——重新认识Hadoop
Hadoop学习笔记(6) ——重新认识Hadoop 之前,我们把hadoop从下载包部署到编写了helloworld,看到了结果.现是得开始稍微更深入地了解hadoop了. Hadoop包含了两大功 ...
Hadoop学习笔记(2)
Hadoop学习笔记(2) ——解读Hello World 上一章中,我们把hadoop下载.安装.运行起来,最后还执行了一个Hello world程序,看到了结果.现在我们就来解读一下这个Hello ...
Hadoop学习笔记(5) ——编写HelloWorld(2)
Hadoop学习笔记(5) ——编写HelloWorld(2) 前面我们写了一个Hadoop程序,并让它跑起来了.但想想不对啊,Hadoop不是有两块功能么,DFS和MapReduce.没错,上一节我 ...

随机推荐

重写AgileEAS.NET SOA 中间件平台账号密码的加密算法
一.平台简介 AgileEAS.NET SOA 中间件平台是一款基于基于敏捷并行开发思想和Microsoft .Net构件(组件)开发技术而构建的一个快速开发应用平台.用于帮助中小型软件企业建立一条适 ...
【leetcode】Isomorphic Strings
题目简述: Given two strings s and t, determine if they are isomorphic. Two strings are isomorphic if the ...
C++预定义宏
C/C++宏体中出现的#,#@,##: - #的功能是将其后面的宏参数进行字符串化操作(stringfication),就是对它所引用的宏变量通过替换后在其左右各加上一个双引号 -##被称为连接符(c ...
mysql基本信息收集
1.下载安装 percona-toolkit 工具包http://www.percona.com/downloads/percona-toolkit/LATEST/tarball/2.运行下面两个工具 ...
HBase基本shell命令
HBase基本shell命令以下shell命令都是经过测试,正常展示,若有不足,还望指点! 1.创建表 create ‘表名称’,‘列族名称1’,‘列族名称1’create 'test_M_01', ...
更换项目jdk版本
现在开发用的都是1.7版本,但是以前老的服务器上可能是1.6jdk,这时候就需要我们将项目重新用1.6编译; 修改三个文件(三个地方)即可; 第一步,右键单击项目,选择properties,修改1:J ...
Java EE之搭建论坛系统（使用JForum）
1.下载JForum开源压缩包: 网址:http://jforum.net/ (或者直接使用百度云中的压缩包) 解压,修改解压后文件下的\WEB-INF\config\database\mysql目 ...
webpack 打包一个简单react组件
安装Webpack,并加载一个简单的React组件全局的npm模块安装: npm install -g webpack 安装jsx-loader npm install --save-dev jsx ...
【转】浅谈truncate的使用
delete 操作不会改变表的高水标记,因此如果我们对一个表插入1000万条数据,然后再回滚(对insert操作做回滚相当于相应地做delete操作),会使表的高水标记增长得很高,这时虽然我们操作的表 ...
maven-javaServlet-文件上传
十月 25, 2016 5:00:39 下午 org.apache.catalina.core.AprLifecycleListener init信息: The APR based Apache To ...

Hadoop学习笔记—7.计数器与自定义计数器