MapReduce —— MapTask阶段源码分析（Input环节）

不得不说阅读源码的过程，极其痛苦。Dream Car 镇楼 ~ ！

虽说整个MapReduce过程也就只有Map阶段和Reduce阶段，但是仔细想想，在Map阶段要做哪些事情？这一阶段具体应该包含数据输入(input)，数据计算(map)，数据输出(output)，这三个步骤的划分是非常符合思维习惯的。

从大数据开发的hello world案例入手，如下是一个word count 案例的map程序

public class WcMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

    private Text k = new Text();

    private IntWritable v = new IntWritable(1);

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        //1. 获取一行数据

        String str = value.toString();

        //2. 按照空格分开单词

        String[] words = str.split(" ");

        //3. 遍历集合，拼装成(word,one)形式

        for (String word : words) {

            this.k.set(word);

            context.write(k, v);

        }

    }

}

自定义的WcMapper类继承了Mapper类，重写了map()方法，在这个方法里我们按照需求，编写了相应的业务逻辑。进入Mapper类中查看。

这个类包含的方法并不多，并且比较符合见名知义的思维规律，可以根据方法辅助注释大概了解其具体功能。在这个类的头上还包括一段对类的描述性注释，大致意思就是map阶段到底干了什么，尝试简单翻译一下核心内容

将输入键/值对映射到一组中间键/值对。

映射是将输入记录转换为中间记录的单个任务。转换后的中间记录不需要与输入记录的类型相同。一个给定的输入对可以映射到零个或多个输出对。

Hadoop Map-Reduce 框架为InputFormat为作业生成的每个InputSplit生成一个映射任务。 Mapper实现可以通过JobContext.getConfiguration()访问作业的Configuration 。

框架首先调用setup(Mapper.Context) ，然后为InputSplit中的每个键/值对调用map(Object, Object, Mapper.Context) 。最后调用cleanup(Mapper.Context) 。

与给定输出键关联的所有中间值随后由框架分组，并传递给Reducer以确定最终输出。用户可以通过指定两个关键的RawComparator类来控制排序和分组。

Mapper输出按Reducer进行分区。用户可以通过实现自定义Partitioner来控制哪些键（以及记录）去哪个Reducer 。

用户可以选择通过Job.setCombinerClass(Class)指定combiner来执行中间输出的本地聚合，这有助于减少从Mapper传输到Reducer的数据量。

应用程序可以指定是否以及如何压缩中间输出，以及通过Configuration使用哪些CompressionCodec 。

如果作业有零减少，则Mapper的输出将直接写入OutputFormat而不按键排序。

public class Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT> {

  public abstract class Context implements MapContext<KEYIN,VALUEIN,KEYOUT,VALUEOUT> {}

  protected void setup(Context context ) throws IOException, InterruptedException {}

  protected void map(KEYIN key, VALUEIN value,Context context) throws IOException, InterruptedException

  {context.write((KEYOUT) key, (VALUEOUT) value);}

  protected void cleanup(Context context) throws IOException, InterruptedException {}

  public void run(Context context) throws IOException, InterruptedException {

    setup(context);

    try {

      while (context.nextKeyValue()) {

        map(context.getCurrentKey(), context.getCurrentValue(), context);

      }

    } finally {

      cleanup(context);

    }

  }

}

看到run(Context context) 这个方法就比较有框架的感觉了，这个方法里面调用了一次setup(context) 和cleanup(context),而对map方法则为输入拆分中的每个键/值对调用一次。

这个类看到这也就算结束了，其它的也看不出啥东西了。进入MapTask类，包含了大量的核心业务逻辑方法。这个类会被Yarn反射调用run方法，实例化MapTask。直接进run方法，删除了部分非核心代码，清清爽爽。

@Override

  public void run(final JobConf job, final TaskUmbilicalProtocol umbilical){

    this.umbilical = umbilical;

    if (isMapTask()) {

      // reduce的个数为 0，所以整个任务只有map阶段

      if (conf.getNumReduceTasks() == 0) {

        mapPhase = getProgress().addPhase("map", 1.0f);

      } else {

       // 如果有reduce阶段，将进行进度分配

        mapPhase = getProgress().addPhase("map", 0.667f);

       // 排序环节让后续的reduce环节变得更轻松完成，只需拉取一次文件，减少I/O

        sortPhase  = getProgress().addPhase("sort", 0.333f);

      }

    }

    TaskReporter reporter = startReporter(umbilical);

    boolean useNewApi = job.getUseNewMapper();

    initialize(job, getJobID(), reporter, useNewApi);

    // check if it is a cleanupJobTask

                 .........

    if (useNewApi) {  // 新旧API的选择

        // 进这个方法

      runNewMapper(job, splitMetaInfo, umbilical, reporter);

    } else {

      runOldMapper(job, splitMetaInfo, umbilical, reporter);

    }

    done(umbilical, reporter);

  }

继续进入runNewMapper(job, splitMetaInfo, umbilical, reporter) 方法。里边有点长啊，一下不好找到重点。小常识：重要的东西放在try-catch中！！所以首先看try-catch块。

private <INKEY,INVALUE,OUTKEY,OUTVALUE>

  void runNewMapper(final JobConf job,final TaskSplitIndex splitIndex,final TaskUmbilicalProtocol umbilical,TaskReporter reporter)  {

          ............先删了，略过不看............

    // 用人类的思维过一遍方法名

    try {

        // 1、初始化输入流

      input.initialize(split, mapperContext);

        // 2、直觉调用这个run()方法，最终会调用到自定义的map方法

      mapper.run(mapperContext);

        // 3、完成map计算阶段

      mapPhase.complete();

        // 4、排序阶段走起

      setPhase(TaskStatus.Phase.SORT);

        // 5、状态信息更新或者传递（猜的）

      statusUpdate(umbilical);

        // 6、关闭输入流

      input.close();

      input = null;

        // 7、进入到out阶段，输出map数据

      output.close(mapperContext);

      output = null;

    } finally {

      // Quietly，默默的做一些事情 ...

      closeQuietly(input);

      closeQuietly(output, mapperContext);

    }

  }

这样一来整个思路就就很丝滑顺畅了，回过头来看删除掉的代码片段，原注释信息也蛮好懂的。

   // 1、make a task context so we can get the classes  封装任务的上下文，job里有configuration

   // 常识：在框架中上下文对象是不可缺少的，有些信息在业务线来回穿梭，封装进上下文可以随时获取

   // 回忆：客户端上传任务到资源层，其中包括Jar包，配置文件，切片三个文件，container拿到可以实例化job

    org.apache.hadoop.mapreduce.TaskAttemptContext taskContext =

      new org.apache.hadoop.mapreduce.task.TaskAttemptContextImpl(job, getTaskID(),reporter);

    // 2、make a mapper:根据taskContext + job，实例化出来一个mapper对象

    org.apache.hadoop.mapreduce.Mapper<INKEY,INVALUE,OUTKEY,OUTVALUE> mapper =

      (org.apache.hadoop.mapreduce.Mapper<INKEY,INVALUE,OUTKEY,OUTVALUE>)

        // 就是自己写的WCMapper对象，也就对应了下边的 mapper.run(mapperContext)。丝滑~！

        ReflectionUtils.newInstance(taskContext.getMapperClass(), job);

    // 3、make the input format：输入格式化，为啥需要这个玩意？split是一片数据，那读一条数据就要这玩意了

    org.apache.hadoop.mapreduce.InputFormat<INKEY,INVALUE> inputFormat =

      (org.apache.hadoop.mapreduce.InputFormat<INKEY,INVALUE>)

        // 在写job配置的时候，其实是可以指定InputFormat哒，默认是TextInputFormat

        ReflectionUtils.newInstance(taskContext.getInputFormatClass(), job);

    // 4、rebuild the input split，每个map都要确定自己往哪个split移动

    org.apache.hadoop.mapreduce.InputSplit split = null;

    // 每个mapper都要搞搞清楚自己要读取哪个split 【计算向数据移动】

    split = getSplitDetails(new Path(splitIndex.getSplitLocation()),

        splitIndex.getStartOffset());

     // 5、input = split + inputFormat （父类是RecordReader）

    org.apache.hadoop.mapreduce.RecordReader<INKEY,INVALUE> input =

      new NewTrackingRecordReader<INKEY,INVALUE>

        // 所以input有能力在split读取出来一条条的记录

        (split, inputFormat, reporter, taskContext);

      // 小总结：3、4、5 三步要做的就是——想个办法在Split中读取一条数据

//--------------------NewTrackingRecordReader()  begin-------------------------------

  private final org.apache.hadoop.mapreduce.RecordReader<K,V> real;

  NewTrackingRecordReader(...){

                               .....

       // 调用TextInputFormat的createRecordReader，返回一个LineRecordReader对象

       // 所以input就是一个LineRecordReader对象

      this.real = inputFormat.createRecordReader(split, taskContext);

                               .....

    }

//--------------------NewTrackingRecordReader()  end--------------------------------

                  ...........先略过输出这一部分...........

    // 6、上面是任务上下文，这里是map上下文，包含了input、output、split

    org.apache.hadoop.mapreduce.MapContext<INKEY, INVALUE, OUTKEY, OUTVALUE>

    mapContext =

      new MapContextImpl<INKEY, INVALUE, OUTKEY, OUTVALUE>(job, getTaskID(),

          input, output,

          committer,

          reporter, split);

   // 7、又对map上下文包装了一层mapperContext，包含了input、output、split

   // 这不就是Mapper类中的run(Context context)的入参嘛 ~！！

    org.apache.hadoop.mapreduce.Mapper<INKEY,INVALUE,OUTKEY,OUTVALUE>.Context

        mapperContext =

          new WrappedMapper<INKEY, INVALUE, OUTKEY, OUTVALUE>().getMapContext(

              mapContext);

//-------------Mapper::run(Context context)  begin ----------------------------------

  public void run(Context context) throws IOException, InterruptedException {

    setup(context);

    try {

        // 从mapper的上下文里判断有无下一条数据

      while (context.nextKeyValue()) {

          // 取出切片中的下一条数据进行计算

        map(context.getCurrentKey(), context.getCurrentValue(), context);

      }

    } finally {

      cleanup(context);

    }

  }

// 从map的上下文信息中是如何获取到一条数据的？LineRecordReader返回的~~ 层层封装真绝了

//-------------Mapper::run(Context context)  end ----------------------------------

现在可以回头看try块中的 input.initialize(split, mapperContext)的方法，进去看方法实现的细节。数据在HDFS层会被切割开，那么它能被计算正确是如何实现的？在这就有相应的实现代码不复杂，但是有小亮点。

只保留核心业务逻辑，还是该删的删，清清爽爽，开开心心阅读源码 ~

// 记住这是Recordreader的初始化方法

public void initialize(InputSplit genericSplit,TaskAttemptContext context)  {

      // map任务计算是面向切片的，先拿到切片，再拿到切片的始端

    start = split.getStart();

      // 始端 + 切片大小，得到末端

    end = start + split.getLength();

      // 从切片中拿到文件路径

    final Path file = split.getPath();

    // open the file and seek to the start of the split

      // 获取到文件系统的一个对象

    final FileSystem fs = file.getFileSystem(job);

      //打开文件，会得到一个面向文件的输入流

      // 各个map并行执行，所以不会都是从文件头开始读，所以它要搭配一个seek()方法

    fileIn = fs.open(file);

        if (...) {

           ......

    } else {

       // 每个map 都会seek到自己切片偏移量的位置开始读取数据

      fileIn.seek(start);

       // SplitLineReader：切片里的行记录读取器。这名字一看就很面向对象

      in = new SplitLineReader(fileIn, job, this.recordDelimiterBytes);

      filePosition = fileIn;

    }

    // If this is not the first split, we always throw away first record

    // because we always (except the last split) read one extra line in

    // next() method.

    // 如果这不是第一次拆分，我们总是丢弃第一条记录。

    // 因为我们总是（除了最后一次拆分）在 next() 方法中读取额外的一行。

    // 这就防止了 hello 被拆成了 he llo 导致计算错误

    if (start != 0) {

      start += in.readLine(new Text(), 0, maxBytesToConsume(start));

    }

    this.pos = start;

  }

in.readLine(new Text(), 0, maxBytesToConsume(start)) 这个方法把读到的一行数据交给一个Text对象持有，返回值是一个int类型的数值，表示读到了多少个字节。

注意到方法传参new Text()对象，当方法执行完是时候，这个对象会因为没有引用被GC回收。那么既然没有引用，它在干嘛？

回忆：切片是一个逻辑切分，默认的大小是一个block块的大小。假如一个split小于block ，这个block就会被切成多个部分。如果就是尼玛那么寸， hello 两个切片被拆成了 he llo 两部分，就会导致计算错误。这时候向下多读一行，哎，这个问题就解决啦。

再回头说：计算向数据移动。被多读的一行如果在其它的节点怎么办？答：把这一行数据传过来，不必移动计算。

其实看到这里也就可以明白了，在整个Map的input环节，真正干读取数据活的是LineRecordReader，key就是面向行的字节偏移量。下边这段代码已经出现多次了

  public void run(Context context) throws IOException, InterruptedException {

    setup(context);

    try {

        // 从mapper的上下文里判断有无下一条数据

      while (context.nextKeyValue()) {

          // 取出切片中的下一条数据进行计算

        map(context.getCurrentKey(), context.getCurrentValue(), context);

      }

    } finally {

      cleanup(context);

    }

  }

通过阅读上边的源码我们已经知道此处传参Context实际上就是一个MapContextImpl对象，context.nextKeyValue()方法也就是在调用LineRecordReader::nextKeyValue()方法。这个方法内部：会对key-value进行赋值，返回boolean值，代表是否赋值成功。总体下来可以说是感觉非常的丝滑~

总结：（我自己能看懂就行了~）

MapTask：input -> map -> output

intput：（Split + format）来自于输入格式化类返回记录读取器对象

TextInputFormat - > LineRecordReader：

Split三个维度：file , offset , length

init()：in = fs.open（file）.seek。除了第一个切片，都会往下多读一行。

nextKeyValue():

1、读取数据中的一条记录对应的key，value 赋值；

2、返回布尔值；

getCurrentKey（）

getCurrentValue（）

MapReduce —— MapTask阶段源码分析（Input环节）的更多相关文章

MapReduce —— MapTask阶段源码分析（Output环节）
Dream car 镇楼 ~ ! 接上一节Input环节,接下来分析 output环节.代码在runNewMapper()方法中: private <INKEY,INVALUE,OUTKEY,O ...
MapReduce 切片机制源码分析
总体来说大概有以下2个大的步骤 1.连接集群(yarnrunner或者是localjobrunner) 2.submitter.submitJobInternal()在该方法中会创建提交路径,计算切片 ...
YARN(MapReduce 2)运行MapReduce的过程-源码分析
这是我的分析,当然查阅书籍和网络.如有什么不对的,请各位批评指正.以下的类有的并不完全,只列出重要的方法. 如要转载,请注上作者以及出处. 一.源码阅读环境需要安装jdk1.7.0版本及其以上版本, ...
MapReduce任务提交源码分析
为了测试MapReduce提交的详细流程.需要在提交这一步打上断点: F7进入方法: 进入submit方法: 注意这个connect方法,它在连接谁呢?我们知道,Driver是作为客户端存在的,那么客 ...
【spring源码分析】IOC容器初始化（一）
前言:spring主要就是对bean进行管理,因此IOC容器的初始化过程非常重要,搞清楚其原理不管在实际生产或面试过程中都十分的有用.在[spring源码分析]准备工作中已经搭建好spring的环境, ...
React事件杂记及源码分析
前提最近通过阅读React官方文档的事件模块,发现了其主要提到了以下三个点调用方法时需要手动绑定this React事件是一种合成事件SyntheticEvent,什么是合成事件? 事件属性 ...
MapReduce源码分析之JobSubmitter（一）
JobSubmitter,顾名思义,它是MapReduce中作业提交者,而实际上JobSubmitter除了构造方法外,对外提供的唯一一个非private成员变量或方法就是submitJobInter ...
Hadoop2源码分析－MapReduce篇
1.概述前面我们已经对Hadoop有了一个初步认识,接下来我们开始学习Hadoop的一些核心的功能,其中包含mapreduce,fs,hdfs,ipc,io,yarn,今天为大家分享的是mapred ...
MapReduce之提交job源码分析 FileInputFormat源码解析
MapReduce之提交job源码分析 job 提交流程源码详解 //runner 类中提交job waitForCompletion() submit(); // 1 建立连接 connect(); ...

随机推荐

shell中的引号和转义
引号和转义 Bash 只有一种数据类型,就是字符串.不管用户输入什么数据,Bash 都视为字符串.因此,字符串相关的引号和转义,对 Bash 来说就非常重要. 转义某些字符在 Bash 里面有特殊含 ...
angr脚本——以angrctf解题记录为参考
angr脚本--以angrctf解题记录为参考 angr是用于逆向工程中进行二进制分析的一个python框架符号执行 (Symbolic Execution)是一种程序分析技术.其可以通过分 ...
国家密码标准-商密SM2官方文档整理
SM2官方文档整理算法原理 SM2算法介绍我国自主知识产权的商业密码算法,是ECC(椭圆加密算法)的一种,基于椭圆曲线离散对数问题(公钥密码体制所依据的难题主要为大素数分解问题.离散对数问题.椭圆 ...
Spring Boot & Cloud 轻量替代框架 Solon 1.4.1 发布
Solon 是一个微型的Java开发框架.强调,克制 + 简洁 + 开放的原则:力求,更小.更快.更自由的体验.支持:RPC.REST API.MVC.Micro service.WebSocket. ...
java并发编程:深入了解synchronized
简介 synchronized是Java语言的关键字,可用来给对象和方法或者代码块加锁,当它锁定一个方法或者一个代码块的时候,同一时刻最多只有一个线程执行这段代码.同时它还保证了共享变量的内存可见性. ...
Jmeter(四十五) - 从入门到精通高级篇 - Jmeter之网页爬虫-上篇（详解教程）
1.简介上大学的时候,第一次听同学说网页爬虫,当时比较幼稚和懵懂,觉得就是几只电子虫子爬在网页上在抓取东西.后来又听说写代码可以实现网页爬虫,宏哥感觉高大上,后来工作又听说,有的公司做爬虫被抓的新闻 ...
Jekyll+GitHub Pages部署自己的静态Blog
混了这么久,一直想拥有自己的博客,通过jekyll和GitHub Pages捣腾出了自己的博客(https://www.ichochy.com) 一.安装jekyll 首先有安装Ruby的开发环境运 ...
（Dubbo架构）基于MDC+Filter的跨应用分布式日志追踪解决方案
在单体应用中,日志追踪通常的解决方案是给日志添加 tranID(追踪ID),生成规则因系统而异,大致效果如下: 查询时只要使用 grep 命令进行追踪id筛选即可查到此次调用链中所有日志,但是在 du ...
[Python] Tkinter command
例1:创建按钮 import tkinter as tk class App: def __init__(self,root): frame = tk.Frame(root) frame.pack() ...
[Linux] Linux命令行与Shell脚本编程大全 Part.2
进程 Linux是多用户系统,多个用户可以在不同地方通过网络连接到一个Linux系统上进行操作 w:显示登录人员信息 date:显示当前日期.时间和时区 up:从开机登录到现在经过的时间 load a ...

MapReduce —— MapTask阶段源码分析（Input环节）

MapReduce —— MapTask阶段源码分析（Input环节）的更多相关文章

随机推荐

热门专题