partition实现

partition的作用是把环形缓冲区中的map输出分区存储，以便分配给不同的reducer。

把内部的实现写下来，作为一个学习笔记

在map函数，调用context.write()时，会去调用分区函数，得到分区号，把分区号一块写进keyvalue的元数据。
当环形缓冲区达到溢写磁盘时
- a) 对每个分区内的数据进行排序
- b) 把每个分区内的数据写到磁盘

下面通过代码来说明

1

context.write(K,V) -> MapTask.NewOutputCollector.write(K, V) -> MapOutputBuffer.collect(K, V, partion)

void MapTask.NewOutputCollector.write(K key, V value) {

      collector.collect(key, value,

                        partitioner.getPartition(key, value, partitions));        // 调用分区函数

    }

MapOutputBuffer.collect(K, V, partion) {

    ...

    kvmeta.put(kvindex + PARTITION, partition);        // 把分区号一块写进keyvalue元数据

    ...

}

2-a)

MapTask.MapOutputBuffer.flush()->MapTask.MapOutputBuffer.sortAndSpill()->IndexedSortable.compare(final int mi, final int mj)



void MapTask.MapOutputBuffer.sortAndSpill() {

    ...

    sorter.sort(MapOutputBuffer.this, mstart, mend, reporter);        // 对数据进行排序,默认采用快速排序。调用了下面的compare()方法

    ...

}

// 比较 mi和mj所对应的两个key，这个方法先比较分区号，如果分区号相同，才有必要比较key，实现了按各个分区内的key进行排序

public int MapTask.MapOutputBuffer.compare(final int mi, final int mj) {

      final int kvi = offsetFor(mi % maxRec);

      final int kvj = offsetFor(mj % maxRec);

      final int kvip = kvmeta.get(kvi + PARTITION);        // 从keyvalue元数据取出mi的分区号

      final int kvjp = kvmeta.get(kvj + PARTITION);        // 从keyvalue元数据取出mj的分区号

      // sort by partition

      if (kvip != kvjp) {           // 如果分区号不相同，直接比较分区号:分区号的大小决定了写磁盘时的先后顺序

        return kvip - kvjp;

      }

      // sort by key               // 分区号相同，再比较key，这个方法调用RawComparator.compare(buffer, s1, l1, s2, l2);

      return comparator.compare(kvbuffer,

          kvmeta.get(kvi + KEYSTART),                                            // key1的开始位置

          kvmeta.get(kvi + VALSTART) - kvmeta.get(kvi + KEYSTART),               // key1的结束位置

          kvbuffer,

          kvmeta.get(kvj + KEYSTART),                                            //key2的开始位置

          kvmeta.get(kvj + VALSTART) - kvmeta.get(kvj + KEYSTART));              // key2的开始位置

    }

2-b)

a和b都是在sortAndSpill()中



void MapTask.MapOutputBuffer.sortAndSpill() {

    ...

    sorter.sort(MapOutputBuffer.this, mstart, mend, reporter);        // 对数据进行排序,默认采用快速排序。调用了下面的compare()方法

    ...

   // 按分区号从小到大，一个分区一个分区写进磁盘

   for (int i = 0; i < partitions; ++i) {

    ...

	while (spindex < mend &&

            kvmeta.get(offsetFor(spindex % maxRec) + PARTITION) == i) {  // 从元数据读出kv分区号，如果是当前正在写磁盘的分区号，就把这个kv写到磁盘

	    final int kvoff = offsetFor(spindex % maxRec);

     	    int keystart = kvmeta.get(kvoff + KEYSTART);

            int valstart = kvmeta.get(kvoff + VALSTART);

	    key.reset(kvbuffer, keystart, valstart - keystart);

	    getVBytesForOffset(kvoff, value);

	    writer.append(key, value);                                // 把kv写到磁盘

	    ++spindex;

	}

    }

	...

}

经过上面这些步骤，环形缓冲区内的kv，就按分区写到磁盘，并且每个分区内的数据是有序的。

当然，这并不能保证同一个分区内，先后溢写的数据是有序的。后面使用归并排序对磁盘上的分区数据再做一轮排序，这个以后再做分析。

partition实现的更多相关文章

Partition：增加分区
在关系型 DB中,分区表经常使用DateKey(int 数据类型)作为Partition Column,每个月的数据填充到同一个Partition中,由于在Fore-End呈现的报表大多数是基于Mon ...
Partition：Partiton Scheme是否指定Next Used？
在SQL Server中,为Partition Scheme多次指定Next Used,不会出错,最后一次指定的FileGroup是Partition Scheme的Next Used,建议,在执行P ...
Partition：分区切换（Switch）
在SQL Server中,对超级大表做数据归档,使用select和delete命令是十分耗费CPU时间和Disk空间的,SQL Server必须记录相应数量的事务日志,而使用switch操作归档分区表 ...
sql 分组取最新的数据sqlserver巧用row_number和partition by分组取top数据
SQL Server 2005后之后,引入了row_number()函数,row_number()函数的分组排序功能使这种操作变得非常简单分组取TOP数据是T-SQL中的常用查询, 如学生信息管理系 ...
Oracle Partition Outer Join 稠化报表
partition outer join实现将稀疏数据转为稠密数据,举例: with t as (select deptno, job, sum(sal) sum_sal from emp group ...
SQLServer中Partition By 函数的使用
今天群里看到一个问题,在这里概述下:查询出不同分类下的最新记录.一看这不是很简单的么,要分类那就用Group By;要最新记录就用Order By呗.然后在自己的表中试着做出来: 首先呢我把表中的数据 ...
[LeetCode] Partition Equal Subset Sum 相同子集和分割
Given a non-empty array containing only positive integers, find if the array can be partitioned into ...
[LeetCode] Partition List 划分链表
Given a linked list and a value x, partition it such that all nodes less than x come before nodes gr ...
快速排序中的partition函数的枢纽元选择，代码细节，以及其标准实现
很多笔试面试都喜欢考察快排,叫你手写一个也不是啥事.我很早之前就学了这个,对快速排序的过程是很清楚的.但是最近自己尝试手写,发现之前对算法的细节把握不够精准,很多地方甚至只是大脑中的一个映像,而没有理 ...
[bigdata] kafka基本命令 -- 迁移topic partition到指定的broker
版本 0.9.2 创建topic bin/kafka-topics.sh --create --topic topic_name --partition 6 --replication-factor ...

随机推荐

dubbo服务框架学习
====================================================================================== 1.提供注册服务.消费者可 ...
Storm实时计算框架的编程模式
storm分布式流式计算框架. nimbus:主进程服务(职责就是任务的分配的,程序的分发) supervisor:工作进程服务(职责就是启动线程池,接受任务,运行任务,报告任务的运行状态) 注意容错 ...
Rehat 5.8下oracle11g安装
Oracle 11g Redhat 5安装一.检查硬件是否满足要求检查一内存 On Linux x86: At least 1 GB of RAM 内存至少1G To determine the ...
BZOJ1407_NOI2002_荒岛野人_Savage_C++
题目:http://www.lydsy.com/JudgeOnline/problem.php?id=1407 题解:http://www.cnblogs.com/hadilo/p/5951091.h ...
MATLAB mex文件
MATLAB的mex文件是一种特征的函数封装形式,这类函数一般由C/C++语言编写的,经过MATLAB编译器处理而生成的二进制文件.它是可以被MATLAB解释器自动装载并执行的动态链接程序,类似于wi ...
c# 清空txt文本文件的值
FileStream fs1 = null; try { fs1 = new FileStream(@"C:\db.txt", FileMode.Truncate, FileAcc ...
php最简单的文件处理。
<?php $DOCUMENT_ROOT =$_SERVER['DOCUMENT_ROOT']; ?> <html> <head> <title>Bob ...
学习练习 java 不重复的三位偶数
编写一个Java程序,计算一下1,2,…,9这9个数字可以组成多少个互不相同的.无重复数字的三位偶数. package com.hanqi; //编写一个Java程序,计算一下1,2,…,9 //这9 ...
java中byte转换int时为何与0xff进行与运算
在剖析该问题前请看如下代码 public static String bytes2HexString(byte[] b) { String ret = ""; for (int ...
phonegap ios默认启动页
phonegap创建的项目默认的启动界面是phonegap的图标,想去掉这个图标,有两个方法,第一就是将resourece下面的splash文件下面的图片改成自己想要的启动页面,名字要相同,替换掉它默 ...

partition实现

1

2-a)

2-b)

partition实现的更多相关文章

随机推荐

热门专题