一个、combiner计划

每map它可能会产生大量的输出,combiner的作用是map输出端先做合并。reducer的数据量。

combiner最基本是实现本地key的归并,combiner具有类似本地的reduce功能

假设不用combiner,那么,全部的结果都是reduce完毕。效率会相对低下。

使用combiner,先完毕的map会在本地聚合,提升速度。

注意:Combiner的输出是Reducer的输入,Combiner绝不能改变终于的计算结果。

所以从我的想法来看,Combiner仅仅应该用于那种Reduce的输入key/value与输出

key/value类型全然一致,且不影响终于结果的场景。比方累加,最大值等。

Combiner仅在Map端进行数据归约。 Map之间的数据是无法归约的,因此必须使用Reducer

   Combiner的适合场景:求和,最大值,最小值等

   Combiner的不适合场景:求平均数

   举例

   假如有1T的数据。对里面的数据求和,这一个T的数据被分成非常多Block,再Map端进行读取之后所有送入Reducer端,这种话Reducer处理的数据>=1T

   可是假设再map端进行Combiner合并之后再传到Reducer之后,那么Reducer端处理的数据就非常少了。这样就体现了分布式的优势。(相反不用Combiner就根部体现不了分    布式的优势)

二、Partitioner编程

Partitioner是partitioner的基类,假设须要定制partitioner也须要继承该类。



HashPartitioner是mapreduce的默认partitioner。计算方法是

which reducer=(key.hashCode() & Integer.MAX_VALUE) % numReduceTasks。得到当前的目的reducer。

(样例以jar形式执行)



来看下默认的HashPartitioner

public class HashPartitioner<K2, V2> implements Partitioner<K2, V2> {



  public void configure(JobConf job) {}



  /** Use {@link Object#hashCode()} to partition. */

  public int getPartition(K2 key, V2 value,

                          int numReduceTasks) {

    return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;

  }



}

注意:这里的getPartition默认的返回值是0,返回值是分区的编号

假设我们没有自己定义分区的话。默认就仅仅有一个分区

适合场景:城市的分区。IP地址的分区,电话号码的分区等等 

分组跟排序

分组要实现RaoComparator接口 

在map和reduce阶段进行排序时,比較的是k2。

v2是不參与排序比較的。假设要想让v2也进行排序,须要把k2和v2组装成新的类,作为k2,才干參与比較。



分组时也是依照k2进行比較的。

Shuffle

1 每一个map有一个环形内存缓冲区,用于存储任务的输出。默认大小100MB(io.sort.mb属性)。一旦达到阀值0.8(io.sort.spill.percent),一个后台线程把内容写到(spill)磁盘的指定文件夹(mapred.local.dir)下的新建的一个溢出写文件。

2 写磁盘前。要partition,sort。假设有combiner,combine排序后数据。

3 等最后记录写完。合并所有溢出写文件为一个分区且排序的文件。

2.1 Reducer通过Http方式得到输出文件的分区。

2.2 TaskTracker为分区文件执行Reduce任务。复制阶段把Map输出拷贝到Reducer的内存或磁盘。一个Map任务完毕,Reduce就開始复制输出。

2.3 排序阶段合并map输出。然后走Reduce阶段。

仅仅看这个图,不看other maps。other reducers。有4个map任务。3个reducer

Reducer源代码有Shuffle定义

版权声明:本文博客原创文章,博客,未经同意,不得转载。

MapReduce架构和算法(2)的更多相关文章

  1. MapReduce 模式、算法和用例(MapReduce Patterns, Algorithms, and Use Cases)

    在新文章“MapReduce模式.算法和用例”中,Ilya Katsov提供了一个系统化的综述,阐述了能够应用MapReduce框架解决的问题. 文章开始描述了一个非常简单的.作为通用的并行计算框架的 ...

  2. 读&lt;大数据日知录:架构与算法&gt;有感

    前一段时间, 一个老师建议我能够学学 '大数据' 和 '机器学习', 他说这必定是今后的热点, 学会了, 你就是香饽饽.在此之前, 我对大数据, 机器学习并没有非常深的认识, 总觉得它们是那么的缥缈, ...

  3. HBase、HDFS和MapReduce架构异同简解

    HBase.HDFS和MapReduce架构异同 .. HBase(公司架构模型) HDFS2.0(公司架构模型) MR2.0(公司架构模型) MR1.0(公司架构模型) 中央 HMaster Nam ...

  4. Hadoop实战训练————MapReduce实现PageRank算法

    经过一段时间的学习,对于Hadoop有了一些了解,于是决定用MapReduce实现PageRank算法,以下简称PR 先简单介绍一下PR算法(摘自百度百科:https://baike.baidu.co ...

  5. MapReduce实现PageRank算法(邻接矩阵法)

    前言 之前写过稀疏图的实现方法,这次写用矩阵存储数据的算法实现,只要会矩阵相乘的话,实现这个就很简单了.如果有不懂的可以先看一下下面两篇随笔. MapReduce实现PageRank算法(稀疏图法) ...

  6. MapReduce 模式、算法和用例

    翻译自:http://highlyscalable.wordpress.com/2012/02/01/mapreduce-patterns/ 在这篇文章里总结了几种网上或者论文中常见的MapReduc ...

  7. MapReduce架构与执行流程

    一.MapReduce是用于解决什么问题的? 每一种技术的出现都是用来解决实际问题的,否则必将是昙花一现,那么MapReduce是用来解决什么实际的业务呢? 首先来看一下MapReduce官方定义: ...

  8. 2本Hadoop技术内幕电子书百度网盘下载:深入理解MapReduce架构设计与实现原理、深入解析Hadoop Common和HDFS架构设计与实现原理

    这是我收集的两本关于Hadoop的书,高清PDF版,在此和大家分享: 1.<Hadoop技术内幕:深入理解MapReduce架构设计与实现原理>董西成 著  机械工业出版社2013年5月出 ...

  9. MapReduce架构与生命周期

    MapReduce架构与生命周期 概述:MapReduce是hadoop的核心组件之一,可以通过MapReduce很容易在hadoop平台上进行分布式的计算编程.本文组织结果如下:首先对MapRedu ...

随机推荐

  1. 雷人的一幕:国外的codeproject论坛竟有人发“中文贴”.....

    潜水近一年,头一次见国人在此发“中文贴”,截图留个“纪念”....

  2. Codeforces Round#297 div2

    B: 题意:给定一个字符串,然后给定m个数字 对于每个数字ai的含义是,将ai到n-ai+1的字符串给翻转一遍. 要求输出m次翻转之后的字符串. 想法就是判断第i个位置的字符是翻转了奇数次,还是偶数次 ...

  3. hadoop版本号变迁

    近期在研究hadoop时,发现hadoop的版本号非常混乱.原来的版本号都说0.X.X開始,后来发现有1.X.X和2.X.X 这样就不太清楚了. 0.20.2版本号曾经(不含该版本号)的配置文件都在d ...

  4. MySQL 批量Dll操作(转)

    概述 本章节介绍使用游标来批量进行表操作,包括批量添加索引.批量添加字段等.如果对存储过程.变量定义.预处理还不是很熟悉先阅读我前面写过的关于这三个概念的文章,只有先了解了这三个概念才能更好的理解这篇 ...

  5. Javadoc的Html文件传输chm

     Javadoc的Html文件转chm 工具下载地址:http://msdn.microsoft.com/en-us/library/ms669985.aspx 两篇相关文章: MyEclipse ...

  6. 发现C++Builder 2010一组类BUG

        今天C++Builder 2010写小码,我们用一个集合类.您可以设置操作结果是不正确的,排除其他原因引起的,最后,它应该被设置以确定问题类的源,以下是一个集合类测试代码: enum TTes ...

  7. vim代码折叠命令简短

    作者:zhanhailiang 日期:2014-10-18 1. 通过fdm实现代码折叠:set fdm=xxx 有下面6种方式实现折叠: |fold-manual| manual Folds are ...

  8. SharePoint综合Excel数据与Excel Web Access Web部分

    SharePoint综合Excel数据与Excel Web Access Web部分 Excel Web Access Web零件SharePoint于Excel以电子形式提交数据. 1. 打开Exc ...

  9. ORACLE Install (10g r2) FOR Red Hat Enterprise Linux Server release 5.5 (64 bit) (转)

    OS Info----------# cat /etc/redhat-releaseRed Hat Enterprise Linux Server release 5.5 (Tikanga)# cat ...

  10. 【Python项目】配合爱漫画爬取漫画脚本而设计的GUI漫画阅读器 (一)

    博客园的第一个坑,想想都有点小激动 =3= 首先是那个爬虫的地址: [原创]最近写的一个比较hack的小爬虫 选择工具: 以前用过Qt,那么选pyqt4也就是情理之中了. 明确需求: 0.首先,要读取 ...