思想

map函数:处理一组key/value对进而生成一组key/value对的中间结果

reduce函数:将具有相同Key的中间结果进行归并


实现

环境

普通带宽,上千台机器(失败变得正常),廉价硬盘,调度系统。

执行过程

  1. 文件划分
  2. master分派map和reduce任务
  3. 执行map函数
  4. 中间结果缓存和位置传递
  5. 执行reduce函数
  6. 生成最终结果文件
  7. 结果返回

Master是将中间结果文件从map task传递到reduce task的渠道。

保存:对于每个完成的map task,master会保存由它产生的R个中间结果文件的大小及位置。

收到:中间结果信息上报:当map task结束后,将会受到对于这些位置和大小信息的更新。

推送:中间结果信息(位置+大小)会被逐步推送到那些包含正在处理中国的reduce task 的worker

容错:

标记失败:Master周期性地ping每个worker。一定时间内无响应则标记失败。

重新执行:标记失败worker上的完成状态任务需要重新执行,因为中间结果仍保存在失败机器上。

Master失败:从上次检查点状态恢复拷贝。

本地化:输入和中间结果本地存取。

任务粒度:

R个map task 和 M各reduce task,M和R都应当远远大于运行worker的机器数目。

优点:

提高动态负载平衡。

加速worker失败后的恢复过程。

M的选择:使每个独立task输入数据限制在16M到64M之间。

R的选择:大概是使用worker机器的几倍。

备份任务:

长尾:花费相当长的时间去完成MapReduce任务中最后剩下的极少数的那几个task的那台机器。

解决:当MapReduce任务接近尾声的时候,master会备份那些还在执行的task,只要该task的主本或者一个副本完成了,我们就认为它完成了。


技巧

  1. 划分函数
  2. 有序化保证:中间结果的key/value对是按照key值的增序进行处理
  3. 合并函数:每个reduce task部分归并
  4. 输入和输出类型:预定义的类型就足够了
  5. 副作用:map和reduce操作过程中产生一个文件作为额外输出,应用程序编写者保证这些操作的原子性以及幂等性(backup机制)
  6. 跳过坏记录:一种可选模式,在该模式下,MapReduce库会检测哪些记录会引发crash,然后跳过它们继续执行。
  7. 本地执行:调试和小规模测试可以再本地串行执行
  8. 状态信息:web页面
  9. 计数器:MapReduce库提供了一些计数器设施来计算各种事件的发生。

MapReduce优点:

  1. 模型容易使用,隐藏了并行化、容错、本地化优化、负载平衡的细节
  2. 大量的问题可以简单地用MapReduce计算来表达
  3. 可以扩展到数千台机器上

参考资料:

《google系列论文》- MapReduce

Google论文系列(2) MapReduce的更多相关文章

  1. Google论文之三----MapReduce

    Google论文之三----MapReduce MapReduce:大型集群上的简单数据处理 摘要 MapReduce是一个设计模型,也是一个处理和产生海量数据的一个相关实现.用户指定一个用于处理一个 ...

  2. 转:Google论文之三----MapReduce

    文章来自于:http://www.cnblogs.com/geekma/p/3139823.html MapReduce:大型集群上的简单数据处理 摘要 MapReduce是一个设计模型,也是一个处理 ...

  3. hadoop系列四:mapreduce的使用(二)

    转载请在页首明显处注明作者与出处 一:说明 此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的一些内容,如hadoop,spark,storm,机器学习等. 当前使用的hadoop版本为2.6 ...

  4. [转]玩转Google开源C++单元测试框架Google Test系列

    gtest的官方网站是: http://code.google.com/p/googletest/ 从官方的使用文档里,你几乎可以获得你想要的所有东西 http://code.google.com/p ...

  5. 转:玩转Google开源C++单元测试框架Google Test系列

    转自http://www.cnblogs.com/coderzh/archive/2009/04/06/1426755.html 前段时间学习和了解了下Google的开源C++单元测试框架Google ...

  6. 玩转Google开源C++单元测试框架Google Test系列(转载)

    越来越多公司采用敏捷开发,单元和回归测试越来越重要,GTest作为最佳C++单元测试工具越来越多的被使用.转自 http://www.cnblogs.com/coderzh/archive/2009/ ...

  7. Google的PageRank及其Map-reduce应用(日志五)

    上一篇:Hadoop的安装(日志四) 1,算法的原理解释: 如下图所示,G就是传说中的谷歌矩阵,这个矩阵是n*n型号的,n表示共计有n个网页. 如矩阵中所示: 11位置处的元素,是表示第一个网页指向的 ...

  8. hadoop系列三:mapreduce的使用(一)

    转载请在页首明显处注明作者与出处 http://www.cnblogs.com/zhuxiaojie/p/7224772.html 一:说明 此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的 ...

  9. 读论文系列:Deep transfer learning person re-identification

    读论文系列:Deep transfer learning person re-identification arxiv 2016 by Mengyue Geng, Yaowei Wang, Tao X ...

随机推荐

  1. 《LeetBook》leetcode题解(3):Longest Substring Without Repeating Characters[M]——哈希判断重复

    我现在在做一个叫<leetbook>的免费开源书项目,力求提供最易懂的中文思路,目前把解题思路都同步更新到gitbook上了,需要的同学可以去看看 书的地址:https://hk029.g ...

  2. JavaScript数据结构-4.栈操作

    <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...

  3. graphql pass arg

    ; ; var xhr = new XMLHttpRequest(); xhr.responseType = 'json'; xhr.open("POST", "http ...

  4. Windows和Ubuntu双系统时间相差8个小时的问题

    由于要学编程,在windows 10上安装了Ubuntu16.04双系统.但是却造成windows时间老是比实际时间慢八个小时,Ubuntu会与网络同步时间,但是在程序中调用主板时间时仍然是UTC时间 ...

  5. minStack实现

    设计包含 min 函数的栈(栈)定义栈的数据结构,要求添加一个 min 函数,能够得到栈的最小元素.要求函数 min.push 以及 pop 的时间复杂度都是 O(1). #include <a ...

  6. spring mongodb中去掉_class列

    调用mongoTemplate的save方法时, spring-data-mongodb的TypeConverter会自动给document添加一个_class属性, 值是你保存的类名. 这种设计并没 ...

  7. linux定时任务之crontab

    1.使用crontab crontab -u //设定某个用户的cron服务 crontab -l //列出某个用户cron服务的详细内容 crontab -r //删除某个用户的cron服务 cro ...

  8. vue+webpack项目中使用dev-server搭建虚拟服务器,请求json文件数据,实现前后台分离开发

    在项目开发中,前后台分离,做了假数据,项目使用vue2.0重构,后台也推到重来了,为了不耽误开发进程,我做了虚拟的数据请求,使用vue-cli脚手架搭建的项目文件中dev-server搭建虚拟api请 ...

  9. Android中数据的保存

    1. 概述 在Android中有以下几种保存数据方式: 1). 使用sharedPreference去保存:只有应用程序自己可以访问 2). 保存在应用程序私有的文件夹下:只有应用程序自己可以访问 3 ...

  10. OpenStack 组成 架构

    Components of OpenStack OpenStack is on a mission: to provide scalable, elastic cloud computing for ...