Google论文系列(2) MapReduce

思想
map函数:处理一组key/value对进而生成一组key/value对的中间结果
reduce函数:将具有相同Key的中间结果进行归并

实现
环境
普通带宽,上千台机器(失败变得正常),廉价硬盘,调度系统。
执行过程
- 文件划分
- master分派map和reduce任务
- 执行map函数
- 中间结果缓存和位置传递
- 执行reduce函数
- 生成最终结果文件
- 结果返回
Master是将中间结果文件从map task传递到reduce task的渠道。
保存:对于每个完成的map task,master会保存由它产生的R个中间结果文件的大小及位置。
收到:中间结果信息上报:当map task结束后,将会受到对于这些位置和大小信息的更新。
推送:中间结果信息(位置+大小)会被逐步推送到那些包含正在处理中国的reduce task 的worker
容错:
标记失败:Master周期性地ping每个worker。一定时间内无响应则标记失败。
重新执行:标记失败worker上的完成状态任务需要重新执行,因为中间结果仍保存在失败机器上。
Master失败:从上次检查点状态恢复拷贝。
本地化:输入和中间结果本地存取。
任务粒度:
R个map task 和 M各reduce task,M和R都应当远远大于运行worker的机器数目。
优点:
提高动态负载平衡。
加速worker失败后的恢复过程。
M的选择:使每个独立task输入数据限制在16M到64M之间。
R的选择:大概是使用worker机器的几倍。
备份任务:
长尾:花费相当长的时间去完成MapReduce任务中最后剩下的极少数的那几个task的那台机器。
解决:当MapReduce任务接近尾声的时候,master会备份那些还在执行的task,只要该task的主本或者一个副本完成了,我们就认为它完成了。
技巧
- 划分函数
- 有序化保证:中间结果的key/value对是按照key值的增序进行处理
- 合并函数:每个reduce task部分归并
- 输入和输出类型:预定义的类型就足够了
- 副作用:map和reduce操作过程中产生一个文件作为额外输出,应用程序编写者保证这些操作的原子性以及幂等性(backup机制)
- 跳过坏记录:一种可选模式,在该模式下,MapReduce库会检测哪些记录会引发crash,然后跳过它们继续执行。
- 本地执行:调试和小规模测试可以再本地串行执行
- 状态信息:web页面
- 计数器:MapReduce库提供了一些计数器设施来计算各种事件的发生。
MapReduce优点:
- 模型容易使用,隐藏了并行化、容错、本地化优化、负载平衡的细节
- 大量的问题可以简单地用MapReduce计算来表达
- 可以扩展到数千台机器上
参考资料:
《google系列论文》- MapReduce
Google论文系列(2) MapReduce的更多相关文章
- Google论文之三----MapReduce
Google论文之三----MapReduce MapReduce:大型集群上的简单数据处理 摘要 MapReduce是一个设计模型,也是一个处理和产生海量数据的一个相关实现.用户指定一个用于处理一个 ...
- 转:Google论文之三----MapReduce
文章来自于:http://www.cnblogs.com/geekma/p/3139823.html MapReduce:大型集群上的简单数据处理 摘要 MapReduce是一个设计模型,也是一个处理 ...
- hadoop系列四:mapreduce的使用(二)
转载请在页首明显处注明作者与出处 一:说明 此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的一些内容,如hadoop,spark,storm,机器学习等. 当前使用的hadoop版本为2.6 ...
- [转]玩转Google开源C++单元测试框架Google Test系列
gtest的官方网站是: http://code.google.com/p/googletest/ 从官方的使用文档里,你几乎可以获得你想要的所有东西 http://code.google.com/p ...
- 转:玩转Google开源C++单元测试框架Google Test系列
转自http://www.cnblogs.com/coderzh/archive/2009/04/06/1426755.html 前段时间学习和了解了下Google的开源C++单元测试框架Google ...
- 玩转Google开源C++单元测试框架Google Test系列(转载)
越来越多公司采用敏捷开发,单元和回归测试越来越重要,GTest作为最佳C++单元测试工具越来越多的被使用.转自 http://www.cnblogs.com/coderzh/archive/2009/ ...
- Google的PageRank及其Map-reduce应用(日志五)
上一篇:Hadoop的安装(日志四) 1,算法的原理解释: 如下图所示,G就是传说中的谷歌矩阵,这个矩阵是n*n型号的,n表示共计有n个网页. 如矩阵中所示: 11位置处的元素,是表示第一个网页指向的 ...
- hadoop系列三:mapreduce的使用(一)
转载请在页首明显处注明作者与出处 http://www.cnblogs.com/zhuxiaojie/p/7224772.html 一:说明 此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的 ...
- 读论文系列:Deep transfer learning person re-identification
读论文系列:Deep transfer learning person re-identification arxiv 2016 by Mengyue Geng, Yaowei Wang, Tao X ...
随机推荐
- java.lang.IllegalArgumentException: Comparison method violates its general contract!
这个错误就是写比较器的时候少写了返回值的情况: 比如: Collections.sort(list, new Ordering<QtmSysUserListDto>() { @Overri ...
- 事务操作的统计,TPS的计算,隔离级别的读提交
对于事务操作的统计 因为InnoDB存储引擎是支持事务的,因此对于InnoDB存储引擎的应用,在考虑每秒请求数(Question Per Second,QPS)的同时,也许更应该关注每秒事务处理的能力 ...
- Velocity工作原理解析和优化
在MVC开发模式下,View离不开模板引擎,在Java语言中模板引擎使用得最多是JSP.Velocity和FreeMarker,在MVC编程开发模式中,必不可少的一个部分是V的部分.V负责前端的页面展 ...
- c++ 同步阻塞队列
参考:<C++11深入应用> 用同步阻塞队列解决生产者消费者问题. 生产者消费者问题: 有一个生产者在生产产品,这些产品将提供给若干个消费者去消费,为了使生产者和消费者能并发执行,在两者之 ...
- Abschlussarbeit:Konstruktion und Implementierung von Dota2 Datenbank Intelligent Verwaltungsplatfom
1.Die Hintergrund und Bedeutung des Themas Dank nicht ausreichendes Erkenntnisse der Spielplanner un ...
- ASP.NET MVC* 采用Unity依赖注入Controller
Unity是微软Patterns & Practices团队所开发的一个轻量级的,并且可扩展的依赖注入(Dependency Injection)容器,它支持常用的三种依赖注入方式:构造器注入 ...
- ThinkPHP出现项目目录不可写,目录无法自动生成
问题描述:维护一个老项目,用的TP2.1,down完代码,配好环境,访问的时候出现“项目目录不可写,目录无法自动生成!请使用项目生成器或者手动生成项目目录~”: 问题原因:在linux 服务器上,th ...
- layui登录后token问题
layui是一个非常简单且实用的后台管理系统搭建框架,里面的插件丰富使用简单,只需要在原有基础上进行修改即可,但是在数据处理方面略显薄弱,内置的jquery在实际过程中略显不足,若是能添加内置的mvc ...
- Linux下一个最简单的不依赖第三库的的C程序(1)
如下代码是一段汇编代码,虽然标题中使用了C语言这个词语,但下面确实是一段汇编代码,弄清楚了这个代码,后续的知识点才会展开. simple_asm.s: #PURPOSE: Simple program ...
- Hive & SparkSQL 比较
Hive 在 Hadoop 集群上所有数据的访问都是通过 Java 编写的 MapReduce 作业来完成的,这些让 Java 程序员来完成没有问题. 但是对 SQL 程序员来说,写 MapRedu ...