MapReduce 计算模式

声明：本文摘录自《大数据日知录——架构与算法》一书。

较常见的计算模式有4类，实际应用中大部分ETL任务都可以归结为这些计算模式或者变体。

1.求和模式

　　a.数值求和

　　比如我们熟悉的单词计数，即使该模式的一个应用。求最大最小值，求平均值皆属此类。

　　b.记录求和

　　非数值内容的累加，形成队列。比如将包含某个key的网页添加到一个列表当中。

2.过滤模式

　　不对数据进行转换，只是从大量数据中筛选。

　　a.简单过滤

　　这类应用不需要对数据进行聚合（原因不复杂），所以无需reduce阶段。

　　b.Top 10

　　和简单过滤的差异在于：简单过滤的条件判断只涉及当前记录，而Top k计算模式需要在记录之间进行比较，并获得全局最大的子集。

　　思路：map =>local top k =>reduce =>overall top k

3.组织数据模式

　　a.数据分片

　　重点在partitioner策略的设计上，通过改变partitioner来将相同标准的数据经过Shuffle过程放到一起，由同一个reducer 来输出。

　　问题来了，这该如何实现呢？

　　考虑到partitioner是可以自定义的（这TM不废话么），那么，我们可以在partitioner内部实现对数据的分析，然后将其输出到不同的partition中。

　　b.全局排序

　　可以直接利用内置排序过程，也就是说，mapper只需要将要排序的字段作为key，记录内容作为value输出即可。

　　reducer其实也不需要做额外的任务，因为sort过程已经排好序了。（有一个问题，假如我对排序算法不满意怎么办？一个办法是自定义key，也就是自定义一个WritableComparable接口的类，并且根据需求实现里面的compareTo方法）

　　如果有不止一个reducer怎么办？如果不做额外的处理，排序结果就会成为局部排序。

　　有办法：Partitioner，可以将处于不同区间的key放在不同的Partition，相同区间的Key放在同一Partition。

4.Join模式

　　a.Reduce-Side Join

　　这个过程对于笔者而言比较复杂，所以这个主题会耗费较多文字。

　　在选定外键之后，所有相同外键的数据分配到了同一个Reducer。需要注意的是如何区分来自不同数据集合的记录？一个显而易见的办法是在Mapper阶段动动手脚：给记录做标记，放在Value中。

　　然后，将reducer的Value list根据集合的不同整合成2个列表（或者哈希表，其实就是一个查询效率的问题，想怎么搞就怎么搞），然后再将这些数据进行Join。

　　多说一句：整个过程需要经过数轮磁盘的读写，shuffle阶段的网络传输，以及Reduce阶段的排序，所以计算效率比较低。（意思就是Mapper几乎什么事都没干，却因为IO的问题而导致时间效率低）

　　b.Map-Side Join

　　好了，效率低的解决办法来了；不过有前提条件：数据集合一个大一个小，并且小的那个完全可以放入内存。

　　读者朋友，读到这里你应该想明白Map-side Join是怎么回事了吧！

这个问题到此告一段落！

MapReduce 计算模式的更多相关文章

使用mapreduce计算环比的实例
最近做了一个小的mapreduce程序,主要目的是计算环比值最高的前5名,本来打算使用spark计算,可是本人目前spark还只是简单看了下,因此就先改用mapreduce计算了,今天和大家分享下这个 ...
《Kafka Stream》调研：一种轻量级流计算模式
原文链接:https://yq.aliyun.com/articles/58382 摘要: 流计算,已经有Storm.Spark,Samza,包括最近新起的Flink,Kafka为什么再自己做一套流计 ...
大数据技术之_19_Spark学习_05_Spark GraphX 应用解析 + Spark GraphX 概述、解析 + 计算模式 + Pregel API + 图算法参考代码 + PageRank 实例
第1章 Spark GraphX 概述1.1 什么是 Spark GraphX1.2 弹性分布式属性图1.3 运行图计算程序第2章 Spark GraphX 解析2.1 存储模式2.1.1 图存储模式 ...
使用Python的yield实现流计算模式
首先先提一下上一篇<如何猜出Y combinator>中用的方法太复杂了.其实在Lambda演算中实现递归的思想很简单,就是函数把自己作为第一个参数传入函数,然后后面就是简单的Lambda ...
MapReduce计算模型
MapReduce计算模型 MapReduce两个重要角色:JobTracker和TaskTracker. MapReduce Job 每个任务初始化一个Job,没个Job划分为两个阶段:Map和 ...
MapReduce——计算温度最大值（基于全新2.2.0API）
MapReduce——计算温度最大值 (基于全新2.2.0API) deprecated: Job类的所有Constructors, 新的API用静态方法getInstance(conf)来去的Job ...
PyCharm：2017.3版即将新增科学计算模式，预览版现在可以下载使用
编译:Lemon,原文作者:Ernst Haagsman 公众号:Python数据之道(ID:PyDataRoad) pycharm:2017.3版即将新增科学计算模式在JetBrains将发布的新 ...
MapReduce计算模型的优化
MapReduce 计算模型的优化涉及了方方面面的内容,但是主要集中在两个方面:一是计算性能方面的优化:二是I/O操作方面的优化.这其中,又包含六个方面的内容. 1.任务调度任务调度是Hadoop中 ...
（第4篇）hadoop之魂--mapreduce计算框架，让收集的数据产生价值
摘要: 通过前面的学习,大家已经了解了HDFS文件系统.有了数据,下一步就要分析计算这些数据,产生价值.接下来我们介绍Mapreduce计算框架,学习数据是怎样被利用的. 博主福利给大家赠送一套ha ...

随机推荐

Linux Performance Analysis and Tools(Linux性能分析和工具)
首先来看一张图: 上面这张神一样的图出自国外一个Lead Performance Engineer(Brendan Gregg)的一次分享,几乎涵盖了一个系统的方方面面,任何人,如果没有完善的计算系统 ...
软件测试——Peer Review（简介）
1. 同行评审的种类和对象同行评审活动的关注点应该是工作产品中的缺陷,而不应该是工作产品的作者或者生产者,管理者也不应使用同行评审的结果去评价个人的行为. 同行评审的分类有很多种,自从IBM的Fag ...
在windows 下将 chm 格式的文件转换成 html 的文件
有时我们可能需要将 chm 格式的文件转换成 html 格式的网页文件,这时,如果你使用的是 windows 操作系统,那就可以用 windows 操作系统自带的反编译工具来完成这项任务,具体步骤: ...
外星人完事了，开始python的matplotlib玩转
外星人完事了,开始python的matplotlib玩转看书上的例子,在win下安装比较麻烦今天用pip尝试了一下 pip install matplotlib 然后等待即可安装完毕后在pyt ...
aspx后台代码写在前段
合并cs的代码 <%@ Page Language="C#" AutoEventWireup="true" Inherits="System.W ...
JS实现拖动效果
有个问题就是该模块要使用定位,因为有left,top属性使用,绝对定位和相对定位都行,当然你也可使用margin-left,和margin-top这2个属性,替换left,top也是可以得这样就不用 ...
No matter how hard it is or no matter how bad it gets, I am going to make it!
No matter how hard it is or no matter how bad it gets, I am going to make it! He always had a yearni ...
基于 tensorflow 的 mnist 数据集预测
1. tensorflow 基本使用方法 2. mnist 数据集简介与预处理 3. 聚类算法模型 4. 使用卷积神经网络进行特征生成 5. 训练网络模型生成结果 how to install ten ...
iKcamp｜基于Koa2搭建Node.js实战（含视频）☞ 代码分层
视频地址:https://www.cctalk.com/v/15114923889408 文章在前面几节中,我们已经实现了项目中的几个常见操作:启动服务器.路由中间件.Get 和 Post 形式的请 ...
r.js打包
久闻r.js的大名,但实际没有用它做过任何东西.今天用它时,发现网上许多教程都不对.研究一下,把我的实际经验分享给大家. 例子1 先是HTML页面 <!DOCTYPE html> < ...

MapReduce 计算模式

MapReduce 计算模式的更多相关文章

随机推荐

热门专题