大数据与Mapreduce

第十五章大数据与Maprudece

一．引言

实际生活中的数据量是非常庞大的，采用单机运行的方式可能需要若干天才能出结果，这显然不符合我们的预期，为了尽快的获得结果，我们将采用分布式的方式，将计算分布到不同的机器上。Mapreduce就是一个典型的分布式框架，Hadoop则是用java编写的一个Mapreduce实现。

分布式和并行的区别在于分布式它将数据分布到不同的机器上，而并行只是将数据分布到同一簇中的不同节点上，它们的区别主要体现在物理载体层面上。

二．Mapreduce简介

Mapreduce是一个分布式计算的框架，从它的名字可以看出它主要有两个过程一个是mapper,另一个是reducer，另外在它们两者之间可能还会有sort或者merge的过程。mapper的过程就是将一个大的数据进行切片之后将它分布到若干个节点上，每一节点有它自己的算法，它会将结果映射为key/value这样的键值对。如果有sort或者merge的步骤，就将这些结果进行重新组织。reducer的过程就是将前面步骤得到的结果进行重新的切片，然后进行节点的分布，经过节点算法的运算之后就得到了最终的结果。

Mapreduce在进行数据分配的时候，为了避免一个节点宕机，而导致整个程序出错，它对同一份数据进行了多次备份并将它分配到多个节点上，这样就能避免一个节点宕机所带来的影响。Mapreduce之所以能够知道某个节点出错了，是因为它有一个主控节点，它管理了当前的所有的节点，通过主空节点与其他节点的通信我们就可以知道当前其他节点的状态。这里我们需要注意的是虽然主控节点可以与其他节点进行交流，但是其他节点之间是不能进行交流的，map任务之间不进行交流，reduce任务之间也不进行交流。

综上所述，关于Mapreduce我们需要知道以下几点：

1.主控节点控制了Mapreduce的作业流程

2.Mapreduce的作业可以分成map任务和reduce任务

3.map任务之间不做数据交流，reduce任务也一样

4.在map和reduce之间，有一个sort或combine阶段

5.数据被重复的放在不同的机器上，以防某个机器失效

6.mapper和reducer传输的数据形式是key/value

三．Hadoop流

Hadoop不仅可以进行分布式计算，而且它还具有分布式文件系统，它是Mapreduce框架的一种java实现。Hadoop流就像linux中的管道一样，它能够将前一个命令的输出作为下一个命令的输入。也就是数据像流水一样在不同命令之间进行传递。Mapreduce中的数据需要从mapper流到sort，然后再到reducer,这符合Hadoop流的概念。

Hadoop本身是适用于java语言，对于非java语言我们就要使用Hadoop流

四．总结

当我们的数据量或者计算量很大的时候，我们可以考虑Hadoop和Mapreduce。其中Hadoop是Mapreduce的java实现。一个典型的作业流程是先使用map阶段并行处理数据，之后将数据在reduce阶段合并。这种多对一的模式是常见的，但是并不是唯一的。一般在map阶段之后还会对键值对key/value进行排序。

大数据与Mapreduce的更多相关文章

【机器学习实战】第15章大数据与MapReduce
第15章大数据与MapReduce 大数据概述大数据: 收集到的数据已经远远超出了我们的处理能力. 大数据场景假如你为一家网络购物商店工作,很多用户访问该网站,其中有些人会购买商品,有些人则 ...
大数据技术 - MapReduce的Combiner介绍
本章来简单介绍下 Hadoop MapReduce 中的 Combiner.Combiner 是为了聚合数据而出现的,那为什么要聚合数据呢?因为我们知道 Shuffle 过程是消耗网络IO 和磁盘I ...
大数据技术 - MapReduce的Shuffle及调优
本章内容我们学习一下 MapReduce 中的 Shuffle 过程,Shuffle 发生在 map 输出到 reduce 输入的过程,它的中文解释是 “洗牌”,顾名思义该过程涉及数据的重新分配,主要 ...
大数据开篇 MapReduce初步
最近在学习大数据相关的东西,开这篇专题来记录一下学习过程.今天主要记录一下MapReduce执行流程解析引子(我们需要解决一个简单的单词计数(WordCount)问题) 1000个单词嘿嘿,100 ...
FusionInsight大数据开发---MapReduce与YARN应用开发
MapReduce MapReduce的基本定义及过程搭建开发环境代码实例及运行程序 MapReduce开发接口介绍 1. MapReduce的基本定义及过程 MapReduce是面向大数据并行处 ...
大数据技术 —— MapReduce 简介
本文为senlie原创,转载请保留此地址:http://www.cnblogs.com/senlie/ 1.概要很多计算在概念上很直观,但由于输入数据很大,为了能在合理的时间内完成,这些计算必须分布在 ...
大数据开发 | MapReduce介绍
1. MapReduce 介绍 1.1MapReduce的作用假设有一个计算文件中单词个数的需求,文件比较多也比较大,在单击运行的时候机器的内存受限,磁盘受限,运算能力受限,而一旦将单机版程序扩展 ...
大数据技术 - MapReduce 作业的运行机制
前几章我们介绍了 Hadoop 的 MapReduce 和 HDFS 两大组件,内容比较基础,看完后可以写简单的 MR 应用程序,也能够用命令行或 Java API 操作 HDFS.但要对 Hadoo ...
大数据框架-Mapreduce过程
1.Shuffle [从mapTask到reduceTask: Mapper -> Partitioner ->Combiner -> Sort ->Reducer] mapp ...

随机推荐

Mybatis插件原理分析（二）
在上一篇中Mybatis插件原理分析(一)中我们主要介绍了一下Mybatis插件相关的几个类的源码,并对源码进行了一些解释,接下来我们通过一个简单的插件实现来对Mybatis插件的运行流程进行分析. ...
Windows下配置nginx+FastCgi + Spawn-fcgi
前提: 下载nginx, FastCgi, Spawn-fcgi Spawn-fcgi有个Windows的版本,但不能在VS中编译,这里有一个编译好的版本:http://download.csdn.n ...
android自定义组件的简易实现
写这篇博客是为了复习之前在慕课上面有幸看到的自定义组件的实现,原理很简单,有三个步骤, 为自定义的组件做好声明:封装成具体的可以使用的组件类,并利用接口回调机制为其注册监听函数:想使用正常的组件的方式 ...
【算法导论】最小生成树之Prime法
关于最小生成树的概念,在前一篇文章中已经讲到,就不在赘述了.下面介绍Prime算法: 其基本思想为:从一个顶点出发,选择由该顶点出发的最小权值边,并将该边的另一个顶点包含进来,然后找出 ...
【翻译】Ext JS——高效的编码风格指南
原文:ExtJS - Efficient coding style guide 作者:Raja 切勿使用"new"关键字:在Ext JS中,使用"new"关键字 ...
移植Cocos2D到Android平台的原理
幸运的,SpriteBuilder使得适配(安卓)多种多样的屏幕尺寸变得容易起来,因为Android Xcode插件允许你使用任何Cocos2D的特性并且可以继续使用很多iOS的框架(framewor ...
广义线性模型 R--glm函数
R语言glm函数学习: [转载时请注明来源]:http://www.cnblogs.com/runner-ljt/ Ljt 作为一个初学者,水平有限,欢迎交流指正. glm函数介绍: glm(for ...
AngularJS进阶(二十四)AngularJS与单选框及多选框的双向动态绑定
AngularJS与单选框及多选框的双向动态绑定赠人玫瑰,手留余香.若您感觉此篇博文对您有用,请花费2秒时间点个赞,您的鼓励是我不断前进的动力,共勉! AngularJS 在 <in ...
如何成为Android高手
要成为Android 高手并不是一件容易的事情.并不是很多人想象的能够飞快的写出几行漂亮的代码去解决一些困难的问题就是Android 高手了.真正的Android 高手需要考虑的问题远远不是写些漂 ...
cocos2D v3.x 中action的回调block变化
cocos2D v2.x中有带参数的回调block: id blk = [CCCallBlockN actionWithBlock:^(CCNode *node){ node.position = o ...

大数据与Mapreduce

大数据与Mapreduce的更多相关文章

随机推荐

热门专题