MapReduce和Hadoop流

MapReduce:分布式计算的框架

MapReduce是一个软件框架，可以将单个计算作业分配给多台计算机执行。

MapReduce在大量节点组成的集群上运行。它的工作流程是：单个作业被分成很多小份，输入数据也被切片分发到每个节点，各个节点只在本地数据上做运算，对应的代码称为mapper，这个过程被称作map阶段。每个mapper的输出通过某种方式组合(一般还会做排序)。排序后的结果再被分成小份分发到各个节点进行下一步处理工作。第二步的处理阶段被称为reduce阶段，对应的运行代码被称为reducer。reducer的输出就是程序的最终执行结果。

MapReduce的整个编配工作由主节点(master node)控制。这些主节点控制整个MapReduce作业编配，包括每份数据存放的节点位置，以及map,sort和reduce等阶段的时序控制等。此外，主节点还要包含容错机制。一般的，每份mapper的输入数据会同时分发到多个节点形成多份副本，用于事务的失效处理。

MapReduce的学习要点：

·主节点控制MapReduce的作业流程

·MapReduce的作业可以分成map任务和reduce任务

·map任务之间不做数据交流，reduce任务也一样

·在map和reduce阶段中间，有一个sort或combine阶段

·数据被重复放在不同的机器上，以防某个机器失效

·mapper和reducer传输的数据形式为key/value对

Hadoop流

Hadoop可以运行Java之外的其他语言编写的分布式程序。

Hadoop流很像Linux系统中的管道(管道使用符号|,可以将一个命令的输出作为另一个命令的输入)

例如：

cat inputFile.txt | python mapper.py | sort | python reducer.py > outputFile.txt

MapReduce和Hadoop流的更多相关文章

Hadoop 流
前言 Hadoop流提供了一个API,允许用户使用任何脚本语言编写Map函数或Reduce函数. 本文对此知识点进行介绍. Hadoop流的工作原理在以前的例子中,Map和Reduce工作都是由类来 ...
【Big Data - Hadoop - MapReduce】hadoop 学习笔记：MapReduce框架详解
开始聊MapReduce,MapReduce是Hadoop的计算框架,我学Hadoop是从Hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密.这个可能 ...
第五篇：Hadoop流
前言 Hadoop流提供了一个API,允许用户使用任何脚本语言编写Map函数或Reduce函数. 本文对此知识点进行介绍. Hadoop流的工作原理在以前的例子中,Map和Reduce工作都是由类来 ...
mapreduce of hadoop
[mapreduce of hadoop] 1. MapReduce作业(Job)是客户端想要执行的一个作单元, 它包括: 输入数据, MapReduce程序, 配置信息. 2. Hadoop将作业成 ...
MapReduce与Hadoop之比较
MapReduce与Hadoop之比较 Hadoop是Apache软件基金会发起的一个项目,在大数据分析以及非结构化数据蔓延的背景下,Hadoop受到了前所未有的关注. Hadoop是一种分布式数据和 ...
【Hadoop测试程序】编写MapReduce测试Hadoop环境
我们使用之前搭建好的Hadoop环境,可参见: <[Hadoop环境搭建]Centos6.8搭建hadoop伪分布模式>http://www.cnblogs.com/ssslinppp/p ...
从wordcount 开始 mapreduce (C++\hadoop streaming模式)
序:终于开始接触hadoop了,从wordcount开始 1. 采用hadoop streamming模式优点:支持C++ pathon shell 等多种语言,学习成本较低,不需要了解hadoop ...
MapReduce框架Hadoop应用(一)
Google对其的定义:MapReduce是一种变成模型,用于大规模数据集(以T为级别的数据)的并行运算.用户定义一个map函数来处理一批Key-Value对以生成另一批中间的Key-Value对,再 ...
MapReduce、Hadoop、PostgreSQL、Spark
分布式数据库操作指令如何实现云计算?注:GIS数据集谷歌集群系统主要包括三个部分:分布式文件系统GFS,分布式并行计算模型map/reduce,以及分布式数据库Bigtable hadoop是g ...

随机推荐

TFS数据库分离附加经验总结
因TFS数据库已经100多G,所在的服务器D盘已没有空间满足tfs数据库的增长速度,故必须分离复制到其它盘.在分离过程中,先后分离了ReportServer.ReportServerTempDB.Tf ...
MySQL备份和还原数据库及慢查询日志使用
codevs 3096 流输入练习——寻找Sb.VI
时间限制: 1 s 空间限制: 16000 KB 题目等级 : 白银 Silver 题目描述 Description 已知某开放授权人员名叫Serb,由于经常修改各种数据,因此开发人员们都喊他SB ...
Invalid bound statement (not found): com.ros.dao.LogMapper.insert
org.apache.ibatis.binding.BindingException: Invalid bound statement (not found): com.ros.dao.LogMapp ...
与调试器共舞 - LLDB 的华尔兹
你是否曾经苦恼于理解你的代码,而去尝试打印一个变量的值? 1 NSLog(@"%@", whatIsInsideThisThing); 或者跳过一个函数调用来简化程序的行为? 1 ...
maven项目在myeclipse中不出现Maven Dependencies 和maven标识的解决方法
这种情况通常出现在我们新加载了一个 maven的项目,但是myeclipse没识别到. 或者说我们把该项目修改成了maven项目--------也就是说该项目有了pom.xml 但是还没有mav ...
jQuery实现滚动条下拉时无限加载
var lastId=0;//记录每一次加载时的最后一条记录id,跟您的排序方式有关. var isloading = false; $(window).bind("scroll" ...
bzoj5138 [Usaco2017 Dec]Push a Box
题目描述: bz luogu 题解: 暴力可以记录$AB$位置转移,这个时候状态是$n^4$的,无法接受. 考虑只记录$A$在$B$旁边时的状态,这个时候状态时$n^2$的. 所以说转移有两种,一种是 ...
html中footer如何一直保持在页底
最近在开发博客过程中,遇到有些body的height是比window的height要低的,然后就出现了footer在页面中间的尴尬样子.那么这种情况怎么解决呢: 首先,写一个footer标签: < ...
【Java_基础】空串、空格串、null的区别
1.表示的区别 string str1 = ""; //空串 str1.length() 等于 0 string str2 = " "; / ...

MapReduce和Hadoop流

MapReduce和Hadoop流的更多相关文章

随机推荐

热门专题