云计算(5)---MapReduce

什么是MapReduce

例如用MapReduce如何计算1²+2²+3²+4²

用MapReduce执行Wordcount

步骤1：Map

map task1 和map task2是独立，并行进行

并行处理能加快速度

Map阶段输出起中间媒介作用的(key,value)值,做为Reduce的输入

步骤2 Reduce

Map的输出是Reduce的输入,最后Reduce输出右边的(key,value)

Reduce阶段不是独立进行的,而是根据key值进行分组,同一个key值的record在一个Reduce进程中运行，这样它们才能sum up.

Reduce具体的工作(partition和merge)

相同的key分到一个Reduce task, 具体分给哪个reduce处理，可以用Hash partitioning来计算,之所以选择Hash是因为它映射的hash number能做到均匀负载

Hadoop code - Map(Hadoop是开源的，而MapReduce不是的,MapReduce是由google发明的)

Wordcount的代码

MapReduce是由Google发明的，但是并没有公开实现代码，只是发表了关于它的论文

Yahhoo的工程师写了开源的MapReduce的实现,所以它变为了Apache Hadoop,现在被广泛应用

MapClass继承了基础的MapReduceBase类，实现了一个接口(一个模板接口)

Main function 是map, key和value(是text类型的数据)作为参数,有一个output,和reporter(以防止你想事后report一些事情)

Hadoop code - Reduce

Main function为reduce

一个key调用一次reduce function,多个key则调用多次reduce function

reduce function将对应同一个key的values相加.

Hadoop code - Driver

conf.setJobName(“mywordcount”); 设置job的名字

conf.setOutputKeyClass("Text.class"); 设置output key的class为words

conf.setOutputValueClass(IntWritable.class); 设置values的class为 ints

conf.setMapperClass();设置map的class

conf.setReducerClass();设置reduce的class

FileInputFormat.addInputPath(); 将data的文件目录加入inputPath

FileOutputFormat.setOutputPath(); 设置output的path目录

JobClient.runJob(conf); run这个job

云计算(5)---MapReduce的更多相关文章

换个角度理解云计算之MapReduce
上一篇简单讲了一下HDFS,简单来说就是一个叫做“NameNode”的大哥,带着一群叫做“DataNode”的小弟,完成了一坨坨数据的存储,其中大哥负责保存数据的目录,小弟们负责数据的真正存储,而大哥 ...
换个角度理解云计算之MapReduce(二)
接上篇 3.Combiner操作前面讲完Map操作,总结一下就是:一个大文件,分成split1~5,对应于Map1~5,每一个Map处理一个split,每一个split的每一行,会用每一个Map的m ...
云计算(8)--MapReduce如何处理fault
一些常见的故障 NM周期性的给RM发送heartbeats,如果RM发现server fails,则它会让所有与这个server有关的AM知道,让受影响的job的AM采取一些action,重新分配它的 ...
从hadoop框架与MapReduce模式中谈海量数据处理
http://blog.csdn.net/wind19/article/details/7716326 前言几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显 ...
从Hadoop框架与MapReduce模式中谈海量数据处理（含淘宝技术架构） (转)
转自:http://blog.csdn.net/v_july_v/article/details/6704077 从hadoop框架与MapReduce模式中谈海量数据处理前言几周前,当我最初听到 ...
从Hadoop骨架MapReduce在海量数据处理模式（包括淘宝技术架构）
从hadoop框架与MapReduce模式中谈海量数据处理前言几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,认为它们非常是神奇.而神奇的东西常能勾 ...
Hadoop-- MapReduce简单理解
1.Hadoop和MapReduce概念 Mapreduce是一种模式. Hadoop是一种框架. Hadoop是一个实现了mapreduce模式的开源的分布式并行编程框架. 2.Hadoop框架 ...
系统架构师JD
#################################################################################################### ...
（转）Hadoop 简介
转自:http://www.open-open.com/lib/view/open1385685943484.html mapreduce是一种模式,一种什么模式呢?一种云计算的核心计算模式,一种分布 ...

随机推荐

jquery获取父，同，子级元素
一.获取父级元素 1. parent([expr]): 获取指定元素的所有父级元素 <div id="par_div"><a id="href_fir& ...
python线程队列Queue-FIFO（35）
之前的文章中讲解很多关于线程间通信的知识,比如:线程互斥锁lock,线程事件event,线程条件变量condition 等等,这些都是在开发中经常使用的内容,而今天继续给大家讲解一个更重要的知识点 — ...
学习开始记录一下，java 还是python?
2019.11.24开始正式开始学习JAVA. 在 bilibili站看了三天,大神们的对此问题的分析,介绍,我选择了JAVA开发语言. 在看了高淇老师的JAVA300视频,感觉比较对路,特别是第一章 ...
Codeforces-Two Buttons-520problemB(思维题)
B. Two Buttons Vasya has found a strange device. On the front panel of a device there are: a red but ...
Pytorch 网络结构可视化
安装 conda install graphvizconda install tensorwatch 载入库 import sysimport torchimport tensorwatch as t ...
[转帖]五分钟彻底搞懂你一直没明白的Linux内存管理
五分钟彻底搞懂你一直没明白的Linux内存管理 https://cloud.tencent.com/developer/article/1462476 现在的服务器大部分都是运行在Linux上面的,所 ...
Asp.Net Core 调用第三方Open API查询物流数据
在我们的业务中不可避免要与第三方的系统进行交互,调用他们提供的API来获取相应的数据,那么对于这样的情况该怎样进行处理呢?下面就结合自己对接跨越速运接口来获取一个发运单完整的物流信息为例来说明如何在A ...
Python 解LeetCode：394 Decode String
题目描述:按照规定,把字符串解码,具体示例见题目链接思路:使用两个栈分别存储数字和字母注意1: 数字是多位的话,要处理后入数字栈注意2: 出栈时过程中产生的组合后的字符串要继续入字母栈注意3: ...
PAT甲级链表题_C++题解
链表处理 PAT (Advanced Level) Practice 链表题目录 <算法笔记> 重点摘要:静态链表 1032 Sharing (25) 1052 Linked List ...
str.format() 格式化数字的多种方法
Python2.6 开始,新增了一种格式化字符串的函数 str.format(),它增强了字符串格式化的功能. 基本语法是通过 {} 和 : 来代替以前的 % . format 函数可以接受不限个参数 ...

云计算(5)---MapReduce

云计算(5)---MapReduce的更多相关文章

随机推荐

热门专题