map-reduce入门

近期在改写mahout源代码，感觉自己map-reduce功力不够深厚，因此打算系统学习一下。

map-reduce事实上是一种编程范式，从统计词频（wordCount）程序来解说map-reduce的思想最easy理解。

给定一个文件，里面的内容例如以下，要求统计每一个单词的词频。

Hello Angela

I love you Angela

How are you Angela

map（每一个单词处理为一行，key,value形式）

Hello,1

Angela,1

I,1

love,1

you,1

Angela,1

How,1

are,1

you,1

Angela,1

reduce（key同样的行汇在一起）

Hello,<1>

Angela,<1,1,1>

I, <1>

love, <1>

you, <1,1>

How, <1>

are, <1>

reducer处理后输出

Hello,1

Angela,3

I, 1

love, 1

you, 2

How, 1

are, 1

从上能够看到，map阶段和reduce阶段的输入输出数据都是key,value形式的。

key的存在是为了标志哪些数据须要汇在一起处理。

显然，对于上面统计词频的样例。我们的目的就是让同一个单词的数据落在一起，然后统计该单词出现了多少次。

了解了map-reduce的思想之后，以下来看看分布式的map-reduce是如何子的。

Hadoop有两类节点，一个jobtracker和一序列的tasktracker。

jobtracker调用tasktracker执行任务。假设当中一个tasktracker任务失败了，jobtracker会调度另外一个tasktracker节点又一次执行任务。

Hadoop会将输入数据进行分片处理，每一个分片是一个等大的数据块，

每一个分片会分给一个map任务来依次处理里面的每行数据。

一般来说。合理的分片大小趋向于hdfs一个块的大小，默认是64MB。

从而使得map任务执行在存有输入数据的节点上。降低数据的网络传输。

假设有多个reduce任务，那么map任务会对输出进行分区。落在同一个分区的数据，留给一个reduce任务处理。

当然。同样的key的数据肯定在一个分区中。

map在输出到reduce之前，事实上还能够存在一个combine任务，即localreduce，在本地做一次数据合并。从而降低数据的传输。

非常多时候，combiner和reducer能够是同一个类。

本文作者：linger

本文链接：http://blog.csdn.net/lingerlanlan/article/details/46713733

map-reduce入门的更多相关文章

记一次MongoDB Map&Reduce入门操作
需求说明用Map&Reduce计算几个班级中,每个班级10岁和20岁之间学生的数量: 需求分析学生表的字段: db.students.insert({classid:1, age:14, ...
入门大数据---Map/Reduce，Yarn是什么？
简单概括:Map/Reduce是分布式离线处理的一个框架. Yarn是Map/Reduce中的一个资源管理器. 一.图形说明下Map/Reduce结构: 官方示意图: 另外还可以参考这个: 流程介绍: ...
Hadoop Map/Reduce教程
原文地址:http://hadoop.apache.org/docs/r1.0.4/cn/mapred_tutorial.html 目的先决条件概述输入与输出例子:WordCount v1.0 ...
MapReduce剖析笔记之三：Job的Map/Reduce Task初始化
上一节分析了Job由JobClient提交到JobTracker的流程,利用RPC机制,JobTracker接收到Job ID和Job所在HDFS的目录,够早了JobInProgress对象,丢入队列 ...
python--函数式编程 (高阶函数(map , reduce ,filter,sorted)，匿名函数(lambda))
1.1函数式编程面向过程编程:我们通过把大段代码拆成函数,通过一层一层的函数,可以把复杂的任务分解成简单的任务,这种一步一步的分解可以称之为面向过程的程序设计.函数就是面向过程的程序设计的基本单元. ...
filter,map,reduce,lambda（python3）
1.filter filter(function,sequence) 对sequence中的item依次执行function(item),将执行的结果为True(符合函数判断)的item组成一个lis ...
map reduce
作者:Coldwings链接:https://www.zhihu.com/question/29936822/answer/48586327来源:知乎著作权归作者所有,转载请联系作者获得授权. 简单的 ...
python基础——map/reduce
python基础——map/reduce Python内建了map()和reduce()函数. 如果你读过Google的那篇大名鼎鼎的论文“MapReduce: Simplified Data Pro ...
Map/Reduce 工作机制分析 --- 作业的执行流程
前言从运行我们的 Map/Reduce 程序,到结果的提交,Hadoop 平台其实做了很多事情. 那么 Hadoop 平台到底做了什么事情,让 Map/Reduce 程序可以如此 "轻易& ...
Map/Reduce个人实战--生成数据测试集
背景: 在大数据领域, 由于各方面的原因. 有时需要自己来生成测试数据集, 由于测试数据集较大, 因此采用Map/Reduce的方式去生成. 在这小编(mumuxinfei)结合自身的一些实战经历, ...

随机推荐

3Ddungeon-------三维搜索-----偷个懒把亡命逃窜的代码修改了一下拿来用了
题很简单就是给一个三维的迷宫然后开你起始地点 S 问你能不能到达出口 E 能的话需要多长时间 ? #include<stdio.h> #include<string ...
D - Garden
Problem description Luba thinks about watering her garden. The garden can be represented as a segmen ...
【C++】cin、cout的效率比scanf和printf低的解决方法
玩竞赛的同学应该发现了C++中直接调用cout.cin的效率要比printf和scanf的效率要低. 要解决这个问题,只需要在前面加上一句 std::ios::sync_with_stdio(fals ...
JavaScript中赋值运算符的使用
JavaScript中的赋值运算可以分为简单赋值运算和复合赋值运算.简单赋值运算是将赋值运算符(=)右边表达式的值保存到左边的变量中:而复合赋值运算混合了其他操作(例如算术运算操作)和赋值操作.例如: ...
百鸡百钱===百马百担====for循环嵌套
package com.zuoye.test;//百鸡百钱5文钱可以买一只公鸡,3文钱可以买一只母鸡,1文钱可以买3只雏鸡.public class Baiji { public static voi ...
creat-react-app 支持 less
yarn eject yarn add less less-loader config/ webpack.config.dev.js config/ webpack.config.prod.js 文 ...
WPF度量系統
和Winform不同,WPF的度量單位不是像素,而是設備無關單位DIU,其大小總是1/96吋那麽,WPF中一個寬度爲96的按鈕,到底是多少個像素呢? 答:取決於系統DPI. 計算公式爲:實際像素 = ...
Mysql分组求和&LIMIT
分组求和mysql> SELECT coalesce(name, '总数'), SUM(singin) as singin_count FROM employee_tbl GROUP BY na ...
浏览器 HTTP 协议缓存机制详解--网络缓存决策机制流程图
1.缓存的分类 2.浏览器缓存机制详解 2.1 HTML Meta标签控制缓存 2.2 HTTP头信息控制缓存 2.2.1 浏览器请求流程 2.2.2 几个重要概念解释 3.用户行为与缓存 4.Ref ...
python中*的用法
在python中,很多情况下会用到*,下面举一些例子来说明*的用法 1.数字计算中,*代表乘法,**代表求幂 print('2乘以3值为:%s'%(2*3)) print('2的3次方值为:%s'%( ...

map-reduce入门

map-reduce入门的更多相关文章

随机推荐

热门专题