理解MapReduce
理解MapReduce
Hadoop的MapReduce过程具有如下形式:
1) map: (K1, V1) => list(K2, V2)
2) reduce: (K2, list(V2)) => list(K3, V3)
我用一个简单的例子说明它表示的含义:
假设待分析的数据文件是一个用户名和密码的表,即"用户名,密码"格式:
========= input.dat=========
zhang,123456
wang,qazxsw
liu,123456
meng,xxx123
hunan,qazxsw
chin,qazxsw
feifei,1008xyz
... ...
==========================
那么我们要求统计出密码使用的次数大于1次的,即最终可以得到下面的结果:
123456=2
qazxsw=3
用MapReduce可以这样做:
第1步:Map
protected void map(LongWritable key, Text value, Context context);
Map的输入(K1, V1)默认是(文件行号,文件行),即map函数每次得到的输入都是下面的形式:
(key=>K1, value=>V1)
第1次:(0, "zhang,123456")
第2次:(1, "wang,qazxsw")
第3次:(2, "liu,123456")
第4次:(3, "meng,xxx123")
...
我们需要在map函数的value参数V1中,提取出密码作为输出的K2=>key,而输出的value是1(次数),
表示一个用户使用了这个密码=>K2。
map运行完后得到了下面的结果:list(K2, V2),即:
K2 (V2)
123456(1)
qazxsw(1)
123456(1)
xxx123(1)
qazxsw(1)
qazxsw(1)
1008xyz(1)
这个输出被系统自动归并为K2=>list(V2),即:
123456=>(1,1)
qazxsw=>(1,1,1)
xxx123=>(1)
1008xyz=>(1)
这个(K2, list(V2)) 接着作为reduce的输入。
第2步:Reduce
protected void reduce(Text key, Iterable<IntWritable> values, Context context);
reduce函数的输入既然是key=K2, value=list(V2),那么我们就可以把每个K2下的list(v2)的元素相加,得到下面的结果:
123456=>(2)
qazxsw=>(3)
xxx123=>(1)
1008xyz=>(1)
我们只保留次数大于1的,所以最后的reduce输出为:
123456=>(2)
qazxsw=>(3)
这个就是:list(K3, V3)。这里K3与K2类型一致,V3与V2类型一致。
以上就是Map Reduce的全过程。
理解MapReduce的更多相关文章
- MapReduce剖析笔记之一:从WordCount理解MapReduce的几个阶段
WordCount是一个入门的MapReduce程序(从src\examples\org\apache\hadoop\examples粘贴过来的): package org.apache.hadoop ...
- 理解MapReduce哲学
Google工程师将MapReduce定义为一般的数据处理流程.一直以来不能完全理解MapReduce的真义,为什么MapReduce可以“一般”? 最近在研究Spark,抛开Spark核心的内存计算 ...
- 彻底理解MapReduce shuffle过程原理
彻底理解MapReduce shuffle过程原理 MapReduce的Shuffle过程介绍 Shuffle的本义是洗牌.混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好.MapR ...
- 2本Hadoop技术内幕电子书百度网盘下载:深入理解MapReduce架构设计与实现原理、深入解析Hadoop Common和HDFS架构设计与实现原理
这是我收集的两本关于Hadoop的书,高清PDF版,在此和大家分享: 1.<Hadoop技术内幕:深入理解MapReduce架构设计与实现原理>董西成 著 机械工业出版社2013年5月出 ...
- hadoop2.2编程:从default mapreduce program 来理解mapreduce
下面写一个default mapreduce 的程序: import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapr ...
- 实例理解mapreduce任务的串行运行过程
一.准备: eclipse,hadoop集群 注意:为了方便测试和修改,我用的是 windows 连接hadoop集群,这样在windows 下直接就能够执行 mapreduce 任务,方便程序调试. ...
- 大数据技术 - 通俗理解MapReduce之WordCount(三)
上一章我们编写了简单的 MapReduce 程序,掌握这些就能编写大多数数据处理的代码.但是 MapReduce 框架提供给用户的能力并不止如此,本章我们仍然以上一章 word count 为例,继续 ...
- 大数据技术 - 通俗理解MapReduce之WordCount(二)
上一章我们搭建了分布式的 Hadoop 集群.本章我们介绍 Hadoop 框架中的一个核心模块 - MapReduce.MapReduce 是并行计算模块,顾名思义,它包含两个主要的阶段,map 阶段 ...
- 深入理解MapReduce的架构及原理
1. MapReduce 定义 Hadoop 中的 MapReduce是一个使用简单的软件框架.基于它写出来的应用程序能够执行在由上千个商用机器组成的大型集群上,并以一种可靠容错式并行处理TB级别的数 ...
随机推荐
- 给Android程序员的六个建议
给Android程序员的六个建议 分类: 安卓相关2015-07-14 23:58 177人阅读 评论(0) 收藏 举报 android程序员 如果你一年前写的代码 , 在现在看来你还感觉写的很不错 ...
- 连接别人创建的ORACLE数据库
以oracle10g版本为例,本机必须安装oralce10g的客户端或oralce10g的服务器 方法一(从服务器配置): 第一步:打开配置和移植工具-->Net Manager 第二步:选中服 ...
- 页面静态化3 --- 使用PHP页面缓存机制来完成页面静态化(下)操作一个案例(新闻管理系统)
案例需求: 使用PHP缓存机制完成新闻管理系统的页面静态化数据库表 ecs_article (新闻表)因为新闻这些信息,并不是对实时性要求高,本身这个新闻比较稳定,内容也比较固定,所以我们考虑: 当第 ...
- LR中的C语言问题
今天在调试LR的脚本(C)时遇到了几个甚是头痛得问题,下面简单总结下: 1.首先LR中的C编译器遵循C90标准,规定在一个函数中,变量定义必须放在所有的执行语句之前!一旦在运行语句之间再有定义的话,会 ...
- Syntactic_sugar
https://en.wikipedia.org/wiki/Syntactic_sugar http://stackoverflow.com/questions/11366006/mysql-on-v ...
- ROSE User Case View
用例视图(User Case View) 在面向对象的分析过程中,此视图应该是需求分析的过程中采用,主要包括如下过程 01涉众分析--->02业务分析--->03概念分析--->04 ...
- Java Messages Synchronous and Asynchronous
//The Consumer Class Consumes Messages in a Synchronous Manner public class Consumer { public static ...
- Python之创建tuple和“可变”的tuple
Python之创建tuple tuple是另一种有序的列表,中文翻译为" 元组 ".tuple 和 list 非常类似,但是,tuple一旦创建完毕,就不能修改了. 同样是表示班里 ...
- php读取qqwry.dat ip地址定位文件的类
<?php// +----------------------------------------------------------------------// |// +---------- ...
- WPF绑定方式
绑定到其它元素 <Grid> <StackPanel> <TextBox x:Name="textbox1" /> ...