理解MapReduce
理解MapReduce
Hadoop的MapReduce过程具有如下形式:
1) map: (K1, V1) => list(K2, V2)
2) reduce: (K2, list(V2)) => list(K3, V3)
我用一个简单的例子说明它表示的含义:
假设待分析的数据文件是一个用户名和密码的表,即"用户名,密码"格式:
========= input.dat=========
zhang,123456
wang,qazxsw
liu,123456
meng,xxx123
hunan,qazxsw
chin,qazxsw
feifei,1008xyz
... ...
==========================
那么我们要求统计出密码使用的次数大于1次的,即最终可以得到下面的结果:
123456=2
qazxsw=3
用MapReduce可以这样做:
第1步:Map
protected void map(LongWritable key, Text value, Context context);
Map的输入(K1, V1)默认是(文件行号,文件行),即map函数每次得到的输入都是下面的形式:
(key=>K1, value=>V1)
第1次:(0, "zhang,123456")
第2次:(1, "wang,qazxsw")
第3次:(2, "liu,123456")
第4次:(3, "meng,xxx123")
...
我们需要在map函数的value参数V1中,提取出密码作为输出的K2=>key,而输出的value是1(次数),
表示一个用户使用了这个密码=>K2。
map运行完后得到了下面的结果:list(K2, V2),即:
K2 (V2)
123456(1)
qazxsw(1)
123456(1)
xxx123(1)
qazxsw(1)
qazxsw(1)
1008xyz(1)
这个输出被系统自动归并为K2=>list(V2),即:
123456=>(1,1)
qazxsw=>(1,1,1)
xxx123=>(1)
1008xyz=>(1)
这个(K2, list(V2)) 接着作为reduce的输入。
第2步:Reduce
protected void reduce(Text key, Iterable<IntWritable> values, Context context);
reduce函数的输入既然是key=K2, value=list(V2),那么我们就可以把每个K2下的list(v2)的元素相加,得到下面的结果:
123456=>(2)
qazxsw=>(3)
xxx123=>(1)
1008xyz=>(1)
我们只保留次数大于1的,所以最后的reduce输出为:
123456=>(2)
qazxsw=>(3)
这个就是:list(K3, V3)。这里K3与K2类型一致,V3与V2类型一致。
以上就是Map Reduce的全过程。
理解MapReduce的更多相关文章
- MapReduce剖析笔记之一:从WordCount理解MapReduce的几个阶段
WordCount是一个入门的MapReduce程序(从src\examples\org\apache\hadoop\examples粘贴过来的): package org.apache.hadoop ...
- 理解MapReduce哲学
Google工程师将MapReduce定义为一般的数据处理流程.一直以来不能完全理解MapReduce的真义,为什么MapReduce可以“一般”? 最近在研究Spark,抛开Spark核心的内存计算 ...
- 彻底理解MapReduce shuffle过程原理
彻底理解MapReduce shuffle过程原理 MapReduce的Shuffle过程介绍 Shuffle的本义是洗牌.混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好.MapR ...
- 2本Hadoop技术内幕电子书百度网盘下载:深入理解MapReduce架构设计与实现原理、深入解析Hadoop Common和HDFS架构设计与实现原理
这是我收集的两本关于Hadoop的书,高清PDF版,在此和大家分享: 1.<Hadoop技术内幕:深入理解MapReduce架构设计与实现原理>董西成 著 机械工业出版社2013年5月出 ...
- hadoop2.2编程:从default mapreduce program 来理解mapreduce
下面写一个default mapreduce 的程序: import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapr ...
- 实例理解mapreduce任务的串行运行过程
一.准备: eclipse,hadoop集群 注意:为了方便测试和修改,我用的是 windows 连接hadoop集群,这样在windows 下直接就能够执行 mapreduce 任务,方便程序调试. ...
- 大数据技术 - 通俗理解MapReduce之WordCount(三)
上一章我们编写了简单的 MapReduce 程序,掌握这些就能编写大多数数据处理的代码.但是 MapReduce 框架提供给用户的能力并不止如此,本章我们仍然以上一章 word count 为例,继续 ...
- 大数据技术 - 通俗理解MapReduce之WordCount(二)
上一章我们搭建了分布式的 Hadoop 集群.本章我们介绍 Hadoop 框架中的一个核心模块 - MapReduce.MapReduce 是并行计算模块,顾名思义,它包含两个主要的阶段,map 阶段 ...
- 深入理解MapReduce的架构及原理
1. MapReduce 定义 Hadoop 中的 MapReduce是一个使用简单的软件框架.基于它写出来的应用程序能够执行在由上千个商用机器组成的大型集群上,并以一种可靠容错式并行处理TB级别的数 ...
随机推荐
- 常用Ubuntu 命令
sudo apt-get updatesudo apt-get upgrade以下2選1sudo apt-get install ubuntu-desktop如果你只想安装必要的桌面管理软件而不想安装 ...
- ubuntu&FAQ
转自-笨小孩 查看进程: ,ps -e 命令 ,feng@feng:~$ sudo netstat -antup Active Internet connections (servers an ...
- thinkphp开发技巧经验分享
thinkphp开发技巧经验分享 www.111cn.net 编辑:flyfox 来源:转载 这里我给大家总结一个朋友学习thinkphp时的一些笔记了,从变量到内置模板引擎及系统变量等等的笔记了,同 ...
- 【转载】python3.0与2.x之间的区别
python3.0与2.x之间的区别: 1.性能 Py3.0运行pystone benchmark的速度比Py2.5慢30%.Guido认为Py3.0有极大的优化空间,在字符串和整形操作上可以取得很好 ...
- LR中Vugen的多进程与多线程(脚本命令行)
Controller使用驱动程序(如mdrv.exe或r3vuser.exe)来运行Vuser.用户可以在Controller的run-time setting中选择Vuser的运行方式:多进程/多线 ...
- the essence of the internet idea
Computer Systems A Programmer's Perspective Second Edition Of course, we are glossing over many diff ...
- improve performance whilemaintaining the functionality of a simpler and more abstract model design of processor hardware
Computer Systems A Programmer's Perspective Second Edition In this chapter, we take a brief look at ...
- 源码分析-mysql
问题: mysql GROUP BY 返回结果 各个字段所在行
- Delphi的并行计算
有如下循环体: hits:=; do begin {perform some calculations dependent on random number generation to determi ...
- nrf51822裸机教程-PWM
先简单介绍一下PWM的原理. 原理很简单. 假设COUNTER是个从0开始递增的计数器. 我们设置两个值 counter0 和counter1 在 COUNTER 计数到counter0的值时候翻转 ...