理解MapReduce
理解MapReduce
Hadoop的MapReduce过程具有如下形式:
1) map: (K1, V1) => list(K2, V2)
2) reduce: (K2, list(V2)) => list(K3, V3)
我用一个简单的例子说明它表示的含义:
假设待分析的数据文件是一个用户名和密码的表,即"用户名,密码"格式:
========= input.dat=========
zhang,123456
wang,qazxsw
liu,123456
meng,xxx123
hunan,qazxsw
chin,qazxsw
feifei,1008xyz
... ...
==========================
那么我们要求统计出密码使用的次数大于1次的,即最终可以得到下面的结果:
123456=2
qazxsw=3
用MapReduce可以这样做:
第1步:Map
protected void map(LongWritable key, Text value, Context context);
Map的输入(K1, V1)默认是(文件行号,文件行),即map函数每次得到的输入都是下面的形式:
(key=>K1, value=>V1)
第1次:(0, "zhang,123456")
第2次:(1, "wang,qazxsw")
第3次:(2, "liu,123456")
第4次:(3, "meng,xxx123")
...
我们需要在map函数的value参数V1中,提取出密码作为输出的K2=>key,而输出的value是1(次数),
表示一个用户使用了这个密码=>K2。
map运行完后得到了下面的结果:list(K2, V2),即:
K2 (V2)
123456(1)
qazxsw(1)
123456(1)
xxx123(1)
qazxsw(1)
qazxsw(1)
1008xyz(1)
这个输出被系统自动归并为K2=>list(V2),即:
123456=>(1,1)
qazxsw=>(1,1,1)
xxx123=>(1)
1008xyz=>(1)
这个(K2, list(V2)) 接着作为reduce的输入。
第2步:Reduce
protected void reduce(Text key, Iterable<IntWritable> values, Context context);
reduce函数的输入既然是key=K2, value=list(V2),那么我们就可以把每个K2下的list(v2)的元素相加,得到下面的结果:
123456=>(2)
qazxsw=>(3)
xxx123=>(1)
1008xyz=>(1)
我们只保留次数大于1的,所以最后的reduce输出为:
123456=>(2)
qazxsw=>(3)
这个就是:list(K3, V3)。这里K3与K2类型一致,V3与V2类型一致。
以上就是Map Reduce的全过程。
理解MapReduce的更多相关文章
- MapReduce剖析笔记之一:从WordCount理解MapReduce的几个阶段
WordCount是一个入门的MapReduce程序(从src\examples\org\apache\hadoop\examples粘贴过来的): package org.apache.hadoop ...
- 理解MapReduce哲学
Google工程师将MapReduce定义为一般的数据处理流程.一直以来不能完全理解MapReduce的真义,为什么MapReduce可以“一般”? 最近在研究Spark,抛开Spark核心的内存计算 ...
- 彻底理解MapReduce shuffle过程原理
彻底理解MapReduce shuffle过程原理 MapReduce的Shuffle过程介绍 Shuffle的本义是洗牌.混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好.MapR ...
- 2本Hadoop技术内幕电子书百度网盘下载:深入理解MapReduce架构设计与实现原理、深入解析Hadoop Common和HDFS架构设计与实现原理
这是我收集的两本关于Hadoop的书,高清PDF版,在此和大家分享: 1.<Hadoop技术内幕:深入理解MapReduce架构设计与实现原理>董西成 著 机械工业出版社2013年5月出 ...
- hadoop2.2编程:从default mapreduce program 来理解mapreduce
下面写一个default mapreduce 的程序: import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapr ...
- 实例理解mapreduce任务的串行运行过程
一.准备: eclipse,hadoop集群 注意:为了方便测试和修改,我用的是 windows 连接hadoop集群,这样在windows 下直接就能够执行 mapreduce 任务,方便程序调试. ...
- 大数据技术 - 通俗理解MapReduce之WordCount(三)
上一章我们编写了简单的 MapReduce 程序,掌握这些就能编写大多数数据处理的代码.但是 MapReduce 框架提供给用户的能力并不止如此,本章我们仍然以上一章 word count 为例,继续 ...
- 大数据技术 - 通俗理解MapReduce之WordCount(二)
上一章我们搭建了分布式的 Hadoop 集群.本章我们介绍 Hadoop 框架中的一个核心模块 - MapReduce.MapReduce 是并行计算模块,顾名思义,它包含两个主要的阶段,map 阶段 ...
- 深入理解MapReduce的架构及原理
1. MapReduce 定义 Hadoop 中的 MapReduce是一个使用简单的软件框架.基于它写出来的应用程序能够执行在由上千个商用机器组成的大型集群上,并以一种可靠容错式并行处理TB级别的数 ...
随机推荐
- Rails--default_scope
Example: default_scope where("agents.deleted = ?", false)
- Least_squares 最小二乘法
https://en.wikipedia.org/wiki/Least_squares 動差估計法( MM, The Method of Moment ) 最小平方法( LSQ, The Method ...
- 在Delphi中如何控制其它应用程序窗口
在编写Delphi的应用程序中,常常涉及对其它Windows应用程序的操作.例如,在数据库的管理系统中,财务人员需要使用计算器,即可调用Windows内含的计算器功能,若每次使用,均通过“开始/程序/ ...
- IOS常见的三种回调方法介绍
认识下三种IOS常见的回调模式. 代理模式作为IOS中最常见的通讯模式,代理几乎无处不在. 这里有一个数组,我们首先通过代理的方式将数组传递到其他方法中去. 设置协议及方法 @protocol Cal ...
- JavaScript POST 请求如何跨域
前天遇到一个问题,就是我上传图片的时候,这个图片需要上传给某个API的接口 这样问题就来了,我们之前上传图片的时候都是先上传到我们自己的后台里面,然后通过后台,再把这个流传到图片服务器上. 但是上传到 ...
- BulletedList使用及详解
BulletedList是一个让你轻松在页面上显示项目符号和编号格式(Bulledted List)的控件.对于ASP.NET 1.x里要动态显示Bulledted List时,要么自己利用HTML的 ...
- ubuntu下的jdk安装
软件环境: 虚拟机:VMware Workstation 10 操作系统:ubuntu-12.04-desktop-amd64 JAVA版本:jdk-7u55-linux-x64 软件下载地址: JD ...
- 为WordPress某个文章添加额外的样式
如需把css直接写在某文章,把下面代码放如function.php /* 为特定文章添加特定css最简单的方式. */ /*添加自定义CSS的meta box*/ add_action('admin_ ...
- 针对JD-GUI
switch(0){ case 1001: JSONObject jsoObj; String data = null; boolean isclose = false; try{ jsoObj = ...
- 插入图片<img>
格式: <img src="图片地址" alt="下载失败时的替换文本" title="提示文本"> src:图像的位置 alt ...