云计算(6)--一些MapReduce的例子

例1:文件的字符串查找

这里reduce不做merge的工作，因为每行都是不一样的，不能merge.

与传统的grep程序相比，使用MapReduce可以加快处理，因为1它是Distributed的，不用把所有的文件都拷到一台机器上运行,你的data可以在不同的server上，

原因2，它能并行处理，加快处理的速度。

例2: Reverse Web-link graph

Map:将<source,target>置反

Reduce: 输出每个target的source list.(不止一个)

例3: 计算URL的访问频率

有两个MapReduce,一个MapReduce计算每个URL的数量(类似前面的wordcount)，另一个MapReduce计算比率(紧跟前面的那个MapReduce)。

第二个MapReduce中的reducer有会进行两次pass,一次是计算overall_count,一次是计算比率

例4: 排序

MapReduce内部的enginer已经做了很多sorting，这样可以让我们更简单的实现sorting

在每个Map(注意是在一个map里面进行了排序)执行后，这些输入Map的pairs已经在接下来输入给Reduce之前按照key排好序了(在Hadoop中是按照快排进行排序)

Reduce在接收pairs，处理这些pairs之间会对它们进行排序,比如这些pairs如果按照key来排序的话，同一个key的pairs是连续分布的，这样可以把同一个key的pairs输入给一个Reduce来处理

上述的这个例子是要将pairs按照values进行排序后输出.

在Map阶段，将value做为key,这样map阶段结束后输出的pairs在每个Map里面是按照value进行排序(quick sort)的。

在Reducer阶段，在处理前，会将所有的pairs进行排序(Merge sort)，然后再对这些pairs进行输出。这样所有的pairs则都是按照value进行排序了

在这儿不能使用Hash partition来分配reducer,因为这儿我们是进行排序，如果使用hash来分配reducer处理的话，那么reducer之间就不是有序的了

在这儿我们分配reducer是按照range来分配的，比如reducer#1处理key1-key1000的pairs，reducer#2处理key10001-key2000的pairs......

在这个例子中我们在分配reducer的时候也要考虑keys的分布情况，比如若key10001-key2000分布的记录很多，则我们可以给这个区域多分配一些reducer来处理

云计算(6)--一些MapReduce的例子的更多相关文章

第一个MapReduce的例子
第一个MapReduce的例子 Hadoop Guide的第一个MapReduce的例子是处理气象数据的(数据来源ncdc),终于跑通了.总结一下步骤,安装hadoop不在本文中介绍 1 数据预处理 ...
hadoop mapreduce 简单例子
本例子统计用空格分开的单词出现数量( 这个Main.mian 启动方式是hadoop 2.0 的写法.1.0 不一样 ) 目录结构: 使用的 maven : 下面是maven 依赖. <de ...
MongoDB MapReduce 小例子
var map = function(){ if (this.gscode == "ZTJB"){ ymd = this.ymd; emit("maxymd", ...
云计算大会有感—MapReduce和UDF
(转载请注明出处:http://blog.csdn.net/buptgshengod) 1.參会有感首先还是非常感谢CSDN能给我票,让我有机会參加这次中国云计算峰会.感觉不写点什么对不 ...
MapReduce入门例子
计算文档中不同单词的个数. hello you hello me 步骤如下:
海量数据挖掘MMDS week1: MapReduce
http://blog.csdn.net/pipisorry/article/details/48443533 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Le ...
mapreduce (七) 几个实例
http://hi.baidu.com/hzd2712/item/d2465ae65270ab3e4cdcaf55 MapReduce几个典型的例子在Google的<MapReduce: Si ...
Hadoop（十三）分析MapReduce程序
前言刚才发生了悲伤的一幕,本来这篇博客马上就要写好的,花了我一晚上的时间.但是刚才电脑没有插电源就没有了.很难受!想哭,但是没有办法继续站起来. 前面的一篇博文中介绍了什么是MapReduce,这一 ...
从分治算法到 Hadoop MapReduce
从分治算法说起要说 Hadoop MapReduce 就不得不说分治算法,而分治算法其实说白了,就是四个字分而治之 .其实就是将一个复杂的问题分解成多组相同或类似的子问题,对这些子问题再分,然后再 ...

随机推荐

路由(Routing)
路由(Routing) ASP.NET Core MVC 路由是建立在ASP.NET Core 路由的,一项强大的URL映射组件,它可以构建具有理解和搜索网址的应用程序.这使得我们可以自定义应用程序 ...
Eclipse下Maven安装和配置
1. 下载 Maven 在百度输入 Maven 搜索 ,找到它的官网(http://maven.apache.org/),点击进入下载页面. 下载页面地址: http://maven.apache.o ...
捕捉AVPlayerViewController 系统原生工具栏的出现、隐藏事件
需求前提 1. app内轻量级的视频播放功能,故不希望引入“过度开发.过度封装”的第三方控件组,使用原生的AVPlayerViewController 2. 工具栏有新增控件需求,如下载按钮等 3. ...
javaFX 整合 maven
pom.xml <?xml version="1.0" encoding="UTF-8"?> <project xmlns="htt ...
关于启动kylin报Failed to find metadata store by url: kylin_metadata@hbase的问题解决
一.出问题的原因昨天因为项目需要,要将cloudera集群改成高可用,没想到失败了,当时因为冲动手动删了几个hdfs实例的原因,导致退不到原来的状态,折腾了一天,最后终于退回了非HA的集群,但是hd ...
python安装OpenCV – 4.1.0
(python3) [jiangshan@localhost ~]$ pip install opencv_python==4.1.0Collecting opencv_python==4.1.0 E ...
Spring MVC <mvc:annotation-driven/>的作用
一.mvc:annotation-driven的作用 Spring 3.0.x中使用了mvc:annotation-driven后,默认会帮我们注册默认处理请求,参数和返回值的类,其中最主要的两个类: ...
Java 发送http GET/POST请求
最近项目里面需要用到Java发送http请求,由于发送https请求有点复杂,暂时不考虑 HttpURLConnection HttpURLConnection是一种多用途.轻量极的HTTP客户端,使 ...
Word 自动图文集使用方法
1. 自动图文集简介使用自动图文集当你在文档中输入你所需的模板名称后,就能立刻变出该内容出来. 1.1 效果演示 1:个人简历如下图所示,在Word文档中输入了"个人简历"后, ...
PPPoE中间人拦截以及校园网突破漫谈
本文首发于PPPoE中间人拦截以及校园网突破漫谈,转载请注明出处. PPPoE中间人拦截以及校园网突破漫谈校园生活快结束了,之前还有点未完成的想法,趁着这两天有兴趣搞搞. 此文面向大众是那种在校园内 ...

云计算(6)--一些MapReduce的例子

云计算(6)--一些MapReduce的例子的更多相关文章

随机推荐

热门专题