MapReduce格式与类型

MapReduce Types

　　MapReduce是一个简单的数据处理模型，map与reduce的输入和输出类型都为key-value形式的键值对。

map: (K1, V1) → list(K2, V2)

reduce: (K2, list(V2)) → list(K3, V3)

　　一般来讲，map的输入key与输出value类型(K1,V1)不同于map的输出类型(K2,V2).reduce的输入类型比如与map的输出类型保持一致，reduce的输出类型可能会有不同的形式（K3,V3)。下面是JAVA API：

public class Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT> {

  public class Context extends MapContext<KEYIN, VALUEIN, KEYOUT, VALUEOUT> {

    // ...

  }

  protected void map(KEYIN key, VALUEIN value,

                     Context context) throws IOException, InterruptedException {

    // ...

  }

}

public class Reducer<KEYIN, VALUEIN, KEYOUT, VALUEOUT> {

  public class Context extends ReducerContext<KEYIN, VALUEIN, KEYOUT, VALUEOUT> {

    // ...

  }

  protected void reduce(KEYIN key, Iterable<VALUEIN> values,

                        Context context) throws IOException, InterruptedException {

    // ...

  }

}

　　最终由context调用write（）方法将key-value pairs输出

public void write(KEYOUT key, VALUEOUT value)

    throws IOException, InterruptedException

　　Mapper与Reducer是两个不同的classes,分别具有不同的入参类型，Mapper的入参类型可能与Reducer的入参类型不同，比如Mapper的key的入参为LongWritable，reduce的为Text.

　　这里有一点，如果在map阶段调用了combine方法，那么就与reduce的入参相同

map: (K1, V1) → list(K2, V2)

combine: (K2, list(V2)) → list(K2, V2)

reduce: (K2, list(V2)) → list(K3, V3)

　　使用parition方法对中间结果的key与value进行操作时，将会返回parition的位置(index)，parition将决定于排过序的key

public interface Partitioner<K2, V2> extends JobConfigurable {

  int getPartition(K2 key, V2 value, int numPartitions);

}

　　默认的分区类型为HashPartitioner,由它决定着key属于哪个分区，每一个分区都属于一个reduce task，所以分区的个数决定了reduce tasks的个数

public class HashPartitioner<K, V> extends Partitioner<K, V> {



  public int getPartition(K key, V value,

                          int numReduceTasks) {

    return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;

  }

}

　　当你需要多个reduce tasks作业任务时，HashPartitioner就举足轻重了，因为map的结果将会传递给多个reduce，那么相同的key将会被分发到不同reduce task，大大提升了作业效率。那么reduce个数的决定了整个作业的并行度，有人会问，那map的个数呢，map的个数是由文件的block数目决定的，具体下面再说~

　　那么reducer个数的把握将会是一门艺术- -增加reducer的个数相当于增加了并行度。

较小的文件与CombineFileInputFormat

　　Hadoop的作业适用于较大的文件，原因在于FileInputFormat是split整个文件还是split单个文件，如果文件太小（这里指的是小于HDFS的block块大小)并且拥有很多这样的文件，那么就会增加打开文件的性能开销。同时，大量的小文件也会增加namenode的元数据的存储开销。

参考文献:《Hadoop:The Definitive Guide, 4th Edition》

MapReduce格式与类型的更多相关文章

Java日期的格式String类型GMT,GST换算成日期Date种类
请尊重他人的劳动成果.转载请注明出处:Java日期格式化之将String类型的GMT,GST日期转换成Date类型 http://blog.csdn.net/fengyuzhengfan/articl ...
erlang处理mongodb日期时间格式data类型（原）
在项目中,mongo中要创建日期类型,根据这个日期类型进而对mongo设置过期时间expire,加上对应的index索引自动删除. 而mongo中的日期类型,使用ISO格式,例如:ISODate(&q ...
MarkDown 格式生产类型
-- 不默认换行, 真的结束, 包括格式设定,记得空一行. -- 学习参考地址如下, 讲的不好, 太复杂, 不适合新手. 有好读的更好. ** 但是江湖规矩还是引用下吧这是地址(http://wo ...
html input file accept 上传文件类型限制格式 MIME 类型列表
例: <input type="file" accept="application/vnd.openxmlformats-officedocument.spread ...
Json格式String类型字符串转为Map工具类
package agriculture_implement.util; import com.google.gson.Gson; import com.google.gson.JsonSyntaxEx ...
Oracle- 日期格式和数字类型处理
更新数据库时间格式的显示格式的语句:(alter session set nls_date_format='YYYY-MM-dd'); to_date("要转换的字符串",&quo ...
jquery请求格式和返回类型汇总
常规请求基本格式 1 [WebMethod] 2 public string SayHello(string name) 3 { 4 return "Hello " + name; ...
关于Mapreduce Text类型赋值的错误
Mapreduce中Text类型数据被无缘无故替换? 今天偶然看到一个mapreduce demo,直接上手操作统计两个文件中最大值文件中数据格式为名字数值输出为名字(最大值所对应的 ...
Hadoop（十七）之MapReduce作业配置与Mapper和Reducer类
前言前面一篇博文写的是Combiner优化MapReduce执行,也就是使用Combiner在map端执行减少reduce端的计算量. 一.作业的默认配置 MapReduce程序的默认配置 1)概述 ...

随机推荐

Makefile.am链接openCV库的写法
6 INCLUDES = `pkg-config opencv --cflags` -I./ 17 bin_PROGRAMS+=SegRecogServerDeme 18 SegRecogServer ...
nginx 负载均衡、用数据库存储Session，来实现多站点共享Session[转]
多站点共享Session常见的作法有: 1.使用.net自动的状态服务(Asp.net State Service); 2.使用.net的Session数据库: 3.使用Memcached. 4.使用 ...
UOJ Test Round 1
第一题: 题目大意: 给出N个字符串,字符串的前面部分都是字母且都是一样的,后面部分是数字,按照后面的数字排序.N<=10000 解题过程: 1.第一题是真良心,一开始的做法是把后面的数字分离出 ...
一个 11 行 Python 代码实现的神经网络
一个 11 行 Python 代码实现的神经网络 2015/12/02 · 实践项目 · 15 评论· 神经网络分享到:18 本文由伯乐在线 - 耶鲁怕冷翻译,Namco 校稿.未经许可,禁止转 ...
最简单的一个Oracle定时任务
最简单的一个Oracle定时任务一.在PLSQL中创建表:create table HWQY.TEST(CARNO VARCHAR2(30),CARINFOID NUMBER) 二.在PLSQ ...
例子：Alarm Clock with voice Commands Sample
通过本例子学习: 如何使用自定义字体文件(.TTF) 如何播放声音动画的使用 Speech 设置闹铃应用设置数据存储到IsolatedStorage 如何使用自定义字体文件(.TTF) < ...
SDR 研究
最近终于买了一个RTL2832u 电视棒,可以软件无线电了使用我的小米3开发板 (安卓6.0),直接在应用商店里搜索 "sdr",到豌豆荚中,就有“RTL驱动程序” 点击下载安装 ...
Javascript 事件对象（二）event事件
Event事件: <!DOCTYPE HTML> <html> <head> <meta http-equiv="Content-Type" ...
IOS7 SDK 几宗罪
IOS7 app 默认是全屏模式,所以之前的程序窗口会上向移动到状态栏上面,所以在底边会有一条大白边表格单元格,默认是白色背景,之前程序设置的透明效果,这里不在起作用,需要用下面的委托方法改变.- ...
pytho day6 <正则表达式、常用模块、反射>
本节介绍: 一:正则表达式: 正则表达并不是python 独有的.在各个语言里都有该语法的介绍.正则表达是处理字符串的强大的处理工具.拥有自己的独特的处理方法.和处理引擎.虽然性能没有python ...

MapReduce格式与类型

MapReduce格式与类型的更多相关文章

随机推荐

热门专题