MapReduce编程job概念原理

　　在Hadoop中，每个MapReduce任务都被初始化为一个job,每个job又可分为两个阶段:map阶段和reduce阶段。这两个阶段分别用两个函数来表示。Map函数接收一个<key,value>形式的输入，然后同样产生一个<ey,value>形式的中间输出，Hadoop会负责将所有具有相同中间key值的value集合在一起传递给reduce函数，reduce函数接收一个如<key,(list of values)>形式的输入，然后对这个value集合进行处理，每个reduce产生0或1个输出，reduce的输出也是<key,value>形式。

简易代码：

public static class Map extends MapReduceBase implments Mapper<LongWritable,Text,Text,IntWritable>{

    //设置常量1，用来形成<word,1>形式的输出

    private fianll static IntWritable one = new IntWritable(1)

    private Text word = new Text();

public void map(LongWritable key,Text value,OutputCollector<Text,output,Reporter reporter) throws IOException{

   //hadoop执行map函数时为是一行一行的读取数据处理，有多少行，就会执行多少次map函数

    String line = value.toString();

    //进行单词的分割，可以多传入进行分割的参数

    StringTokenizer tokenizer = new StringTokenizer(line);

    //遍历单词

    while(tokenizer.hasMoreTokens()){

       //往Text中写入<word,1>

        word.set(tokenizer.nextToken());

        output.collect(word,one);

    }

    }

}

//需要注意的是，reduce将相同key值(这里是word)的value值收集起来，形成<word,list of 1>的形式，再将这些1累加

public static class Reduce extends MapReduceBase implements Reducer<Text IntWritable,Text,IntWritable>{

        public void reduce(Text key,Iterator<IntWritable> values,OutputCollector<Text,IntWritable> output,Reporter reporter) throws IOException{

    //初始word个数设置

    int sum = 0;

    while(values,hasNext()){

     //单词个数相加

        sum += value.next().get();

    }

    output.collect(key,new IntWritbale(sum));

    }

}

执行概念总结:

job.setInputFormatClass(TextInputFormat.class);

1.InputFormat()和inputSplit

　　inputSplit是Hadoop定义的用来传送给每个单独的map的数据，InputSplit存储的并非数据本身，而是一个分片长度和一个记录数据位置的数组，生成InputSplit的方法可以通过InputFormat(I)来设置。当数据传送给map时，map会将输入分片传送到inputFormat上，InputFormat则调用getREcordReduer()方法生成RecordReader,RecordReader再通过createKey()、createValue()方法创建可供map处理的<key,value>对，即<k1,v1>,简而言之InputFormat方法是用来生成可供map处理的<key,value>对的。

　　在这里如果不设置的话，TextInputFormat会是Hadoop默认的输入方法，在TextInputFormat中，每个人间(或其一部分）都会单独地作为map的输入，继承自FileInputFormat，之后，每行数据都会生成一条记录，每条记录则表示成<key,value>形式：

　　其中，key值是每个数据的记录在数据分片中的字节偏移量，数据类型是LongWritable.

　　value值是每行的内容，数据类型是Text。

job.setOutputValueClass(TextInputFormat.class);

2、OutputFormat

　　每一种输入格式都有一种输出格式与其对应。同样，默认的输出格式是TextOutputFormat,这种输出方式与输入类似，会将每条记录以一行的形式存入文本文件。不过它的键和值都可以以任意形式的，因为程序内部会调用toString()方法将键和值转换为String类型再输出。

3、map和reduce

　　map函数接收经过inputFormat处理产生的<k1,v1>，然后输出<k2,v2>,map函数老的版本写法是继承MapReduceBase然后实现Mapper接口，但是现在可以直接继承Mapper接口，此接口是一个泛型类型，有4种形式的参数，分别用来指定map的输入key值类型(LongWritable key)，输入value值类型(Text value)、输出key值类型和(Text)输出value值类型(IntWritable，本例是reporter)。

　　reduce函数以map的输出作为输入，因此reduce的输入类型是<Text,IntWritable>.而reduce的输出是单词和它的数目，因此，它的输出类型是<Text,IntWritable>

4、任务调度

　　计算方面：Hadoop总会有限将任务分配给空闲的机器，使所有的任务能公平地分享系统资源，I/O方面：Hadoop会尽量将map任务分配给InputSplit所在机器，以减少网络I/O的消耗。

5、数据预处理与InputSplit的大小。

　　Hadoop会在处理每个block后将其作为一个InputSplit,因此合理地甚至block块大小是很重要的。也可通过合理地设置map任务的数量来调节map任务的数据输入。

6、map和reduce任务的数量

　　设置map任务槽和reduce任务槽，map/reduce任务槽是这个集群能够同时运行的map/reduce任务的最大数量。可以通过hadoop的配置文件设置每台机器最多可以同时运行map任务和reduce任务的个数，比如有10台机器，设置每台最多可以同时运行10个map任务和5个reduce任务，那么这个集群的map任务槽就是1000，reduce任务槽就是500.一般来说，设置的reduce任务数量应该是reduce任务槽的0.95或是1.75倍

7、combine函数

　　combine函数是用于在本地合并数据的函数，从wordcount程序中，词频是一个接近于zipf分布的，每个map任务可能会产生成千上万个<the,i>记录，若将这些记录一一传给reduce任务是很耗时的，所以可以设置一个combine函数，用于本地合并，大大减少网络I/O操作的消耗。

job.setCombinerClass(combine.class);

//指定reduce函数为combine函数

job.setReducerClass(Reduce.class);

8、Hadoop流的工作原理

　　当一个可执行文件作为Mapper时，每个map任务会以一个独立的进程启动这个可执行文件，然后在map任务运行时，会把输入切分成行提供给可执行文件，并作为它的标准输入(stdin)内容。当可执行文件运行处结果时，map从标准输出(stdout)中手机数据，并将其转化为<key,value>对，作为map的输出。

参考:<Hadoop实战>

MapReduce编程job概念原理的更多相关文章

暴力破解MD5的实现（MapReduce编程）
本文主要介绍MapReduce编程模型的原理和基于Hadoop的MD5暴力破解思路. 一.MapReduce的基本原理 Hadoop作为一个分布式架构的实现方案,它的核心思想包括以下几个方面:HDFS ...
MapReduce/Hbase进阶提升(原理剖析、实战演练)
什么是MapReduce? MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算.概念"Map(映射)"和"Reduce(归约)",和他们 ...
MapReduce API 基本概念
在正式分析新旧 API 之前, 先要介绍几个基本概念. 这些概念贯穿于所有 API 之中,因此, 有必要单独讲解. 1.序列化序列化是指将结构化对象转为字节流以便于通过网络进行传输或写入持久存储的过 ...
批处理引擎MapReduce编程模型
批处理引擎MapReduce编程模型作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. MapReduce是一个经典的分布式批处理计算引擎,被广泛应用于搜索引擎索引构建,大规模数据处理 ...
[Hadoop入门] - 1 Ubuntu系统 Hadoop介绍 MapReduce编程思想
Ubuntu系统 (我用到版本号是140.4) ubuntu系统是一个以桌面应用为主的Linux操作系统,Ubuntu基于Debian发行版和GNOME桌面环境.Ubuntu的目标在于为一般用户提供一 ...
初步掌握MapReduce的架构及原理
目录 1.MapReduce定义 2.MapReduce来源 3.MapReduce特点 4.MapReduce实例 5.MapReduce编程模型 6.MapReduce 内部逻辑 7.MapRed ...
指导手册05：MapReduce编程入门
指导手册05:MapReduce编程入门 Part 1:使用Eclipse创建MapReduce工程操作系统: Centos 6.8, hadoop 2.6.4 情景描述: 因为Hadoop本身 ...
MapReduce编程解析
MapReduce编程模型之案例 wordcount 输入数据 atguigu atguiguss sscls clsjiaobanzhangxuehadoop 输出数据 atguigu 2banzh ...
MapReduce编程基础
MapReduce编程基础 1. WordCount示例及MapReduce程序框架 2. MapReduce程序执行流程 3. 深入学习MapReduce编程(1) 4. 参考资料及代码下载 & ...

随机推荐

Linux 编写c++程序之openssl
在使用openssl 库前,需检测是否安装openssl , shell 窗口输入:openssl version , 在openssl 安装完成之后, 可通过vi 编写测试代码 . 本例中附上加密 ...
IOS开发支付宝集成思路
一般情况下支付功能的交互流程比如我们去某个APP去支付一个产品,流程为:1.用户点击支付->2.客户端请求服务器用户支付->3.服务器接收请求生成金额订单等要给第三方支付的一切信息,并生 ...
MagicalRecord 多表关联数据操作
最近在使用MagicalRecord做数据持久层CoreData的操作库,今天做了一个多表关联数据的操作,整理了一个demo,特此记录一下. 关于如何使用Cocopads 和 MagicalRecor ...
对HTML+CSS+JavaScript的个人理解
HTML就像人的骨头架子,是人的根基,要有个人样呀,一个网站,一个WebApp要是缺根儿骨头,那就像人少个胳膊少个腿儿的,行动不方便啊:CSS就像人穿得衣服.鞋子,男人的纹身,女人擦得粉儿,好看呀,一 ...
Android Performance Optimization
1.zipalign 2.ui优化 3.package size 4.RenderScript 5.Resource Shrinking & Code Shrinking 6.java cod ...
关于VS2013中Win32程序怎么修改图标
首先向资源文件上加上你要添加的资源(把你要添加的图标放在你的工程的下面,然后右击资源文件选中添加资源,然后选择导入你要添加的图标),下面你只要打开你项目的.rc文件要用查看代码形式打开,然后只要把系统 ...
Request.Form()的使用
在CS文件中获得对应页面中的下拉框DropDownList_sitebranch值可以有以下几种方法获得: siteInfo.FZJGID = DropDownList_sitebra ...
Android 布局优化
转载自stormzhang的博客:http://stormzhang.com/android/2014/04/10/android-optimize-layout/ < include /> ...
AngularJS从构建项目开始
AngularJS从构建项目开始 AngularJS体验式编程系列文章,将介绍如何用angularjs构建一个强大的web前端系统.angularjs是由Google团队开发的一款非常优秀web前端框 ...
day14_API第四天
1.正则(了解) 1.基本的正则表达式(看懂即可) 字符类[abc] a.b 或 c(简单类)[^abc] 任何字符,除了 a.b 或 c(否定)[a-zA-Z] a 到 z 或 A 到 Z,两头的字 ...

MapReduce编程job概念原理

MapReduce编程job概念原理的更多相关文章

随机推荐

热门专题