MapReduce 编程模板

1.MapReduce 编程模型的5个步骤：

　　1）迭代，将输入数据解析成 key/value 对；

　　2）将解析的 key/value经过Map处理映射成另一组key/value对；

　　3）根据key进行分组；

　　4）以分组为单位进行归约（Reduce 过程）；

　　5）迭代，输出最终结果。

2.MapReduce编程模型模板：

　　在进行编程过程只需改变Map（）和Reduce（）方法，如果没有Reduce过程时需要对run（）作适当调整。

 import java.io.IOException;

 import java.util.jar.JarException;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.conf.Configured;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.LongWritable;

 import org.apache.hadoop.io.NullWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Job;

 import org.apache.hadoop.mapreduce.Mapper;

 import org.apache.hadoop.mapreduce.Reducer;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

 import org.apache.hadoop.util.Tool;

 import org.apache.hadoop.util.ToolRunner;

 import org.apache.jasper.compiler.JavacErrorDetail;

 public class Example extends Configured implements Tool{

     enum Counter{

         LINESKIP; //输出错误行

     }

     /*MapClass

      * Mapper<

      * LongWritable            输入的 key

      * Text                 输入的 value

      * NullWritable／Text    输出的 key

      * Text                    输出的 value

      * >

      * */

     //public static class Map extends Mapper<LongWritable,Text,NullWritable,Text>   //没有Reduce过程时

     public static class Map extends Mapper<LongWritable,Text,Text,Text>{

         public void map(LongWritable key,Text value,Context context) throws IOException, InterruptedException

         {

             String mydata=value.toString();   //读取源数据

              try{

                 //数据处理

                 String[] mydataSplite=mydata.split("");  //数据切分

                 String aData=mydataSplite[0];

                 String bData=mydataSplite[1];

                 /*

                  * 没有Reduce过程时

                  * Text outText=new Text(aData+""+bData);

                  * context.write(new Text(aData), new Text(bData));  //输出 key/value ,NullWritable.get()避免输出制表符

                 */

                 context.write(new Text(aData), new Text(bData));  //输出 key/value

             }catch(java.lang.ArrayIndexOutOfBoundsException e)

             {

                 context.getCounter(Counter.LINESKIP).increment(1);  //出错计数＋1

                 return;

             }

         }

     }

     /*Reduce静态类

      * Reducer<

      * Text,    输入的 key

      * Text,    输入的 value

      * Text,    输出的 key

      * Text     输出的 value

      *

      * Reduce 的输入格式应与 Map的输出格式一致

      * >

      * */

     public static class Reduce extends Reducer<Text,Text,Text,Text>

     {

         public void reduce(Text key,Iterable<Text> values,Context context) throws IOException, InterruptedException

         {

             String valuString;

             String outString="";

             for (Text value : values)

             {

                 valuString=value.toString();

                 outString+=valuString+",";

             }

             context.write(key, new Text(outString));  //输出参数与定义格式一致，如果不是制表符分离的要换成空值

         }

     }

     /*run设置运行任务*/

     public int run(String[] args) throws Exception {

         Configuration conf = getConf();

         Job job = new Job(conf,"Example");   //作务名

         job.setJarByClass(Example.class);    //选择class

         FileInputFormat.setInputPaths(job, new Path(args[0]));    //输入路径

         FileOutputFormat.setOutputPath(job, new Path(args[1]));   //输出路径

         job.setMapperClass(Map.class);           //调用 Map class启动Map task

         job.setReducerClass(Reduce.class);       //调用 Reduce class 雇用 Reduce task

         job.setCombinerClass(Reduce.class);

         job.setInputFormatClass(TextInputFormat.class);    //输入格式

         job.setOutputFormatClass(TextOutputFormat.class);  //输出格式

         //job.setOutputKeyClass(NullWritable.class);       //没有Reduce过程时,输出 key 格式，应该与指定的格式一致

         job.setOutputKeyClass(Text.class);                 //输出 key 格式，应该与指定的格式一致

         job.setOutputValueClass(Text.class);               //输出 value 格式  

         System.exit(job.waitForCompletion(true)?0:1);

         return 0;

     }

     /*主函数入口*/

     public static void main(String[] args) throws Exception {

         int res = ToolRunner.run(new Configuration(),new Example(),args);

         System.exit(res);

     }

 }

MapReduce 编程模板的更多相关文章

批处理引擎MapReduce编程模型
批处理引擎MapReduce编程模型作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. MapReduce是一个经典的分布式批处理计算引擎,被广泛应用于搜索引擎索引构建,大规模数据处理 ...
三、MapReduce编程实例
前文一.CentOS7 hadoop3.3.1安装(单机分布式.伪分布式.分布式二.JAVA API实现HDFS MapReduce编程实例 @ 目录前文 MapReduce编程实例前言注意 ...
Hadoop MapReduce编程 API入门系列之压缩和计数器（三十）
不多说,直接上代码. Hadoop MapReduce编程 API入门系列之小文件合并(二十九) 生成的结果,作为输入源. 代码 package zhouls.bigdata.myMapReduce. ...
[Hadoop入门] - 1 Ubuntu系统 Hadoop介绍 MapReduce编程思想
Ubuntu系统 (我用到版本号是140.4) ubuntu系统是一个以桌面应用为主的Linux操作系统,Ubuntu基于Debian发行版和GNOME桌面环境.Ubuntu的目标在于为一般用户提供一 ...
mapreduce编程模型你知道多少？
上次新霸哥给大家介绍了一些hadoop的相关知识,发现大家对hadoop有了一定的了解,但是还有很多的朋友对mapreduce很模糊,下面新霸哥将带你共同学习mapreduce编程模型. mapred ...
hadoop2.2编程：使用MapReduce编程实例（转）
原文链接:http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.html 从网上搜到的一篇hadoop的编程实例,对于初学者真是帮助太大 ...
《Data-Intensive Text Processing with mapReduce》读书笔记之二：mapreduce编程、框架及运行
搜狐视频的屌丝男士第二季大结局了,惊现波多野老师,怀揣着无比鸡冻的心情啊,可惜随着剧情的推进发展,并没有出现期待中的屌丝奇遇,大鹏还是没敢冲破尺度的界线.想百度些种子吧,又不想让电脑留下污点证据,要知 ...
AJAX编程模板
AJAX一直以来没怎么接触,主要是做JSON数据在服务器和客户端之间传递的时候,被玩坏了,对它莫名的不可爱,最近心理阴影小了,于是又来看看它....... AJAX即“Asynchronous Jav ...
MapReduce 编程模型
一.简单介绍 1.MapReduce 应用广泛的原因之中的一个在于它的易用性.它提供了一个因高度抽象化而变得异常简单的编程模型. 2.从MapReduce 自身的命名特点能够看出,MapReduce ...

随机推荐

二分查找 Binaryserach
二分查找: 二分查找又称折半查找,优点是比较次数少,查找速度快,平均性能好:其缺点是要求待查表为有序表,且插入删除困难.因此,折半查找方法适用于不经常变动而查找频繁的有序列表.首先,假设表中元素是按升 ...
高中信息技术《算法与程序设计VB（选修）》知识要点
原博主: http://blog.sina.com.cn/buyanshibai [转载] (一)算法 1.定义相关题解: 1算法:就是解决问题的方法和步骤.算法是程序设计的“灵魂”,算法+数据结构 ...
[洛谷P1892]团伙
题目大意:有n个人,关系为:朋友的朋友是朋友,敌人的敌人是朋友.如果是朋友就在一个团队内,是敌人就不在,现在给出一关系,问最多有多少团伙.题解:并查集,建反集,如果是朋友,就把他们的并查集合并:如果是 ...
BZOJ2097: [Usaco2010 Dec]Exercise 奶牛健美操贪心+伪树dp+二分
//论全局变量的杀伤力....QAQ#include<cstdio> #include<iostream> #include<cstdlib> #include&l ...
VC++使用CImage PNG转BMP图片透明背景处理
PNG格式的图片是支持透明通道的,BMP格式的图片是没有透明通道的,所以当PNG格式的图片转换为BMP格式时,对于PNG图片的透明背景就需要进行特别的处理. VC++中的HBITMAP是支持透明色的, ...
SpringMVC学习 -- ModelAndView , Model , ModelMap , Map 及 @SessionAttributes 的使用
输出模型数据: ModelAndView:处理方法返回值类型为 ModelAndView 时 , 其中包含视图和模型信息.方法体即可通过该对象添加模型数据 , 即 SpringMVC 会把 Model ...
CSS3学习笔记之loading动画
效果截图: HTML代码: <div class="divBox"> <div class="loader"> <div clas ...
【洛谷 P1070】道路游戏（DP）
题目链接这题还是很好想的,看到\(90%\)的数据点时,我就知道要用\(n^3\)的算法(最后10分就算了吧) 然后,数据水,直接暴力\(n^3\)卡过了. 显然是道DP. 设\(f[i]\)表示第 ...
Codeforces Round #469 Div. 2 A B C D E
A. Left-handers, Right-handers and Ambidexters 题意 \(l\)个左撇子,\(r\)个右撇子,\(a\)个两手均可.要组成一支队伍,里面用左手的人数与用右 ...
百度面试题——top K算法
需求从一亿个数据中,找出其中最小的10个数. 分析最笨的方法就是将这一亿个数据,按从小到大进行排序,然后取前10个.这样的话,即使使用时间复杂度为nlogn的快排或堆排,由于元素会频繁的移动,效率 ...

MapReduce 编程模板

MapReduce 编程模板的更多相关文章

随机推荐

热门专题