Hadoop MapReduce编程 API入门系列之wordcount版本4（八）

　　这篇博客，给大家，体会不一样的版本编程。

是将map、combiner、shuffle、reduce等分开放一个.java里。则需要实现Tool。

代码

 package zhouls.bigdata.myMapReduce.wordcount2;

 import java.io.IOException;

 import org.apache.commons.lang.StringUtils;

 import org.apache.hadoop.io.LongWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Mapper;

 //4个泛型中，前两个是指定mapper输入数据的类型，KEYIN是输入的key的类型，VALUEIN是输入的value的类型

 //map 和 reduce 的数据输入输出都是以 key-value对的形式封装的

 //默认情况下，框架传递给我们的mapper的输入数据中，key是要处理的文本中一行的起始偏移量，这一行的内容作为value

 public class WCMapper extends Mapper<LongWritable, Text, Text, LongWritable>{

     //mapreduce框架每读一行数据就调用一次该方法

     @Override

     protected void map(LongWritable key, Text value,Context context)throws IOException, InterruptedException{

         //具体业务逻辑就写在这个方法体中，而且我们业务要处理的数据已经被框架传递进来，在方法的参数中 key-value

         //key 是这一行数据的起始偏移量     value 是这一行的文本内容

         //将这一行的内容转换成string类型

         String line = value.toString();

         //对这一行的文本按特定分隔符切分

         //hadoop helloworld

         String[] words = StringUtils.split(line, " ");

         //遍历这个单词数组输出为kv形式  k：单词   v ： 1

         for(String word : words){//word是k2

             context.write(new Text(word), new LongWritable(1));//写入word是k2,1是v2

 //            context.write(word,1);等价            

         }

     }

 }

 package zhouls.bigdata.myMapReduce.wordcount2;

 import java.io.IOException;

 import org.apache.hadoop.io.LongWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Reducer;

 public class WCReducer extends Reducer<Text, LongWritable, Text, LongWritable>{

     //框架在map处理完成之后，将所有kv对缓存起来，进行分组，然后传递一个组<key,valus{}>，调用一次reduce方法

     //<hello,{1,1,1,1,1,1.....}>

     @Override

     protected void reduce(Text key, Iterable<LongWritable> values,Context context)throws IOException, InterruptedException {

         long count = 0;

         //遍历value的list，进行累加求和

         for(LongWritable value:values){//value是v2

             count += value.get();

         }

         //输出这一个单词的统计结果

         context.write(key,new LongWritable(count));//key是k3,count是v3

 //        context.write(key,count);

     }

 }

 package zhouls.bigdata.myMapReduce.wordcount2;

 import org.apache.hadoop.io.LongWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Reducer;

 /**

  * combiner必须遵循reducer的规范

  * 可以把它看成一种在map任务本地运行的reducer

  * 使用combiner的时候要注意两点

  * 1、combiner的输入输出数据泛型类型要能跟mapper和reducer匹配

  * 2、combiner加入之后不能影响最终的业务逻辑运算结果

  *

  *

  */

 public class WCCombiner extends Reducer<Text, LongWritable, Text, LongWritable>{

 }

 package zhouls.bigdata.myMapReduce.wordcount2;

 import java.io.IOException;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.LongWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Job;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 /**

  * 用来描述一个特定的作业

  * 比如，该作业使用哪个类作为逻辑处理中的map，哪个作为reduce

  * 还可以指定该作业要处理的数据所在的路径

  * 还可以指定改作业输出的结果放到哪个路径

  * ....

  * @author duanhaitao@itcast.cn

  *

  */

 public class WCRunner {

     public static void main(String[] args) throws Exception {

         Configuration conf = new Configuration();

         Job wcjob = Job.getInstance(conf);

         //设置整个job所用的那些类在哪个jar包

         wcjob.setJarByClass(WCRunner.class);

         //本job使用的mapper和reducer的类

         wcjob.setMapperClass(WCMapper.class);

         wcjob.setReducerClass(WCReducer.class);

         //指定本job使用combiner组件，组件所用的类为

         wcjob.setCombinerClass(WCReducer.class);

         //指定reduce的输出数据kv类型

         wcjob.setOutputKeyClass(Text.class);

         wcjob.setOutputValueClass(LongWritable.class);

         //指定mapper的输出数据kv类型

         wcjob.setMapOutputKeyClass(Text.class);

         wcjob.setMapOutputValueClass(LongWritable.class);

 //        //指定要处理的输入数据存放路径

 //        FileInputFormat.setInputPaths(wcjob, new Path("hdfs://HadoopMaster:9000/wordcount/wc.txt/"));

 //

 //        //指定处理结果的输出数据存放路径

 //        FileOutputFormat.setOutputPath(wcjob, new Path("hdfs://HadoopMaster:9000/out/wordcount/wc/"));

         //指定要处理的输入数据存放路径

         FileInputFormat.setInputPaths(wcjob, new Path("./data/wordcount/wc.txt"));

         //指定处理结果的输出数据存放路径

         FileOutputFormat.setOutputPath(wcjob, new Path("./out/wordcount/wc/"));

         //将job提交给集群运行

         wcjob.waitForCompletion(true);

     }

 }

Hadoop MapReduce编程 API入门系列之wordcount版本4（八）的更多相关文章

Hadoop MapReduce编程 API入门系列之wordcount版本1（五）
这个很简单哈,编程的版本很多种. 代码版本1 package zhouls.bigdata.myMapReduce.wordcount5; import java.io.IOException; im ...
Hadoop MapReduce编程 API入门系列之wordcount版本5（九）
这篇博客,给大家,体会不一样的版本编程. 代码 package zhouls.bigdata.myMapReduce.wordcount1; import java.io.IOException; i ...
Hadoop MapReduce编程 API入门系列之wordcount版本3（七）
这篇博客,给大家,体会不一样的版本编程. 代码 package zhouls.bigdata.myMapReduce.wordcount3; import java.io.IOException; i ...
Hadoop MapReduce编程 API入门系列之wordcount版本2（六）
这篇博客,给大家,体会不一样的版本编程. 代码 package zhouls.bigdata.myMapReduce.wordcount4; import java.io.IOException; i ...
Hadoop MapReduce编程 API入门系列之压缩和计数器（三十）
不多说,直接上代码. Hadoop MapReduce编程 API入门系列之小文件合并(二十九) 生成的结果,作为输入源. 代码 package zhouls.bigdata.myMapReduce. ...
Hadoop MapReduce编程 API入门系列之挖掘气象数据版本3（九）
不多说,直接上干货! 下面,是版本1. Hadoop MapReduce编程 API入门系列之挖掘气象数据版本1(一) 下面是版本2. Hadoop MapReduce编程 API入门系列之挖掘气象数 ...
Hadoop MapReduce编程 API入门系列之挖掘气象数据版本2（十）
下面,是版本1. Hadoop MapReduce编程 API入门系列之挖掘气象数据版本1(一) 这篇博文,包括了,实际生产开发非常重要的,单元测试和调试代码.这里不多赘述,直接送上代码. MRUni ...
Hadoop MapReduce编程 API入门系列之join（二十六）（未完）
不多说,直接上代码. 天气记录数据库 Station ID Timestamp Temperature 气象站数据库 Station ID Station Name 气象站和天气记录合并之后的示意图如 ...
Hadoop MapReduce编程 API入门系列之MapReduce多种输入格式（十七）
不多说,直接上代码. 代码 package zhouls.bigdata.myMapReduce.ScoreCount; import java.io.DataInput; import java.i ...

随机推荐

安卓代码迁移：Make.exe: *** [libs/armabi-v7a/gdbserver] Error 1
解决办法1:安装ndk和eclipse修改为x86操作系统解决办法2:降低更换NDK版本
C#访问Win 32的一些尝试
使用C#调用Win 32 Api大部分情况下基本只涉及到参数类型的转变,但在遇到Win 32 Api返回LPVOID *lpBuff 时会遇到一些解析遍历难题.lpBuff为二维指针,*lpBuff是 ...
偏函数应用(Partial Application）和函数柯里化(Currying)
偏函数应用指的是固化函数的一个或一些参数,从而产生一个新的函数.比如我们有一个记录日志的函数: 1: def log(level, message): 2: print level + ": ...
PS CC2018 命令大全
1.图像: 设置图像大小:图像->图像大小->设置宽高约束比例: 解除约束比例: 2.设置大小像素图片不模糊: 双击当前图层->新建图层样式->输入名称->确定-> ...
解析MYsql写的表达式
今天遇到个问题,Sql中直接写的是复杂表达式,如何解析呢? round(((0.00579049505+0.00006600324*JING_JIE^2*SHU_GAO-0.00000046921*J ...
PAT_A1140#Look-and-say Sequence
Source: PAT A1140 Look-and-say Sequence (20 分) Description: Look-and-say sequence is a sequence of i ...
SPLAY or SPALY ?
写在前面: 由我们可爱的Daniel Sleator和Robert Tarjan提出的一种数据结构,平衡树的一种,本质是二叉树. 至于到底是splay还是spaly,我认为可能splay更对一些毕竟 ...
Win32_Window（day02）
--- 窗口创建函数 ---#include <Windows.h> //窗口处理函数 HINSTANCE g_hIns; LRESULT CALLBACK WndProc(HWND hW ...
Idea 类注释和方法注释
类注释先打开Settings > Editor > File and Code Templates Includes Includes File Header 再随机新建个类就有类注释 ...
用户输入input函数和代码注释
一.读取用户输入 py3中input()读取用户输入,输出全部是默认str字符串数据类型,一般将其赋值变量,用户输入才继续往下走程序.(py2的不同已单独列出随笔) 二.注释注释的作用:代码量大的时 ...

Hadoop MapReduce编程 API入门系列之wordcount版本4（八）

Hadoop MapReduce编程 API入门系列之wordcount版本4（八）的更多相关文章

随机推荐

热门专题