Hadoop MapReduce编程 API入门系列之wordcount版本1（五）

　　这个很简单哈，编程的版本很多种。

代码版本1

 package zhouls.bigdata.myMapReduce.wordcount5;

 import java.io.IOException;

 import java.util.StringTokenizer;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Job;

 import org.apache.hadoop.mapreduce.Mapper;

 import org.apache.hadoop.mapreduce.Reducer;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 public class WordCount

 {

 public static class TokenizerMapper

 extends Mapper<Object, Text, Text, IntWritable>{

 private final static IntWritable one = new IntWritable(1);

 private Text word = new Text();

 public void map(Object key, Text value, Context context

 ) throws IOException, InterruptedException {

 StringTokenizer itr = new StringTokenizer(value.toString());

 while (itr.hasMoreTokens()) {

 word.set(itr.nextToken());

 context.write(word, one);

 }

 }

 }

 public static class IntSumReducer

 extends Reducer<Text,IntWritable,Text,IntWritable> {

 private IntWritable result = new IntWritable();

 public void reduce(Text key, Iterable<IntWritable> values,

 Context context

 ) throws IOException, InterruptedException {

 int sum = 0;

 for (IntWritable val : values) {

 sum += val.get();

 }

 result.set(sum);

 context.write(key, result);

 }

 }

 public static void main(String[] args) throws Exception {

 Configuration conf = new Configuration();

 Job job = Job.getInstance(conf, "word count");

 job.setJarByClass(WordCount.class);

 job.setMapperClass(TokenizerMapper.class);

 job.setCombinerClass(IntSumReducer.class);

 job.setReducerClass(IntSumReducer.class);

 job.setOutputKeyClass(Text.class);

 job.setOutputValueClass(IntWritable.class);

 // FileInputFormat.addInputPath(job, new Path("hdfs:/HadoopMaster:9000/wc.txt"));

 // FileOutputFormat.setOutputPath(job, new Path("hdfs:/HadoopMaster:9000/out/wordcount"));

 FileInputFormat.addInputPath(job, new Path("./data/wc.txt"));

 FileOutputFormat.setOutputPath(job, new Path("./out/WordCount"));

 System.exit(job.waitForCompletion(true) ? 0 : 1);

 }

 }

代码版本3

 package com.dajiangtai.Hadoop.MapReduce;

 import java.io.IOException;

 import java.util.StringTokenizer;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.FileSystem;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Job;

 import org.apache.hadoop.mapreduce.Mapper;

 import org.apache.hadoop.mapreduce.Reducer;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

 @SuppressWarnings("unused")

 public class WordCount {//2017最新详解版

     public static class TokenizerMapper extends

             Mapper<Object, Text, Text, IntWritable>

 //            为什么这里k1要用Object、Text、IntWritable等，而不是java的string啊、int啊类型，当然，你可以用其他的，这样用的好处是，因为它里面实现了序列化和反序列化。

 //            可以让在节点间传输和通信效率更高。这就为什么hadoop本身的机制类型的诞生。

             //这个Mapper类是一个泛型类型，它有四个形参类型，分别指定map函数的输入键、输入值、输出键、输出值的类型。hadoop没有直接使用Java内嵌的类型，而是自己开发了一套可以优化网络序列化传输的基本类型。这些类型都在org.apache.hadoop.io包中。

             //比如这个例子中的Object类型，适用于字段需要使用多种类型的时候，Text类型相当于Java中的String类型，IntWritable类型相当于Java中的Integer类型

             {

             //定义两个变量或者说是定义两个对象，叫法都可以

         private final static IntWritable one = new IntWritable(1);//这个1表示每个单词出现一次，map的输出value就是1.

                                     //因为，v1是单词出现次数，直接对one赋值为1

         private Text word = new Text();

         public void map(Object key, Text value, Context context)

         //context它是mapper的一个内部类，简单的说顶级接口是为了在map或是reduce任务中跟踪task的状态，很自然的MapContext就是记录了map执行的上下文，在mapper类中，这个context可以存储一些job conf的信息，比如job运行时参数等，我们可以在map函数中处理这个信息，这也是Hadoop中参数传递中一个很经典的例子，同时context作为了map和reduce执行中各个函数的一个桥梁，这个设计和Java web中的session对象、application对象很相似

         //简单的说context对象保存了作业运行的上下文信息，比如：作业配置信息、InputSplit信息、任务ID等

         //我们这里最直观的就是主要用到context的write方法。

         //说白了，context起到的是连接map和reduce的桥梁。起到上下文的作用！

                 throws IOException, InterruptedException {

             //The tokenizer uses the default delimiter set, which is " \t\n\r": the space character, the tab character, the newline character, the carriage-return character

             StringTokenizer itr = new StringTokenizer(value.toString());//将Text类型的value转化成字符串类型

             //StringTokenizer是字符串分隔解析类型,StringTokenizer 用来分割字符串，你可以指定分隔符，比如','，或者空格之类的字符。

             //使用StringTokenizer类将字符串“hello,java,delphi,asp,PHP”分解为三个单词

 //            程序的运行结果为:

 //                  hello

 //                  java

 //                  delphi

 //                  asp

 //

 //                  php

             while (itr.hasMoreTokens()) {//hasMoreTokens() 方法是用来测试是否有此标记生成器的字符串可用更多的标记。

 //                实际上就是java.util.StringTokenizer.hasMoreTokens()

 //                hasMoreTokens() 方法是用来测试是否有此标记生成器的字符串可用更多的标记。

                 //java.util.StringTokenizer.hasMoreTokens()

                 word.set(itr.nextToken());//nextToken()这是 StringTokenizer 类下的一个方法,nextToken() 用于返回下一个匹配的字段。

                 context.write(word, one);

             }

         }

     }

     public static class IntSumReducer extends

             Reducer<Text, IntWritable, Text, IntWritable> {

         private IntWritable result = new IntWritable();

         public void reduce(Text key, Iterable<IntWritable> values,

                 Context context) throws IOException, InterruptedException {

             //我们这里最直观的就是主要用到context的write方法。

             //说白了，context起到的是连接map和reduce的桥梁。起到上下文的作用！

             int sum = 0;

             for (IntWritable val : values) {//叫做增强的for循环，也叫for星型循环

                 sum += val.get();

             }

             result.set(sum);

             context.write(key, result);

         }

     }

     public static void main(String[] args) throws Exception {

         Configuration conf = new Configuration();//程序里，只需写这么一句话，就会加载到hadoop的配置文件了

         //Configuration类代表作业的配置，该类会加载mapred-site.xml、hdfs-site.xml、core-site.xml等配置文件。

         //删除已经存在的输出目录

         Path mypath = new Path("hdfs://djt002:9000/outData/wordcount");//输出路径

         FileSystem hdfs = mypath.getFileSystem(conf);//程序里，只需写这么一句话，就可以获取到文件系统了。

                     //FileSystem里面包括很多系统，不局限于hdfs，是因为，程序读到conf，哦，原来是hadoop集群啊。这时，才认知到是hdfs

         //如果文件系统中存在这个输出路径，则删除掉，保证输出目录不能提前存在。

         if (hdfs.isDirectory(mypath)) {

             hdfs.delete(mypath, true);

         }

         //job对象指定了作业执行规范，可以用它来控制整个作业的运行。

         Job job = Job.getInstance();// new Job(conf, "word count");

         job.setJarByClass(WordCount.class);//我们在hadoop集群上运行作业的时候，要把代码打包成一个jar文件，然后把这个文件

         //传到集群上，然后通过命令来执行这个作业，但是命令中不必指定JAR文件的名称，在这条命令中通过job对象的setJarByClass（）

         //中传递一个主类就行，hadoop会通过这个主类来查找包含它的JAR文件。

         job.setMapperClass(TokenizerMapper.class);

         //job.setReducerClass(IntSumReducer.class);

         job.setCombinerClass(IntSumReducer.class);//Combiner最终不能影响reduce输出的结果

 //                                这句话要好好理解!!!

         job.setOutputKeyClass(Text.class);

         job.setOutputValueClass(IntWritable.class);

         //一般情况下mapper和reducer的输出的数据类型是一样的，所以我们用上面两条命令就行，如果不一样，我们就可以用下面两条命令单独指定mapper的输出key、value的数据类型

         //job.setMapOutputKeyClass(Text.class);

         //job.setMapOutputValueClass(IntWritable.class);

         //hadoop默认的是TextInputFormat和TextOutputFormat,所以说我们这里可以不用配置。

         //job.setInputFormatClass(TextInputFormat.class);

         //job.setOutputFormatClass(TextOutputFormat.class);

         FileInputFormat.addInputPath(job, new Path(

                 "hdfs://djt002:9000/inputData/wordcount/wc.txt"));//FileInputFormat.addInputPath（）指定的这个路径可以是单个文件、一个目录或符合特定文件模式的一系列文件。

         //从方法名称可以看出，可以通过多次调用这个方法来实现多路径的输入。

         FileOutputFormat.setOutputPath(job, new Path(

                 "hdfs://djt002:9000/outData/wordcount"));//只能有一个输出路径，该路径指定的就是reduce函数输出文件的写入目录。

         //特别注意：输出目录不能提前存在，否则hadoop会报错并拒绝执行作业，这样做的目的是防止数据丢失，因为长时间运行的作业如果结果被意外覆盖掉，那肯定不是我们想要的

         System.exit(job.waitForCompletion(true) ? 0 : 1);

         //使用job.waitForCompletion（）提交作业并等待执行完成，该方法返回一个boolean值，表示执行成功或者失败，这个布尔值被转换成程序退出代码0或1，该布尔参数还是一个详细标识，所以作业会把进度写到控制台。

         //waitForCompletion(）提交作业后，每秒会轮询作业的进度，如果发现和上次报告后有改变，就把进度报告到控制台，作业完成后，如果成功就显示作业计数器，如果失败则把导致作业失败的错误输出到控制台

     }

 }

 //TextInputFormat是hadoop默认的输入格式，这个类继承自FileInputFormat,使用这种输入格式，每个文件都会单独作为Map的输入，每行数据都会生成一条记录，每条记录会表示成<key，value>的形式。

 //key的值是每条数据记录在数据分片中的字节偏移量，数据类型是LongWritable.

 //value的值为每行的内容，数据类型为Text。

 //

 //实际上InputFormat（）是用来生成可供Map处理的<key，value>的。

 //InputSplit是hadoop中用来把输入数据传送给每个单独的Map(也就是我们常说的一个split对应一个Map),

 //InputSplit存储的并非数据本身，而是一个分片长度和一个记录数据位置的数组。

 //生成InputSplit的方法可以通过InputFormat（）来设置。

 //当数据传给Map时，Map会将输入分片传送给InputFormat（），InputFormat()则调用getRecordReader()生成RecordReader,RecordReader则再通过creatKey()和creatValue()创建可供Map处理的<key，value>对。

 //

 //OutputFormat()

 //默认的输出格式为TextOutputFormat。它和默认输入格式类似，会将每条记录以一行的形式存入文本文件。它的键和值可以是任意形式的，因为程序内部会调用toString()将键和值转化为String类型再输出。

代码版本2

 package zhouls.bigdata.myMapReduce.wordcount5;

 import java.io.IOException;

 import java.util.StringTokenizer;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.FileSystem;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Job;

 import org.apache.hadoop.mapreduce.Mapper;

 import org.apache.hadoop.mapreduce.Reducer;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 import org.apache.hadoop.util.Tool;

 import org.apache.hadoop.util.ToolRunner;

 public class WordCount implements Tool

 {

 public static class TokenizerMapper

 extends Mapper<Object, Text, Text, IntWritable>{

 private final static IntWritable one = new IntWritable(1);

 private Text word = new Text();

 public void map(Object key, Text value, Context context

 ) throws IOException, InterruptedException {

 StringTokenizer itr = new StringTokenizer(value.toString());

 while (itr.hasMoreTokens()) {

 word.set(itr.nextToken());

 context.write(word, one);

 }

 }

 }

 public static class IntSumReducer

 extends Reducer<Text,IntWritable,Text,IntWritable> {

 private IntWritable result = new IntWritable();

 public void reduce(Text key, Iterable<IntWritable> values,

 Context context

 ) throws IOException, InterruptedException {

 int sum = 0;

 for (IntWritable val : values) {

 sum += val.get();

 }

 result.set(sum);

 context.write(key, result);

 }

 }

 public int run(String[] arg0) throws Exception {

 Configuration conf = new Configuration();

 //2删除已经存在的输出目录

 Path mypath = new Path(arg0[1]);//下标为1，即是输出路径

 FileSystem hdfs = mypath.getFileSystem(conf);//获取文件系统

 if (hdfs.isDirectory(mypath))

 {//如果文件系统中存在这个输出路径，则删除掉

 hdfs.delete(mypath, true);

 }

 Job job = Job.getInstance(conf, "word count");

 job.setJarByClass(WordCount.class);

 job.setMapperClass(TokenizerMapper.class);

 job.setCombinerClass(IntSumReducer.class);

 job.setReducerClass(IntSumReducer.class);

 job.setOutputKeyClass(Text.class);

 job.setOutputValueClass(IntWritable.class);

 FileInputFormat.addInputPath(job, new Path(arg0[0]));// 文件输入路径

 FileOutputFormat.setOutputPath(job, new Path(arg0[1]));// 文件输出路径

 job.waitForCompletion(true);

 return 0;

 }

 public static void main(String[] args) throws Exception {

 //集群路径

 // String[] args0 = { "hdfs:/HadoopMaster:9000/wc.txt",

 // "hdfs:/HadoopMaster:9000/out/wordcount"};

 //本地路径

 String[] args0 = { "./data/wc.txt",

 "./out/WordCount"};

 int ec = ToolRunner.run( new Configuration(), new WordCount(), args0);

 System. exit(ec);

 }

 @Override

 public Configuration getConf() {

 // TODO Auto-generated method stub

 return null;

 }

 @Override

 public void setConf(Configuration arg0) {

 // TODO Auto-generated method stub

 }

 }

Hadoop MapReduce编程 API入门系列之wordcount版本1（五）的更多相关文章

Hadoop MapReduce编程 API入门系列之wordcount版本4（八）
这篇博客,给大家,体会不一样的版本编程. 是将map.combiner.shuffle.reduce等分开放一个.java里.则需要实现Tool. 代码 package zhouls.bigdata. ...
Hadoop MapReduce编程 API入门系列之wordcount版本5（九）
这篇博客,给大家,体会不一样的版本编程. 代码 package zhouls.bigdata.myMapReduce.wordcount1; import java.io.IOException; i ...
Hadoop MapReduce编程 API入门系列之wordcount版本3（七）
这篇博客,给大家,体会不一样的版本编程. 代码 package zhouls.bigdata.myMapReduce.wordcount3; import java.io.IOException; i ...
Hadoop MapReduce编程 API入门系列之wordcount版本2（六）
这篇博客,给大家,体会不一样的版本编程. 代码 package zhouls.bigdata.myMapReduce.wordcount4; import java.io.IOException; i ...
Hadoop MapReduce编程 API入门系列之最短路径（十五）
不多说,直接上代码. ======================================= Iteration: 1= Input path: out/shortestpath/input. ...
Hadoop MapReduce编程 API入门系列之压缩和计数器（三十）
不多说,直接上代码. Hadoop MapReduce编程 API入门系列之小文件合并(二十九) 生成的结果,作为输入源. 代码 package zhouls.bigdata.myMapReduce. ...
Hadoop MapReduce编程 API入门系列之挖掘气象数据版本3（九）
不多说,直接上干货! 下面,是版本1. Hadoop MapReduce编程 API入门系列之挖掘气象数据版本1(一) 下面是版本2. Hadoop MapReduce编程 API入门系列之挖掘气象数 ...
Hadoop MapReduce编程 API入门系列之挖掘气象数据版本2（十）
下面,是版本1. Hadoop MapReduce编程 API入门系列之挖掘气象数据版本1(一) 这篇博文,包括了,实际生产开发非常重要的,单元测试和调试代码.这里不多赘述,直接送上代码. MRUni ...
Hadoop MapReduce编程 API入门系列之join（二十六）（未完）
不多说,直接上代码. 天气记录数据库 Station ID Timestamp Temperature 气象站数据库 Station ID Station Name 气象站和天气记录合并之后的示意图如 ...

随机推荐

Dll中的方法向外返回dynamic类型可能会失败
如果Dll中有某个类的方法返回dynamic实例,并且dynamic对象实际实例为匿名类类型,则Dll的外部使用者可能最终无法正常使用此dynamic对象.当使用此dynamic对象时,可能会遇到x属 ...
个人作业—Alpha测试
这个作业属于哪个课程 https://edu.cnblogs.com/campus/xnsy/SoftwareEngineeringClass1/homework/3338 这个作业要求在哪里 htt ...
[转载]ext4文件系统的delalloc选项造成单次写延迟增加的分析
转载http://www.cnblogs.com/cobbliu/p/5603472.html 最近我们的服务进程遇到kill -15后处于Z的状态,变为了僵尸进程,经过/proc/{thread_i ...
单点登录之 CAS SSO 从入门到精通（第一天）
转自:http://blog.csdn.net/lifetragedy/article/details/43817903 啊......it's quite a long time. 好久没更新博客了 ...
使用百度fis3构建前端多页应用
吾日三省吾身. 从一个完全不相干的行业转到IT,多多少少都会感到迷茫,不知道学习什么.从何学起?在几乎没有任何经验的背景下,坚持投递简历,最后终于进入了一个创业公司,开始做起了前端工作.工资勉强维持生 ...
vue部署到nginx服务下，非根目录，刷新页面404怎么解决？
nginx配置 location / { proxy_pass http://xxxx; } location /category { root /home/tv; index index.html; ...
洛谷P1012 拼数【字符串+排序】
设有nn个正整数(n≤20)(n≤20),将它们联接成一排,组成一个最大的多位整数. 例如:n=3n=3时,33个整数1313,312312,343343联接成的最大整数为:3433121334331 ...
zuul 路由网关
一.阐述 Zuul 包含了对请求的路由和过滤两个主要的功能: 路由功能:负责将外部请求转发到具体的微服务实例上,是实现外部访问统一入口的基础: 滤器功能:负责对请求的处理过程干预,是实现请求校验.服务 ...
移位运算>>与>>>
无符号右移运算符 (>>>)右移表达式的位,不保留符号.result = expression1 >>> expression2>>>运算符把 e ...
0622centos下coreseek安装及使用方法
Coreseek 中文全文检索引擎 Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索.论坛 ...

Hadoop MapReduce编程 API入门系列之wordcount版本1（五）

Hadoop MapReduce编程 API入门系列之wordcount版本1（五）的更多相关文章

随机推荐

热门专题