Hadoop MapReduce编程 API入门系列之wordcount版本3（七）

　　这篇博客，给大家，体会不一样的版本编程。

代码

 package zhouls.bigdata.myMapReduce.wordcount3;

 import java.io.IOException;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.LongWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Mapper;

 import org.apache.hadoop.util.StringUtils;

 public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{

 //该方法循环调用，从文件的split中读取每行调用一次，把该行所在的下标为key，该行的内容为value

 protected void map(LongWritable key, Text value,

 Context context)

 throws IOException, InterruptedException {

 String[] words = StringUtils.split(value.toString(), ' ');

 for(String w :words){

 context.write(new Text(w), new IntWritable(1));

 }

 }

 }

 package zhouls.bigdata.myMapReduce.wordcount3;

 import java.io.IOException;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Reducer;

 public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable>{

 //每组调用一次，这一组数据特点：key相同，value可能有多个。

 protected void reduce(Text arg0, Iterable<IntWritable> arg1,

 Context arg2)

 throws IOException, InterruptedException {

 int sum =0;

 for(IntWritable i: arg1){

 sum=sum+i.get();

 }

 arg2.write(arg0, new IntWritable(sum));

 }

 }

 package zhouls.bigdata.myMapReduce.wordcount3;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.FileSystem;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Job;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 public class RunJob {

 public static void main(String[] args) {

 Configuration config =new Configuration();

 try {

 FileSystem fs =FileSystem.get(config);

 Job job =Job.getInstance(config);

 job.setJarByClass(RunJob.class);

 job.setJobName("wc");

 job.setMapperClass(WordCountMapper.class);

 job.setReducerClass(WordCountReducer.class);

 job.setMapOutputKeyClass(Text.class);

 job.setMapOutputValueClass(IntWritable.class);

 FileInputFormat.addInputPath(job, new Path("./data/wc.txt"));

 Path outpath =new Path("./out/WordCountout");

 if(fs.exists(outpath)){

 fs.delete(outpath, true);

 }

 FileOutputFormat.setOutputPath(job, outpath);

 boolean f= job.waitForCompletion(true);

 if(f){

 System.out.println("job任务执行成功");

 }

 } catch (Exception e) {

 e.printStackTrace();

 }

 }

 }

Hadoop MapReduce编程 API入门系列之wordcount版本3（七）的更多相关文章

Hadoop MapReduce编程 API入门系列之wordcount版本1（五）
这个很简单哈,编程的版本很多种. 代码版本1 package zhouls.bigdata.myMapReduce.wordcount5; import java.io.IOException; im ...
Hadoop MapReduce编程 API入门系列之wordcount版本4（八）
这篇博客,给大家,体会不一样的版本编程. 是将map.combiner.shuffle.reduce等分开放一个.java里.则需要实现Tool. 代码 package zhouls.bigdata. ...
Hadoop MapReduce编程 API入门系列之wordcount版本5（九）
这篇博客,给大家,体会不一样的版本编程. 代码 package zhouls.bigdata.myMapReduce.wordcount1; import java.io.IOException; i ...
Hadoop MapReduce编程 API入门系列之wordcount版本2（六）
这篇博客,给大家,体会不一样的版本编程. 代码 package zhouls.bigdata.myMapReduce.wordcount4; import java.io.IOException; i ...
Hadoop MapReduce编程 API入门系列之压缩和计数器（三十）
不多说,直接上代码. Hadoop MapReduce编程 API入门系列之小文件合并(二十九) 生成的结果,作为输入源. 代码 package zhouls.bigdata.myMapReduce. ...
Hadoop MapReduce编程 API入门系列之挖掘气象数据版本3（九）
不多说,直接上干货! 下面,是版本1. Hadoop MapReduce编程 API入门系列之挖掘气象数据版本1(一) 下面是版本2. Hadoop MapReduce编程 API入门系列之挖掘气象数 ...
Hadoop MapReduce编程 API入门系列之挖掘气象数据版本2（十）
下面,是版本1. Hadoop MapReduce编程 API入门系列之挖掘气象数据版本1(一) 这篇博文,包括了,实际生产开发非常重要的,单元测试和调试代码.这里不多赘述,直接送上代码. MRUni ...
Hadoop MapReduce编程 API入门系列之join（二十六）（未完）
不多说,直接上代码. 天气记录数据库 Station ID Timestamp Temperature 气象站数据库 Station ID Station Name 气象站和天气记录合并之后的示意图如 ...
Hadoop MapReduce编程 API入门系列之MapReduce多种输入格式（十七）
不多说,直接上代码. 代码 package zhouls.bigdata.myMapReduce.ScoreCount; import java.io.DataInput; import java.i ...

随机推荐

需要知道的TCP/IP三次握手
TCP/IP三次握手是TCP协议中比较重要的一个知识点,但是在很多博客中看到的三次握手的过程图很多都不是很正确.我在google找到了一篇写的非常不错的介绍TCP/IP技术文章期中就有三次握手的讲解, ...
spring 回顾
主要就是它的IOC理念即:把对象的创建.初始化.销毁等工作交给spring容器来做依赖jar
【转载】java文件路径问题及getResource和getClassLoader().getResource的区别
版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/u012572955/article/details/52880520我们经常在java的io操作中读 ...
【转载】JSP详解(四大作用域九大内置对象等)
前面讲解了Servlet,了解了Servlet的继承结构,生命周期等,并且在其中的ServletConfig和ServletContext对象有了一些比较详细的了解,但是我们会发现在Servlet中编 ...
15.5.3 【Task实现细节】状态机的结构
状态机的整体结构非常简单.它总是使用显式接口实现,以实现.NET 4.5引入的 IAsync StateMachine 接口,并且只包含该接口声明的两个方法,即 MoveNext 和 SetState ...
实验吧writeup
后台登录 1.看源码有这样一段php代码<!-- $password=$_POST['password']; $sql = "SELECT * FROM admin WHERE use ...
将现有硬盘（分区）无损创建为RAID1
背景如果现在有一块硬盘(分区)正在使用,如果要设置成RAID1,并不需要将数据拷出,然后创建RAID1. 可以先将此硬盘设置成降级RAID1,然后添加新硬盘再激活RAID1即可,整个过程数据无损. ...
爬虫系列(十三) 用selenium爬取京东商品
这篇文章,我们将通过 selenium 模拟用户使用浏览器的行为,爬取京东商品信息,还是先放上最终的效果图: 1.网页分析 (1)初步分析原本博主打算写一个能够爬取所有商品信息的爬虫,可是在分析过程 ...
继续聊WPF——为ListView的行设置样式
<Window x:Class="Wpf_GridHeaderStyle_sample.Window1" xmlns="http://schemas.microso ...
CodeForces - 340 C - Tourist Problem
先上题目: A - Tourist Problem Time Limit:1000MS Memory Limit:262144KB 64bit IO Format:%I64d & ...

Hadoop MapReduce编程 API入门系列之wordcount版本3（七）

Hadoop MapReduce编程 API入门系列之wordcount版本3（七）的更多相关文章

随机推荐

热门专题