使用老版本的java api提交hadoop作业

还是使用之前的单词计数的例子

自定义Mapper类

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapred.MapReduceBase;

import org.apache.hadoop.mapred.Mapper;

import org.apache.hadoop.mapred.OutputCollector;

import org.apache.hadoop.mapred.Reporter;

//自定义的Mapper类必须继承MapReduceBase 并且实现Mapper接口

public class JMapper extends MapReduceBase implements

		Mapper<LongWritable, Text, Text, LongWritable> {

	@Override

	public void map(LongWritable key, Text value,

			OutputCollector<Text, LongWritable> collector, Reporter reporter)

			throws IOException {

		String[] ss = value.toString().split("\t");

		for (String s : ss) {

			//使用collector.collect而不是context.write

			collector.collect(new Text(s), new LongWritable(1));

		}

	}

}

自定义Reducer类

import java.io.IOException;

import java.util.Iterator;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapred.MapReduceBase;

import org.apache.hadoop.mapred.OutputCollector;

import org.apache.hadoop.mapred.Reducer;

import org.apache.hadoop.mapred.Reporter;

//自定义的Reducer类必须继承MapReduceBase 并且实现Reducer接口

public class JReducer extends MapReduceBase implements

		Reducer<Text, LongWritable, Text, LongWritable> {

	@Override

	public void reduce(Text key, Iterator<LongWritable> value,

			OutputCollector<Text, LongWritable> collector, Reporter reporter)

			throws IOException {

		long sum = 0;

		//由于value不在可以用foreach循环，所以用while代替

		while (value.hasNext()) {

			sum += value.next().get();

		}

		collector.collect(key, new LongWritable(sum));

	}

}

运行提交代码的类JSubmit

import java.io.IOException;

import java.net.URI;

import java.net.URISyntaxException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapred.FileInputFormat;

import org.apache.hadoop.mapred.FileOutputFormat;

import org.apache.hadoop.mapred.JobClient;

import org.apache.hadoop.mapred.JobConf;

import org.apache.hadoop.mapred.TextInputFormat;

import org.apache.hadoop.mapred.TextOutputFormat;

public class JSubmit {

	public static void main(String[] args) throws IOException,

			URISyntaxException, InterruptedException, ClassNotFoundException {

		Path outPath = new Path("hdfs://localhost:9000/out");

		Path inPath = new Path("/home/hadoop/word");

		Configuration conf = new Configuration();

		FileSystem fs = FileSystem.get(new URI("hdfs://localhost:9000"), conf);

		if (fs.exists(outPath)) {

			fs.delete(outPath, true);

		}

		// 使用JobConf 而不是Job

		JobConf job = new JobConf(conf, JSubmit.class);

		FileInputFormat.setInputPaths(job, inPath);

		job.setInputFormat(TextInputFormat.class);

		job.setMapperClass(JMapper.class);

		job.setMapOutputKeyClass(Text.class);

		job.setMapOutputValueClass(LongWritable.class);

		job.setReducerClass(JReducer.class);

		job.setOutputKeyClass(Text.class);

		job.setOutputValueClass(LongWritable.class);

		FileOutputFormat.setOutputPath(job, outPath);

		job.setOutputFormat(TextOutputFormat.class);

		// 使用JobClient.runJob而不是job.waitForCompletion

		JobClient.runJob(job);

	}

}

可以看到

其实老版本的api差别不大，只是用了少数几个类替换了而已

注意老版本api的类虽然和新版本api的类名字很多都是一模一样的

但是所在的包不同，老版本所在的包都是mapred的，而新版本的都在mapreduce

使用老版本的java api提交hadoop作业的更多相关文章

Java API实现Hadoop文件系统增删改查
Java API实现Hadoop文件系统增删改查 Hadoop文件系统可以通过shell命令hadoop fs -xx进行操作,同时也提供了Java编程接口 maven配置 <project x ...
通过java api提交自定义hadoop 作业
通过API操作之前要先了解几个基本知识一.hadoop的基本数据类型和java的基本数据类型是不一样的,但是都存在对应的关系如下图如果需要定义自己的数据类型,则必须实现Writable hado ...
使用HDFS客户端java api读取hadoop集群上的信息
本文介绍使用hdfs java api的配置方法. 1.先解决依赖,pom <dependency> <groupId>org.apache.hadoop</groupI ...
补装老版本的Java SE
到oracle注册账号下载bin文件在bin文件下载目录打开终端复制下面到命令 # chmod +x jdk-6u21-linux-i586.bin 注意版本不同,比如我这次下载到是6u45 chm ...
Java --本地提交MapReduce作业至集群☞实现 Word Count
还是那句话,看别人写的的总是觉得心累,代码一贴,一打包,扔到Hadoop上跑一遍就完事了????写个测试样例程序(MapReduce中的Hello World)还要这么麻烦!!!?,还本地打Jar包, ...
oozie java api提交作业
今晚试验用java的api来提交代码,由于代码是在我机器上写的,然后提交到我的虚拟机集群当中去,所以中间产生了一个错误..要想在任意一台机器上向oozie提交作业的话,需要对hadoop的core-s ...
Java API操作Hadoop可能会遇到的问题以及解决办法
https://www.zifangsky.cn/1292.html Could not locate Hadoop executable: xxx\bin\winutils.exe 1 2 3 ...
使用JAVA API获取hadoop集群的FileSystem
所需要配置的参数: Configuration conf = new Configuration(); conf.set("fs.defaultFS", "hdfs ...
Java API操作HA方式下的Hadoop
通过java api连接Hadoop集群时,如果集群支持HA方式,那么可以通过如下方式设置来自动切换到活动的master节点上.其中,ClusterName 是可以任意指定的,跟集群配置无关,dfs. ...

随机推荐

2013年 ACMICPC 杭州赛区H题
思路:树状数组统计.待验证,不知道是否对. #include<cstdio> #include<cstring> #include<cmath> #include& ...
【CZY选讲·Yjq的棺材】
题目描述 Yjq想要将一个长为宽为的矩形棺材(棺材表面绝对光滑,所以棺材可以任意的滑动)拖过一个L型墓道. 如图所示,L型墓道两个走廊的宽度分别是和,呈90°,并且走廊的长度远大于. 现在Hja ...
JavaScript如何读写cookie
今天把javascript如何用来创建及存储cookie复习了一下,其中的一点体会拿出来和大家讨论,首先看一下基础知识: 什么是cookie cookie 是存储于访问者的计算机中的变量.每当同一台计 ...
COM RTS/CTS, DTR/DSR
COM: 串行通讯端口cluster communication port它是串行接口,现在的PC 机一般有两个串行口COM 1 和COM 2 .串行口不同于并行口之处在于它的数据和控制信息是一位接一 ...
php格式化时间
1.Y 年份的四位数 2.m 月份的数字(01-12) 3.d 一个月中的第几天(01-31) 4.w 星期几的数字表示(0-6) 5.H 24小时制(00-23) 6.i 分(00-59) 7.s ...
error LNK2001: 无法解析的外部符号 "public: virtual long __stdcall CBaseFilter（转）
原文转自 https://www.cnblogs.com/xiongjiaji/archive/2010/12/31/2476565.html 今天用VS2005编译DirectShow程序,发现出来 ...
Java工厂模式浅析理解
由于本人缺乏工作经验,本篇文章作为随笔,只是对工厂模式有一个简单的认识工厂模式分为以下三种: 1:简单工厂(Simple Factory).2:工厂方法(Factory Method).3:抽象工厂 ...
JAVA SERVLET 属性范围样例
package com.jeelearning.servlet; import java.io.IOException; import javax.servlet.RequestDispatcher; ...
AC日记——Little Elephant and Function codeforces 221a
A - Little Elephant and Function 思路: 水题: 代码: #include <cstdio> #include <iostream> using ...
牛客小白月赛3 F 异或【区间交集】
链接:https://www.nowcoder.com/acm/contest/87/F 来源:牛客网题目描述 Cwbc想测试一下他的加密协议,以便防止其他人偷看他给XHRlyb的信. Cwbc提出 ...

使用老版本的java api提交hadoop作业

使用老版本的java api提交hadoop作业的更多相关文章

随机推荐

热门专题