Eclipse下使用Hadoop单机模式调试MapReduce程序

在单机模式下Hadoop不会使用HDFS，也不会开启任何Hadoop守护进程，所有程序将在一个JVM上运行并且最多只允许拥有一个reducer

在Eclipse中新创建一个hadoop-test的Java工程（特别要注意的是Hadoop需要1.6或1.6以上版本的JDK）

在Hadoop的官网http://www.apache.org/dyn/closer.cgi/hadoop/common/上选择合适的地址下载hadoop-1.2.1.tar.gz

解压hadoop-1.2.1.tar.gz得到hadoop-1.2.1目录

将hadoop-1.2.1目录下和hadoop-1.2.1\lib目录下的jar包导入到hadoop-test工程中

接下来编写MapReduce程序（该程序用来统计每月收支结余）

Map：

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapred.MapReduceBase;

import org.apache.hadoop.mapred.Mapper;

import org.apache.hadoop.mapred.OutputCollector;

import org.apache.hadoop.mapred.Reporter;

public class MapBus extends MapReduceBase

		implements Mapper<LongWritable, Text, Text, LongWritable> {

	@Override

	public void map(LongWritable key, Text date,

			OutputCollector<Text, LongWritable> output,

			Reporter reporter) throws IOException {

		//2013-01-11,-200

		String line = date.toString();

		if(line.contains(",")){

			String[] tmp = line.split(",");

			String month = tmp[0].substring(5, 7);

			int money = Integer.valueOf(tmp[1]).intValue();

			output.collect(new Text(month), new LongWritable(money));

		}

	}

}

Reduce:

import java.io.IOException;

import java.util.Iterator;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapred.MapReduceBase;

import org.apache.hadoop.mapred.OutputCollector;

import org.apache.hadoop.mapred.Reducer;

import org.apache.hadoop.mapred.Reporter;

public class ReduceBus extends MapReduceBase

		implements Reducer<Text, LongWritable, Text, LongWritable> {

	@Override

	public void reduce(Text month, Iterator<LongWritable> money,

			OutputCollector<Text, LongWritable> output, Reporter reporter)

			throws IOException {

		int total_money = 0;

		while(money.hasNext()){

			total_money += money.next().get();

		}

		output.collect(month, new LongWritable(total_money));

	}

}

Main：

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapred.FileInputFormat;

import org.apache.hadoop.mapred.FileOutputFormat;

import org.apache.hadoop.mapred.JobClient;

import org.apache.hadoop.mapred.JobConf;

public class Wallet {

	public static void main(String[] args){

		if(args.length != 2){

			System.err.println("param error!");

			System.exit(-1);

		}

		JobConf jobConf = new JobConf(Wallet.class);

		jobConf.setJobName("My Wallet");

		FileInputFormat.addInputPath(jobConf, new Path(args[0]));

		FileOutputFormat.setOutputPath(jobConf, new Path(args[1]));

		jobConf.setMapperClass(MapBus.class);

		jobConf.setReducerClass(ReduceBus.class);

		jobConf.setOutputKeyClass(Text.class);

		jobConf.setOutputValueClass(LongWritable.class);

		try{

			JobClient.runJob(jobConf);

		}catch(Exception e){

			e.printStackTrace();

		}

	}

}

还需准备待分析的文件，在E:\cygwin_root\home\input路径下创建2个文件，一个文件名为：2013-01.txt，另一个文件名为：2013-02.txt

2013-01.txt：

2013-01-01,100

2013-01-02,-100

2013-01-07,100

2013-01-10,-100

2013-01-11,100

2013-01-21,-100

2013-01-22,100

2013-01-25,-100

2013-01-27,100

2013-01-18,-100

2013-01-09,500

2013-02.txt：

2013-02-01,100

设置好运行参数后，就可以通过Run As -> Java Application运行MapReduce程序了

java.io.IOException: Failed to set permissions of path:

\tmp\hadoop-linkage\mapred\staging\linkage1150562408\.staging to 0700

报这个错误的主要原因是后期的hadoop版本增加了对文件路径的校验，我的修改方式比较简单，将hadoop-core-1.2.1.jar替换为hadoop-0.20.2-core.jar即可正常运行

下面是MapReduce程序运行时打印的日志

14/02/11 10:54:16 INFO jvm.JvmMetrics: Initializing JVM Metrics with processName=JobTracker, sessionId=

14/02/11 10:54:16 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same.

14/02/11 10:54:16 WARN mapred.JobClient: No job jar file set.  User classes may not be found. See JobConf(Class) or JobConf#setJar(String).

14/02/11 10:54:16 INFO mapred.FileInputFormat: Total input paths to process : 2

14/02/11 10:54:17 INFO mapred.JobClient: Running job: job_local_0001

14/02/11 10:54:17 INFO mapred.FileInputFormat: Total input paths to process : 2

14/02/11 10:54:17 INFO mapred.MapTask: numReduceTasks: 1

14/02/11 10:54:17 INFO mapred.MapTask: io.sort.mb = 100

14/02/11 10:54:17 INFO mapred.MapTask: data buffer = 79691776/99614720

14/02/11 10:54:17 INFO mapred.MapTask: record buffer = 262144/327680

14/02/11 10:54:17 INFO mapred.MapTask: Starting flush of map output

14/02/11 10:54:18 INFO mapred.MapTask: Finished spill 0

14/02/11 10:54:18 INFO mapred.TaskRunner: Task:attempt_local_0001_m_000000_0 is done. And is in the process of commiting

14/02/11 10:54:18 INFO mapred.LocalJobRunner: file:/E:/cygwin_root/home/input/2013-01.txt:0+179

14/02/11 10:54:18 INFO mapred.TaskRunner: Task 'attempt_local_0001_m_000000_0' done.

14/02/11 10:54:18 INFO mapred.MapTask: numReduceTasks: 1

14/02/11 10:54:18 INFO mapred.MapTask: io.sort.mb = 100

14/02/11 10:54:18 INFO mapred.MapTask: data buffer = 79691776/99614720

14/02/11 10:54:18 INFO mapred.MapTask: record buffer = 262144/327680

14/02/11 10:54:18 INFO mapred.MapTask: Starting flush of map output

14/02/11 10:54:18 INFO mapred.MapTask: Finished spill 0

14/02/11 10:54:18 INFO mapred.TaskRunner: Task:attempt_local_0001_m_000001_0 is done. And is in the process of commiting

14/02/11 10:54:18 INFO mapred.LocalJobRunner: file:/E:/cygwin_root/home/input/2013-02.txt:0+16

14/02/11 10:54:18 INFO mapred.TaskRunner: Task 'attempt_local_0001_m_000001_0' done.

14/02/11 10:54:18 INFO mapred.LocalJobRunner:

14/02/11 10:54:18 INFO mapred.Merger: Merging 2 sorted segments

14/02/11 10:54:18 INFO mapred.Merger: Down to the last merge-pass, with 2 segments left of total size: 160 bytes

14/02/11 10:54:18 INFO mapred.LocalJobRunner:

14/02/11 10:54:18 INFO mapred.TaskRunner: Task:attempt_local_0001_r_000000_0 is done. And is in the process of commiting

14/02/11 10:54:18 INFO mapred.LocalJobRunner:

14/02/11 10:54:18 INFO mapred.TaskRunner: Task attempt_local_0001_r_000000_0 is allowed to commit now

14/02/11 10:54:18 INFO mapred.FileOutputCommitter: Saved output of task 'attempt_local_0001_r_000000_0' to file:/E:/cygwin_root/home/output

14/02/11 10:54:18 INFO mapred.LocalJobRunner: reduce > reduce

14/02/11 10:54:18 INFO mapred.TaskRunner: Task 'attempt_local_0001_r_000000_0' done.

14/02/11 10:54:18 INFO mapred.JobClient:  map 100% reduce 100%

14/02/11 10:54:18 INFO mapred.JobClient: Job complete: job_local_0001

14/02/11 10:54:18 INFO mapred.JobClient: Counters: 13

14/02/11 10:54:18 INFO mapred.JobClient:   FileSystemCounters

14/02/11 10:54:18 INFO mapred.JobClient:     FILE_BYTES_READ=39797

14/02/11 10:54:18 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=80473

14/02/11 10:54:18 INFO mapred.JobClient:   Map-Reduce Framework

14/02/11 10:54:18 INFO mapred.JobClient:     Reduce input groups=2

14/02/11 10:54:18 INFO mapred.JobClient:     Combine output records=0

14/02/11 10:54:18 INFO mapred.JobClient:     Map input records=12

14/02/11 10:54:18 INFO mapred.JobClient:     Reduce shuffle bytes=0

14/02/11 10:54:18 INFO mapred.JobClient:     Reduce output records=2

14/02/11 10:54:18 INFO mapred.JobClient:     Spilled Records=24

14/02/11 10:54:18 INFO mapred.JobClient:     Map output bytes=132

14/02/11 10:54:18 INFO mapred.JobClient:     Map input bytes=195

14/02/11 10:54:18 INFO mapred.JobClient:     Combine input records=0

14/02/11 10:54:18 INFO mapred.JobClient:     Map output records=12

14/02/11 10:54:18 INFO mapred.JobClient:     Reduce input records=12

运行完成后将在E:\cygwin_root\home\output路径下生成2个文件：.part-00000.crc和part-00000。.part-00000.crc为一二进制文件，是一个保存了part-00000文件校验和的内部文件；part-00000文件中保存了最终的统计结果

01	500

02	100

特别要注意的是每次运行前都需要先将输出路径删掉，否则会报

org.apache.hadoop.mapred.FileAlreadyExistsException:

Output directory file:/E:/cygwin_root/home/output already exists

Hadoop做这个校验的目的是为了避免上一次MapReduce程序没有完成时，再次执行MapReduce程序产生的中间文件会覆盖掉上一次的中间文件

Eclipse下使用Hadoop单机模式调试MapReduce程序的更多相关文章

eclipse远程连接hadoop单机模式出现的问题
按照http://tydldd.iteye.com/blog/2007938配置单机模式主要是 (1)配置hadoop-env.sh,指定jdk的安装路径添加jdk路径 # The java im ...
Hadoop单机模式安装
一.实验环境说明 1. 环境登录无需密码自动登录,系统用户名shiyanlou,密码shiyanlou 2. 环境介绍本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到桌面上的程序: ...
3-1.Hadoop单机模式安装
Hadoop单机模式安装一.实验介绍 1.1 实验内容 hadoop三种安装模式介绍 hadoop单机模式安装测试安装 1.2 实验知识点下载解压/环境变量配置 Linux/shell 测试Wo ...
centos7 hadoop 单机模式安装配置
前言由于现在要用spark,而学习spark会和hdfs和hive打交道,之前在公司服务器配的分布式集群,离开公司之后,自己就不能用了,后来用ambari搭的三台虚拟机的集群太卡了,所以就上网查了一 ...
Hadoop单机模式的配置与安装
Hadoop单机模式的配置与安装单机hadoop集群正常启动后进程情况 ResourceManager NodeManager SecondaryNameNode NameNode DataNode ...
windows下eclipse远程连接hadoop集群开发mapreduce
转载请注明出处,谢谢 2017-10-22 17:14:09 之前都是用python开发maprduce程序的,今天试了在windows下通过eclipse java开发,在开发前先搭建开发环境.在 ...
Hadoop单机模式/伪分布式模式/完全分布式模式
一.Hadoop的三种运行模式(启动模式) 一.单机(非分布式)模式这种模式在一台单机上运行,没有分布式文件系统,而是直接读写本地操作系统的文件系统. 默认情况下,Hadoop即处于该模式,用于开发 ...
Hadoop单机模式安装-(3)安装和配置Hadoop
网络上关于如何单机模式安装Hadoop的文章很多,按照其步骤走下来多数都失败,按照其操作弯路走过了不少但终究还是把问题都解决了,所以顺便自己详细记录下完整的安装过程. 此篇主要介绍在Ubuntu安装完 ...
Eclipse/MyEclipse下如何Maven管理多个Mapreduce程序？（企业级水平）
不多说,直接上干货! 如何在Maven官网下载历史版本 Eclipse下Maven新建项目.自动打依赖jar包(包含普通项目和Web项目) Eclipse下Maven新建Web项目index.jsp报 ...

随机推荐

bzoj1056
花了一上午大概复习了一下splay,treap 像这种裸的数据结构题在js应该会越来越少不过练练手也好, 这就是平衡树+hash,如果这是单纯的BST应用,还是写treap吧,好调试 ; ...
BZOJ_1005_ [HNOI2008]_明明的烦恼_(组合数学+purfer_sequence+高精度+分解因数+快速幂)
描述 http://www.lydsy.com/JudgeOnline/problem.php?id=1005 一棵树有n个点,给出没给节点的度,如果没有限制则为-1,求共有多少种可能的树. 分析蒟 ...
嵌入式 hi3518c裸板uboot烧写、kernel烧写、fs烧写小结
1.在uboot中我可以添加自己的命令,添加的方法是找到一个uboot的命令,然后模仿着去增加属于自己的命令代码以及实现函数就可以 2.记住在使用printf进行调试的时候,在遇到指针或者字符串的时候 ...
[Irving]Sql Server 日期、时间、比较
在sql 的数据库表里时间字段是比较全的格式:例如GetdataTime字段:2007-06-05 12:34:50. 但在前台程序里,利用日历控件,可能查询的时候是以某天来做比较,例如开始时间:20 ...
Content-Type伪装 - 将jsp伪装成css
一.前期理论准备 1)目的: 在jsp中动态生成css语句,然后输出给浏览器解析.渲染. 2)浏览器解析文件的依据: 页面加载后,浏览器会发起各个请求去下载各种资源. 比如下载css文件,然后根 ...
SDWebImage源码解读之SDWebImageDownloader
SDWebImage源码解读之SDWebImageDownloader 第八篇前言 SDWebImageDownloader这个类非常简单,作者的设计思路也很清晰,但是我想在这说点题外话. 如果有人 ...
Windows Azure 基本操作手册
http://www.cnblogs.com/sennly/p/4139663.html 基本测试信息登陆地址:https://manage.windowsazure.cn(Azure管理门户,适用 ...
Linker Special Section Types
转载自http://processors.wiki.ti.com/index.php/Linker_Special_Section_Types#NOLOAD_Sections_2 Introducti ...
Hadoop学习记录（5）|集群搭建|节点动态添加删除
集群概念计算机集群是一种计算机系统,通过一组松散继承的计算机软件或硬件连接连接起来高度紧密地协作完成计算工作. 集群系统中的单个计算机通常称为节点,通过局域网连接. 集群特点: 1.效率高,通过多态 ...
STM32F103 与 STM32F407引脚兼容问题
===========突袭网收集的解决方案如下=========== 解决方案1: STM32F103有的功能407都有,并且这些功能的引脚完全兼容,只是程序不同而已...而STM32F407有的功能 ...

Eclipse下使用Hadoop单机模式调试MapReduce程序

Eclipse下使用Hadoop单机模式调试MapReduce程序的更多相关文章

随机推荐

热门专题