在单机模式下Hadoop不会使用HDFS,也不会开启任何Hadoop守护进程,所有程序将在一个JVM上运行并且最多只允许拥有一个reducer

在Eclipse中新创建一个hadoop-test的Java工程(特别要注意的是Hadoop需要1.6或1.6以上版本的JDK)

在Hadoop的官网http://www.apache.org/dyn/closer.cgi/hadoop/common/上选择合适的地址下载hadoop-1.2.1.tar.gz

解压hadoop-1.2.1.tar.gz得到hadoop-1.2.1目录

将hadoop-1.2.1目录下和hadoop-1.2.1\lib目录下的jar包导入到hadoop-test工程中

接下来编写MapReduce程序(该程序用来统计每月收支结余)

Map:

import java.io.IOException;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.MapReduceBase;
import org.apache.hadoop.mapred.Mapper;
import org.apache.hadoop.mapred.OutputCollector;
import org.apache.hadoop.mapred.Reporter; public class MapBus extends MapReduceBase
implements Mapper<LongWritable, Text, Text, LongWritable> {
@Override
public void map(LongWritable key, Text date,
OutputCollector<Text, LongWritable> output,
Reporter reporter) throws IOException {
//2013-01-11,-200
String line = date.toString();
if(line.contains(",")){
String[] tmp = line.split(",");
String month = tmp[0].substring(5, 7);
int money = Integer.valueOf(tmp[1]).intValue();
output.collect(new Text(month), new LongWritable(money));
}
}
}

Reduce:

import java.io.IOException;
import java.util.Iterator;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.MapReduceBase;
import org.apache.hadoop.mapred.OutputCollector;
import org.apache.hadoop.mapred.Reducer;
import org.apache.hadoop.mapred.Reporter; public class ReduceBus extends MapReduceBase
implements Reducer<Text, LongWritable, Text, LongWritable> {
@Override
public void reduce(Text month, Iterator<LongWritable> money,
OutputCollector<Text, LongWritable> output, Reporter reporter)
throws IOException {
int total_money = 0;
while(money.hasNext()){
total_money += money.next().get();
}
output.collect(month, new LongWritable(total_money));
}
}

Main:

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.FileInputFormat;
import org.apache.hadoop.mapred.FileOutputFormat;
import org.apache.hadoop.mapred.JobClient;
import org.apache.hadoop.mapred.JobConf; public class Wallet {
public static void main(String[] args){
if(args.length != 2){
System.err.println("param error!");
System.exit(-1);
} JobConf jobConf = new JobConf(Wallet.class);
jobConf.setJobName("My Wallet"); FileInputFormat.addInputPath(jobConf, new Path(args[0]));
FileOutputFormat.setOutputPath(jobConf, new Path(args[1]));
jobConf.setMapperClass(MapBus.class);
jobConf.setReducerClass(ReduceBus.class);
jobConf.setOutputKeyClass(Text.class);
jobConf.setOutputValueClass(LongWritable.class); try{
JobClient.runJob(jobConf);
}catch(Exception e){
e.printStackTrace();
}
}
}

还需准备待分析的文件,在E:\cygwin_root\home\input路径下创建2个文件,一个文件名为:2013-01.txt,另一个文件名为:2013-02.txt

2013-01.txt:

2013-01-01,100
2013-01-02,-100
2013-01-07,100
2013-01-10,-100
2013-01-11,100
2013-01-21,-100
2013-01-22,100
2013-01-25,-100
2013-01-27,100
2013-01-18,-100
2013-01-09,500

2013-02.txt:

2013-02-01,100

设置好运行参数后,就可以通过Run As -> Java Application运行MapReduce程序了

java.io.IOException: Failed to set permissions of path:
\tmp\hadoop-linkage\mapred\staging\linkage1150562408\.staging to 0700

报这个错误的主要原因是后期的hadoop版本增加了对文件路径的校验,我的修改方式比较简单,将hadoop-core-1.2.1.jar替换为hadoop-0.20.2-core.jar即可正常运行

下面是MapReduce程序运行时打印的日志

14/02/11 10:54:16 INFO jvm.JvmMetrics: Initializing JVM Metrics with processName=JobTracker, sessionId=
14/02/11 10:54:16 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same.
14/02/11 10:54:16 WARN mapred.JobClient: No job jar file set. User classes may not be found. See JobConf(Class) or JobConf#setJar(String).
14/02/11 10:54:16 INFO mapred.FileInputFormat: Total input paths to process : 2
14/02/11 10:54:17 INFO mapred.JobClient: Running job: job_local_0001
14/02/11 10:54:17 INFO mapred.FileInputFormat: Total input paths to process : 2
14/02/11 10:54:17 INFO mapred.MapTask: numReduceTasks: 1
14/02/11 10:54:17 INFO mapred.MapTask: io.sort.mb = 100
14/02/11 10:54:17 INFO mapred.MapTask: data buffer = 79691776/99614720
14/02/11 10:54:17 INFO mapred.MapTask: record buffer = 262144/327680
14/02/11 10:54:17 INFO mapred.MapTask: Starting flush of map output
14/02/11 10:54:18 INFO mapred.MapTask: Finished spill 0
14/02/11 10:54:18 INFO mapred.TaskRunner: Task:attempt_local_0001_m_000000_0 is done. And is in the process of commiting
14/02/11 10:54:18 INFO mapred.LocalJobRunner: file:/E:/cygwin_root/home/input/2013-01.txt:0+179
14/02/11 10:54:18 INFO mapred.TaskRunner: Task 'attempt_local_0001_m_000000_0' done.
14/02/11 10:54:18 INFO mapred.MapTask: numReduceTasks: 1
14/02/11 10:54:18 INFO mapred.MapTask: io.sort.mb = 100
14/02/11 10:54:18 INFO mapred.MapTask: data buffer = 79691776/99614720
14/02/11 10:54:18 INFO mapred.MapTask: record buffer = 262144/327680
14/02/11 10:54:18 INFO mapred.MapTask: Starting flush of map output
14/02/11 10:54:18 INFO mapred.MapTask: Finished spill 0
14/02/11 10:54:18 INFO mapred.TaskRunner: Task:attempt_local_0001_m_000001_0 is done. And is in the process of commiting
14/02/11 10:54:18 INFO mapred.LocalJobRunner: file:/E:/cygwin_root/home/input/2013-02.txt:0+16
14/02/11 10:54:18 INFO mapred.TaskRunner: Task 'attempt_local_0001_m_000001_0' done.
14/02/11 10:54:18 INFO mapred.LocalJobRunner:
14/02/11 10:54:18 INFO mapred.Merger: Merging 2 sorted segments
14/02/11 10:54:18 INFO mapred.Merger: Down to the last merge-pass, with 2 segments left of total size: 160 bytes
14/02/11 10:54:18 INFO mapred.LocalJobRunner:
14/02/11 10:54:18 INFO mapred.TaskRunner: Task:attempt_local_0001_r_000000_0 is done. And is in the process of commiting
14/02/11 10:54:18 INFO mapred.LocalJobRunner:
14/02/11 10:54:18 INFO mapred.TaskRunner: Task attempt_local_0001_r_000000_0 is allowed to commit now
14/02/11 10:54:18 INFO mapred.FileOutputCommitter: Saved output of task 'attempt_local_0001_r_000000_0' to file:/E:/cygwin_root/home/output
14/02/11 10:54:18 INFO mapred.LocalJobRunner: reduce > reduce
14/02/11 10:54:18 INFO mapred.TaskRunner: Task 'attempt_local_0001_r_000000_0' done.
14/02/11 10:54:18 INFO mapred.JobClient: map 100% reduce 100%
14/02/11 10:54:18 INFO mapred.JobClient: Job complete: job_local_0001
14/02/11 10:54:18 INFO mapred.JobClient: Counters: 13
14/02/11 10:54:18 INFO mapred.JobClient: FileSystemCounters
14/02/11 10:54:18 INFO mapred.JobClient: FILE_BYTES_READ=39797
14/02/11 10:54:18 INFO mapred.JobClient: FILE_BYTES_WRITTEN=80473
14/02/11 10:54:18 INFO mapred.JobClient: Map-Reduce Framework
14/02/11 10:54:18 INFO mapred.JobClient: Reduce input groups=2
14/02/11 10:54:18 INFO mapred.JobClient: Combine output records=0
14/02/11 10:54:18 INFO mapred.JobClient: Map input records=12
14/02/11 10:54:18 INFO mapred.JobClient: Reduce shuffle bytes=0
14/02/11 10:54:18 INFO mapred.JobClient: Reduce output records=2
14/02/11 10:54:18 INFO mapred.JobClient: Spilled Records=24
14/02/11 10:54:18 INFO mapred.JobClient: Map output bytes=132
14/02/11 10:54:18 INFO mapred.JobClient: Map input bytes=195
14/02/11 10:54:18 INFO mapred.JobClient: Combine input records=0
14/02/11 10:54:18 INFO mapred.JobClient: Map output records=12
14/02/11 10:54:18 INFO mapred.JobClient: Reduce input records=12

运行完成后将在E:\cygwin_root\home\output路径下生成2个文件:.part-00000.crc和part-00000。.part-00000.crc为一二进制文件,是一个保存了part-00000文件校验和的内部文件;part-00000文件中保存了最终的统计结果

01	500
02 100

特别要注意的是每次运行前都需要先将输出路径删掉,否则会报

org.apache.hadoop.mapred.FileAlreadyExistsException:
Output directory file:/E:/cygwin_root/home/output already exists

Hadoop做这个校验的目的是为了避免上一次MapReduce程序没有完成时,再次执行MapReduce程序产生的中间文件会覆盖掉上一次的中间文件

Eclipse下使用Hadoop单机模式调试MapReduce程序的更多相关文章

  1. eclipse远程连接hadoop单机模式出现的问题

    按照http://tydldd.iteye.com/blog/2007938配置单机模式 主要是 (1)配置hadoop-env.sh,指定jdk的安装路径 添加jdk路径 # The java im ...

  2. Hadoop单机模式安装

    一.实验环境说明 1. 环境登录 无需密码自动登录,系统用户名shiyanlou,密码shiyanlou 2. 环境介绍 本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到桌面上的程序: ...

  3. 3-1.Hadoop单机模式安装

    Hadoop单机模式安装 一.实验介绍 1.1 实验内容 hadoop三种安装模式介绍 hadoop单机模式安装 测试安装 1.2 实验知识点 下载解压/环境变量配置 Linux/shell 测试Wo ...

  4. centos7 hadoop 单机模式安装配置

    前言 由于现在要用spark,而学习spark会和hdfs和hive打交道,之前在公司服务器配的分布式集群,离开公司之后,自己就不能用了,后来用ambari搭的三台虚拟机的集群太卡了,所以就上网查了一 ...

  5. Hadoop单机模式的配置与安装

    Hadoop单机模式的配置与安装 单机hadoop集群正常启动后进程情况 ResourceManager NodeManager SecondaryNameNode NameNode DataNode ...

  6. windows下eclipse远程连接hadoop集群开发mapreduce

    转载请注明出处,谢谢 2017-10-22 17:14:09  之前都是用python开发maprduce程序的,今天试了在windows下通过eclipse java开发,在开发前先搭建开发环境.在 ...

  7. Hadoop单机模式/伪分布式模式/完全分布式模式

    一.Hadoop的三种运行模式(启动模式) 一.单机(非分布式)模式 这种模式在一台单机上运行,没有分布式文件系统,而是直接读写本地操作系统的文件系统. 默认情况下,Hadoop即处于该模式,用于开发 ...

  8. Hadoop单机模式安装-(3)安装和配置Hadoop

    网络上关于如何单机模式安装Hadoop的文章很多,按照其步骤走下来多数都失败,按照其操作弯路走过了不少但终究还是把问题都解决了,所以顺便自己详细记录下完整的安装过程. 此篇主要介绍在Ubuntu安装完 ...

  9. Eclipse/MyEclipse下如何Maven管理多个Mapreduce程序?(企业级水平)

    不多说,直接上干货! 如何在Maven官网下载历史版本 Eclipse下Maven新建项目.自动打依赖jar包(包含普通项目和Web项目) Eclipse下Maven新建Web项目index.jsp报 ...

随机推荐

  1. C# 获取ttf文件字体名称

    1.第一种方法 using System.Windows.Media; String fontFilePath = "PATH TO YOUR FONT"; GlyphTypefa ...

  2. @DataProvider ITestContext 参数

    package roger.testng; import java.util.Random; import org.testng.ITestContext; import org.testng.ann ...

  3. bootstrap -- 一个标签中,同时有 col-xs , col-sm , col-md , col-lg

    .col-xs- 超小屏幕 手机 (<768px) .col-sm- 小屏幕 平板 (≥768px) .col-md- 中等屏幕 桌面显示器 (≥992px) .col-lg- 大屏幕 大桌面显 ...

  4. Windows平台网站图片服务器架构的演进[转]

    构建在Windows平台之上的网站,往往会被业内众多架构师认为很“保守”.很大部分原因,是由于微软技术体系的封闭和部分技术人员的短视造成 的.由于长期缺乏开源支持,所以只能“闭门造车”,这样很容易形成 ...

  5. Android完全退出应用程序,完美解决方案

    最近公司工作不是很忙,就抽空研究了下Android的引导页,但是在写完引导页并且进入到住页面之后,在退出时,采用"再按一次退出"的方式去实现的,用的方式是杀掉进程跟exit,即:a ...

  6. bzoj 1880 [Sdoi2009]Elaxia的路线(最短路+拓扑序)

    Description 最近,Elaxia和w**的关系特别好,他们很想整天在一起,但是大学的学习太紧张了,他们 必须合理地安排两个人在一起的时间.Elaxia和w**每天都要奔波于宿舍和实验室之间, ...

  7. tmux快捷键`

    Ctrl+b 激活控制台:此时以下按键生效 系统操作 ? 列出所有快捷键:按q返回 d 脱离当前会话:这样可以暂时返回Shell界面,输入tmux attach能够重新进入之前的会话 D 选择要脱离的 ...

  8. Import the Add Email and Post Configuration to the SiteMap managed solution -Dynamices CRM

    We have prepared a managed solution named Add Email and Post Configuration to SiteMap that you can i ...

  9. yuv 图像里的stride和plane的解释

    stride可以翻译为:跨距 stride指在内存中每行像素所占的空间.如下图所示,为了实现内存对齐(或者其它的什么原因),每行像素在内存中所占的空间并不是图像的宽度. plane一般是以luma p ...

  10. poj3177--Redundant Paths(边的双连通)

    有n个牧场,Bessie 要从一个牧场到另一个牧场,要求至少要有2条独立的路可以走.现已有m条路,求至少要新建多少条路,使得任何两个牧场之间至少有两条独立的路.两条独立的路是指:没有公共边的路,但可以 ...