Hadoop 1.2.1 MapReduce 例子

自学hadoop真的很困难，主要是hadoop版本太混乱了，各个版本之间兼容性并不算太好。更主要的是网上的很多MapReduce的Java例子不写import！！！只写类名！！！偏偏Hadoop中有很多重名的类，不写Import根本不知道是哪个类！！！而且也不写上hadoop的版本号！！！让人根本看不明白！！！

所以这里我写下所有要注意的情况，特别要注意import的是哪一个类！！！

环境： hadoop1.2.1+jdk1.7+eclipse4.5+maven

maven的pom文件是：（如果不知道maven，那得稍微看看maven是什么）

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

  <modelVersion>4.0.0</modelVersion>

  <groupId>com.howso</groupId>

  <artifactId>hadoopmaven</artifactId>

  <version>0.0.1-SNAPSHOT</version>

  <name>hadoopmaven</name>

  <properties>

      <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>

      <hadoop.version>1.2.1</hadoop.version>

  </properties>

  <dependencies>

      <dependency>

          <groupId>org.apache.hadoop</groupId>

          <artifactId>hadoop-client</artifactId>

          <version>${hadoop.version}</version>

      </dependency>

      <dependency>

          <groupId>org.apache.hadoop</groupId>

          <artifactId>hadoop-core</artifactId>

          <version>${hadoop.version}</version>

      </dependency>

      <dependency>

          <groupId>org.hamcrest</groupId>

          <artifactId>hamcrest-all</artifactId>

          <version>1.1</version>

          <scope>test</scope>

      </dependency>

      <dependency>

          <groupId>junit</groupId>

          <artifactId>junit</artifactId>

          <version>4.11</version>

          <scope>test</scope>

      </dependency>

      <dependency>

          <groupId>org.apache.mrunit</groupId>

          <artifactId>mrunit</artifactId>

          <version>1.1.0</version>

          <classifier>hadoop2</classifier>

          <scope>test</scope>

      </dependency>

      <dependency>

          <groupId>org.apache.hadoop</groupId>

          <artifactId>hadoop-minicluster</artifactId>

          <version>${hadoop.version}</version>

          <scope>test</scope>

      </dependency>

      <dependency>

          <groupId>org.apache.hadoop</groupId>

          <artifactId>hadoop-test</artifactId>

          <version>${hadoop.version}</version>

      </dependency>

      <dependency>

          <groupId>com.sun.jersey</groupId>

          <artifactId>jersey-core</artifactId>

          <version>1.8</version>

          <scope>test</scope>

      </dependency>

  </dependencies>

  <build>

      <finalName>hadoopx</finalName>

      <plugins>

          <plugin>

              <groupId>org.apache.maven.plugins</groupId>

              <artifactId>maven-compilter-plugin</artifactId>

              <version>3.1</version>

              <configuration>

                  <source>1.6</source>

                  <target>1.6</target>

              </configuration>

          </plugin>

          <plugin>

              <groupId>org.apache.maven.plugins</groupId>

              <artifactId>maven-jar-plugin</artifactId>

              <version>2.5</version>

              <configuration>

                  <outputDirectory>basedir</outputDirectory>

                  <archive>

                      <manifest>

                          <mainClass>hadoopmaven.Driver</mainClass>

                      </manifest>

                  </archive>

              </configuration>

          </plugin>

      </plugins>

  </build>

</project>

pom.xml

这里面有一些组件是用来写hadoop的test的：mrunit，hadoop-test。

总共有3个类：Driver， MaxMapper, MaxReducer。这三个类合力来获得每年最大的温度。这三个类都在hadoopmaven包下面。

一定要注意import的是哪个类，hadoop中相同的名字的类不少，特别是Mapper，Reducer这两个，竟然都有相同名称的，一定要注意。

Driver类：

package hadoopmaven;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

public class Driver extends Configured implements Tool{

    //这个能够运行成功

    public static void main(String[] args) throws Exception {

        int k =ToolRunner.run(new Driver(), args);

        System.out.println("ks is : "+k);

        System.exit(k);

    }

    public int run(String[] arg0) throws Exception {

        Job job = new Job(getConf(), "word count");

        job.setJarByClass(getClass());

        job.setJarByClass(Driver.class);

        job.setMapperClass(MaxMapper.class);

        job.setCombinerClass(MaxReducer.class);

        job.setReducerClass(MaxReducer.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(IntWritable.class);

        FileInputFormat.addInputPath(job, new Path("/input/temp.txt"));

        FileOutputFormat.setOutputPath(job, new Path("/output4"));

        return job.waitForCompletion(true)?0:1;

    }

}

hadoopmaven.Driver

MaxMapper类：

package hadoopmaven;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

public  class MaxMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

    //输入的格式是

    // 1991,90

    // 1991,91

    // 1993,98

    @Override

    protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, IntWritable>.Context context)

            throws IOException, InterruptedException {

        String[] line=value.toString().split(",");

        context.write(new Text(line[0]), new IntWritable(Integer.parseInt(line[1])));

    }

}

hadoopmaven.MaxMapper

MaxReducer类：

package hadoopmaven;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

public  class MaxReducer extends Reducer<Text, IntWritable, Text, IntWritable>{

    @Override

    protected void reduce(Text arg0, Iterable<IntWritable> arg1,

            Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {

        int max=Integer.MIN_VALUE;

        for(IntWritable v:arg1){

            max=Math.max(max, v.get());

        }

        context.write(arg0, new IntWritable(max));

    }

}

hadoopmaven.MaxReducer

这个MapReduce任务的作用是从hdfs的 /input/temp.txt文件中读取信息（/input/temp.txt的文件格式如下），获得每个年份对应的最大的数值，放到/output4文件夹中去。

/input/temp.txt

最后用maven的clean package打个包，maven会自动在打好的jar包中写上main class（因为在pom文件中配置了main class的名称了），打好的jar包在项目根目录下的basedir目录中，名字叫做hadoopx.jar(这些都是在pom中配置的。)

把temp.txt文件放入hdfs中去，把hadoopx.jar放入hadoop根目录，进入hadoop根目录，使用命令 bin/hadoop jar hadoopx.jar 运行

Hadoop 1.2.1 MapReduce 例子的更多相关文章

Hadoop MapReduce例子-新版API多表连接Join之模仿订单配货
文章为作者原创,未经许可,禁止转载. -Sun Yat-sen University 冯兴伟一. 项目简介: 电子商务的发展以及电商平台的多样化,类似于京东和天猫这种拥有过亿用户的在线购 ...
windows下Eclipse操作MapReduce例子报错：Failed to set permissions of path: \tmp\hadoop-Jerome\mapred\staging\
windows下Eclipse操作MapReduce例子报错: 14/05/18 22:05:29 WARN util.NativeCodeLoader: Unable to load native- ...
Hadoop化繁为简(三)—探索Mapreduce简要原理与实践
目录-探索mapreduce 1.Mapreduce的模型简介与特性?Yarn的作用? 2.mapreduce的工作原理是怎样的? 3.配置Yarn与Mapreduce.演示Mapreduce例子程序 ...
高可用Hadoop平台－运行MapReduce程序
1.概述最近有同学反应,如何在配置了HA的Hadoop平台运行MapReduce程序呢?对于刚步入Hadoop行业的同学,这个疑问却是会存在,其实仔细想想,如果你之前的语言功底不错的,应该会想到自动 ...
【hadoop代码笔记】Mapreduce shuffle过程之Map输出过程
一.概要描述 shuffle是MapReduce的一个核心过程,因此没有在前面的MapReduce作业提交的过程中描述,而是单独拿出来比较详细的描述. 根据官方的流程图示如下: 本篇文章中只是想尝试从 ...
大数据时代之hadoop(五)：hadoop 分布式计算框架（MapReduce）
大数据时代之hadoop(一):hadoop安装大数据时代之hadoop(二):hadoop脚本解析大数据时代之hadoop(三):hadoop数据流(生命周期) 大数据时代之hadoop(四): ...
大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
微信公众号[程序员江湖] 作者黄小斜,斜杠青年,某985硕士,阿里 Java 研发工程师,于 2018 年秋招拿到 BAT 头条.网易.滴滴等 8 个大厂 offer,目前致力于分享这几年的学习经验. ...
Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
转自:http://blog.csdn.net/iamdll/article/details/20998035 分类: 分布式 2014-03-11 10:31 156人阅读评论(0) 收藏举报 ...
3.Hadoop测试Yarn和MapReduce
Hadoop测试Yarn和MapReduce 1.配置Yarn (1)配置ResourceManager 生产环境中,一般是重开一台机器作为ResourceManager,这里我们以Master机器代 ...

随机推荐

Android TableLayout 表格布局
TableLayout继承LinearLayout 有多少个TableRow对象就有多少行, 列数等于最多子控件的TableRow的列数直接在TableLayout加控件,控件会占据一行 Table ...
Data Structure Stack: Reverse a stack using recursion
http://www.geeksforgeeks.org/reverse-a-stack-using-recursion/ #include <iostream> #include < ...
CSS3响应式侧边菜单
在线演示本地下载
常用阻止ajax缓存方法集锦
HTML 通过添加meta标签 <meta http-equiv= "pragma" content= "no-cache"/> (pragma: ...
第五篇、css补充二
一.内容概要 1.图标 2.目录规划 3.a标签中的img标签在浏览器中的适应性 4.后台管理系统设置 5.边缘提示框 6.登录页面图标 7.静态对话框 8.加减框补充知识: line-height ...
github之克隆
git clone --depth=10 git_仓库_url 只会获取最近 xx(10条提交记录的)代码,默认是master分支, 如果想要指定分支,可以结合 -b --single--branch ...
a note of R software write Function
Functionals “To become significantly more reliable, code must become more transparent. In particular ...
Linux课程---10、权限管理（权限有哪几种）
Linux课程---10.权限管理(权限有哪几种) 一.总结一句话总结: r 读 w 写 x 执行 1.drwxr-x--- 2 root root 4096 Jan 20 19:39 mnt ...
关于MFC的DLL调用方法问题
参考资料: 一.dll导出方式: MFC的DLL函数导出方法有两种:一种是通过模块定义文件DEF文件:另一种是在导出函数前加_declspec(dllexport). 1.def文件方法: 只需要在E ...
【论文笔记】基于图机构的推荐系统：Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba
论文:https://arxiv.org/abs/1803.02349 题外话: 阿里和香港理工联合发布的这篇文章,整体来说,还挺有意思的. 刚开始随便翻翻看看结构图的时候,会觉得:这也能发文章 ...

Hadoop 1.2.1 MapReduce 例子

Hadoop 1.2.1 MapReduce 例子的更多相关文章

随机推荐

热门专题