Wordcount on YARN 一个MapReduce示例

Hadoop YARN版本：2.2.0

关于hadoop yarn的环境搭建可以参考这篇博文：Hadoop 2.0安装以及不停集群加datanode

hadoop hdfs yarn伪分布式运行，有如下进程

 DataNode
 ResourceManager

 NodeManager

 NameNode

 SecondaryNameNode

写一个mapreduce示例，在yarn上跑，wordcount数单词示例

代码在github上：https://github.com/huahuiyang/yarn-demo

步骤一

我们要处理的输入如下，每行包含一个或多个单词，空格分开。可以用hadoop fs -put ... 把本地文件放到hdfs上去，方便mapreduce程序读取

hadoop yarn

mapreduce

hello redis

java hadoop

hello world

here we go

wordcount程序希望完成数单词任务，输出格式是 <单词出现次数>

步骤二

新建一个工程，工程结构如下，这个是个maven管理的工程

源代码如下：

pom.xml文件

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

    xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

    <modelVersion>4.0.0</modelVersion>

    <groupId>hadoop-yarn</groupId>

    <artifactId>hadoop-demo</artifactId>

    <version>0.0.1-SNAPSHOT</version>

    <dependencies>

        <dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-mapreduce-client-core</artifactId>

            <version>2.1.1-beta</version>

        </dependency>

        <dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-common</artifactId>

            <version>2.1.1-beta</version>

        </dependency>

        <dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-mapreduce-client-common</artifactId>

            <version>2.1.1-beta</version>

        </dependency>

        <dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-mapreduce-client-jobclient</artifactId>

            <version>2.1.1-beta</version>

        </dependency>

    </dependencies>

</project>

package com.yhh.mapreduce.wordcount;

import java.io.IOException;

import org.apache.hadoop.io.*;

import org.apache.hadoop.mapred.*;

public class WordCountMapper extends MapReduceBase implements Mapper<LongWritable, Text, Text,IntWritable>  {

    @Override

    public void map(LongWritable key, Text value,

            OutputCollector<Text, IntWritable> output, Reporter reporter)

            throws IOException {

        String line = value.toString();

        if(line != null) {

            String[] words = line.split(" ");

            for(String word:words) {

                output.collect(new Text(word), new IntWritable(1));

            }

        }

    }

}

package com.yhh.mapreduce.wordcount;

import java.io.IOException;

import java.util.Iterator;

import org.apache.hadoop.io.*;

import org.apache.hadoop.mapred.*;

public class WordCountReducer extends MapReduceBase implements Reducer<Text, IntWritable, Text, IntWritable>{

    @Override

    public void reduce(Text key, Iterator<IntWritable> values,

            OutputCollector<Text, IntWritable> output, Reporter reporter)

            throws IOException {

        int count = 0;

        while(values.hasNext()) {

            values.next();

            count++;

        }

        output.collect(key, new IntWritable(count));

    }

}

package com.yhh.mapreduce.wordcount;

import java.io.IOException;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapred.JobConf;

import org.apache.hadoop.mapred.FileInputFormat;

import org.apache.hadoop.mapred.FileOutputFormat;

import org.apache.hadoop.mapred.JobClient;

public class WordCount {

    public static void main(String[] args) throws IOException {

        if(args.length != 2) {

            System.err.println("Error!");

            System.exit(1);

        }

        JobConf conf = new JobConf(WordCount.class);

        conf.setJobName("word count mapreduce demo");

        conf.setMapperClass(WordCountMapper.class);

        conf.setReducerClass(WordCountReducer.class);

        conf.setOutputKeyClass(Text.class);

        conf.setOutputValueClass(IntWritable.class);

        FileInputFormat.addInputPath(conf, new Path(args[0]));

        FileOutputFormat.setOutputPath(conf, new Path(args[1]));

        JobClient.runJob(conf);

    }

}

步骤三

打包发布成jar，右击java工程，选择Export...，然后选择jar file生成目录，这边发布成wordcount.jar，然后上传到hadoop集群

[root@hadoop-namenodenew ~]# ll wordcount.jar

-rw-r--r--. 1 root root 4401 6月   1 22:05 wordcount.jar

运行mapreduce任务。命令如下

hadoop jar ~/wordcount.jar com.yhh.mapreduce.wordcount.WordCount data.txt /wordcount/result

可以用hadoop job -list看任务运行情况，运行成功大概会有如下输出

14/06/01 22:06:25 INFO mapreduce.Job: The url to track the job: http://hadoop-namenodenew:8088/proxy/application_1401631066126_0003/

14/06/01 22:06:25 INFO mapreduce.Job: Running job: job_1401631066126_0003

14/06/01 22:06:33 INFO mapreduce.Job: Job job_1401631066126_0003 running in uber mode : false

14/06/01 22:06:33 INFO mapreduce.Job:  map 0% reduce 0%

14/06/01 22:06:40 INFO mapreduce.Job:  map 50% reduce 0%

14/06/01 22:06:41 INFO mapreduce.Job:  map 100% reduce 0%

14/06/01 22:06:47 INFO mapreduce.Job:  map 100% reduce 100%

14/06/01 22:06:48 INFO mapreduce.Job: Job job_1401631066126_0003 completed successfully

14/06/01 22:06:49 INFO mapreduce.Job: Counters: 43

然后mapreduce输出的任务结果如下，单词按照字典序排序

hadoop fs -cat /wordcount/result/part-00000

go    1

hadoop    2

hello    2

here    1

java    1

mapreduce    1

redis    1

we    1

world    1

yarn    1

Wordcount on YARN 一个MapReduce示例的更多相关文章

从零自学Hadoop(08)：第一个MapReduce
阅读目录序数据准备 wordcount Yarn 新建MapReduce 示例下载系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是 ...
一个简单的MapReduce示例（多个MapReduce任务处理）
一.需求有一个列表,只有两列:id.pro,记录了id与pro的对应关系,但是在同一个id下,pro有可能是重复的. 现在需要写一个程序,统计一下每个id下有多少个不重复的pro. 为了写一个完整的 ...
HDFS设计思路，HDFS使用，查看集群状态，HDFS，HDFS上传文件，HDFS下载文件，yarn web管理界面信息查看，运行一个mapreduce程序，mapreduce的demo
26 集群使用初步 HDFS的设计思路 l 设计思想分而治之:将大文件.大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析: l 在大数据系统中作用: 为各类分布式 ...
hadoop-0.23.9安装以及第一个mapreduce测试程序
hadoop是一个能够对大量数据进行分布式处理的软件框架.它实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.HDFS有着高容错性的特点,并且设计 ...
怎样通过Java程序提交yarn的mapreduce计算任务
因为项目需求,须要通过Java程序提交Yarn的MapReduce的计算任务.与一般的通过Jar包提交MapReduce任务不同,通过程序提交MapReduce任务须要有点小变动.详见下面代码. 下面 ...
hadoop环境安装及简单Map-Reduce示例
说明:这篇博客来自我的csdn博客,http://blog.csdn.net/lxxgreat/article/details/7753511 一.参考书:<hadoop权威指南--第二版(中文 ...
从零开始学习Hadoop--第2章第一个MapReduce程序
1.Hadoop从头说 1.1 Google是一家做搜索的公司做搜索是技术难度很高的活.首先要存储很多的数据,要把全球的大部分网页都抓下来,可想而知存储量有多大.然后,要能快速检索网页,用户输入几个 ...
一起学Hadoop——使用IDEA编写第一个MapReduce程序(Java和Python)
上一篇我们学习了MapReduce的原理,今天我们使用代码来加深对MapReduce原理的理解. wordcount是Hadoop入门的经典例子,我们也不能免俗,也使用这个例子作为学习Hadoop的第 ...
3.Hadoop测试Yarn和MapReduce
Hadoop测试Yarn和MapReduce 1.配置Yarn (1)配置ResourceManager 生产环境中,一般是重开一台机器作为ResourceManager,这里我们以Master机器代 ...

随机推荐

javascript测试
s阿道夫. 撒旦法 sd sad sd 的萨法a dsa发 fds sdfad 电风扇爱的方式爱的方式啊
spring集成activeMQ
1.安装activehttp://activemq.apache.org/activemq-5140-release.html2.运行D:\apache-activemq-5.14.0\bin\win ...
java1.8中Lambda表达式reduce聚合测试例子
public class LambdaTest { public static void main(String[] args) { // 相当于foreach遍历操作结果值 Integer out ...
mysqli扩展库的预处理技术 mysqli stmt
//预编译演示 //1,创建mysqli对象 $mysqli=new mysqli("localhost","root",""," ...
Python中判断是否为闰年，求输入日期是该年第几天
#coding = utf-8 def getLastDay(): y = int(input("Please input year :")) m = int(input(&quo ...
动态生成SQL执行语句
SET @qry = 'SELECT product_cd, name, product_type_cd, date_offered, date_retired FROM product WHERE ...
blender源代码编译
blender源码路径(svn):https://svn.blender.org/svnroot/bf-blender/trunk/blender/ 依赖外部Lib(svn):https://svn. ...
Auto Layout
Auto Layout XCode5+ Auto Layout Concepts 核心的概念是约束. Constraint Basics Constant value Relation Priorit ...
php几个常用的概率算法（抽奖、广告首选）
做网站类的有时会弄个活动什么的,来让用户参加,既吸引用户注册,又提高网站的用户活跃度.同时参加的用户会获得一定的奖品,有100%中奖的,也有按一定概率中奖的,大的比如中个ipad.iphone5,小的 ...
hdu 4070 福州赛区网络赛J 贪心 ***
优先发路程最长的 #include<cstdio> #include<iostream> #include<algorithm> #include<cstri ...

Wordcount on YARN 一个MapReduce示例

步骤一

步骤二

步骤三

Wordcount on YARN 一个MapReduce示例的更多相关文章

随机推荐

热门专题