[MapReduce_add_1] Windows 下开发 MapReduce 程序部署到集群

0. 说明

　　 Windows 下开发 MapReduce 程序部署到集群

1. 前提

　　在本地开发的时候保证 resource 中包含以下配置文件，从集群的配置文件中拷贝

　　在 resource 中新建 mapred-site.xml（仅做测试使用，打包的时候删掉）

<?xml version="1.0"?>

<configuration>

    <property>

        <name>mapreduce.framework.name</name>

        <value>yarn</value>

    </property>

</configuration>

　　在 resource 中新建 yarn-site.xml（仅做测试使用，打包的时候删掉）

<?xml version="1.0"?>

<configuration>

<!-- Site specific YARN configuration properties -->

    <property>

        <name>yarn.resourcemanager.hostname</name>

        <value>s101</value>

    </property>

    <property>

        <name>yarn.nodemanager.aux-services</name>

        <value>mapreduce_shuffle</value>

    </property>

</configuration>

2. 代码编写

　　[2.1 WCMapper.java]

package hadoop.mr.wc;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/**

 * Mapper 程序

 */

public class WCMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

    /**

     * map 函数，被调用过程是通过 while 循环每行调用一次

     */

    @Override

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        // 将 value 变为 String 格式

        String line = value.toString();

        // 将一行文本进行截串

        String[] arr = line.split(" ");

        for (String word : arr) {

            context.write(new Text(word), new IntWritable(1));

        }

    }

}

　　[2.2 WCReducer.class]

package hadoop.mr.wc;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**

 * Reducer 类

 */

public class WCReducer extends Reducer<Text, IntWritable, Text, IntWritable> {

    /**

     * 通过迭代所有的 key 进行聚合

     */

    @Override

    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {

        int sum = 0;

        for (IntWritable value : values) {

            sum += value.get();

        }

        context.write(key,new IntWritable(sum));

    }

}

　　[2.3 WCApp.class]

package hadoop.mr.wc;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**

 * Word Count APP

 */

public class WCApp {

    public static void main(String[] args) throws Exception {

        // 初始化配置文件

        Configuration conf = new Configuration();

        // 仅在本地开发时使用

//        conf.set("fs.defaultFS", "file:///");

        // 通过配置文件初始化 job

        Job job = Job.getInstance(conf);

        // 设置 job 名称

        job.setJobName("Word Count");

        // job 入口函数类

        job.setJarByClass(WCApp.class);

        // 设置 mapper 类

        job.setMapperClass(WCMapper.class);

        // 设置 reducer 类

        job.setReducerClass(WCReducer.class);

        // 设置 map 的输出 K-V 类型

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(IntWritable.class);

        // 设置 reduce 的输出 K-V 类型

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(IntWritable.class);

        // 设置输入路径和输出路径

//        Path pin = new Path("E:/test/wc/1.txt");

//        Path pout = new Path("E:/test/wc/out");

        Path pin = new Path(args[0]);

        Path pout = new Path(args[1]);

        FileInputFormat.addInputPath(job, pin);

        FileOutputFormat.setOutputPath(job, pout);

        // 执行 job

        job.waitForCompletion(true);

    }

}

3. 打包项目 & 测试

　　使用 Maven 打包程序如下图所示：

　　将打包好的 jar 包和测试文件通过 Xftp 上传到服务器

　　将测试文件上传到 HDFS ，命令略

　　开启 Hadoop 集群，命令略

　　执行以下命令

hadoop jar myhadoop-1.0-SNAPSHOT.jar hadoop.mr.wc.WCApp /testdata/.txt /testdata/out

　　命令行下可以看到结果，Web UI 查看 http://s101:8088

4. 总结

　　Mapreduce 作业放在集群上运行分为以下步骤：

　　　　1. 编写测试代码，测试其单机模式的运行
　　　　2. 改造代码，使其能运行在集群上，改变参数的设置方式
　　　　3. 打成 jar 包，发送到服务器中
　　　　4. 在服务器中进行测试

[MapReduce_add_1] Windows 下开发 MapReduce 程序部署到集群的更多相关文章

gcc和MinGW的异同（在cygwin/gcc做的东西可以无缝的用在linux下，没有任何问题，是在windows下开发linux程序的一个很好的选择）
cygwin/gcc和MinGW都是gcc在windows下的编译环境,但是它们有什么区别,在实际工作中如何选择这两种编译器. cygwin/gcc完全可以和在linux下的gcc化做等号,这个可以从 ...
redis在Windows下以后台服务一键搭建集群(多机器)
redis在Windows下以后台服务一键搭建集群(多机器) 一.概述此教程介绍如何在windows系统中多台机器之间布置redis集群,同时要以后台服务的模式运行.布置以脚本的形式,一键完成.多台 ...
【原创】MapReduce程序如何在集群上执行
首先了解下资源调度管理框架Yarn. Yarn的结构(如图): Resource Manager (rm)负责调度管理整个集群上的资源,而每一个计算节点上都会有一个Node Manager(nm)来负 ...
redis在Windows下以后台服务一键搭建集群(单机--伪集群)
redis在Windows下以后台服务一键搭建集群(单机--伪集群) 一.概述此教程介绍如何在windows系统中同一台机器上布置redis伪集群,同时要以后台服务的模式运行.布置以脚本的形式,一键 ...
window下使用Redis Cluster部署Redis集群
日常的项目很多时候都需要用到缓存.redis算是一个比较好的选择.一般情况下做一个主从就可以满足一些比较小的项目需要.在一些并发量比较大的项目可能就需要用到集群了,redis在Windows下做集群可 ...
Windows平台开发Mapreduce程序远程调用运行在Hadoop集群—Yarn调度引擎异常
共享原因:虽然用一篇博文写问题感觉有点奢侈,但是搜索百度,相关文章太少了,苦苦探寻日志才找到解决方案. 遇到问题:在windows平台上开发的mapreduce程序,运行迟迟没有结果. Mapredu ...
在local模式下的spark程序打包到集群上运行
一.前期准备前期的环境准备,在Linux系统下要有Hadoop系统,spark伪分布式或者分布式,具体的教程可以查阅我的这两篇博客: Hadoop2.0伪分布式平台环境搭建 Spark2.4.0伪分 ...
Windows下运行MapReduce程序出现Could not locate executable null\winutils.exe in the Hadoop binaries.
运行环境:windows10 64位,虚拟机:Ubuntu Kylin 14.04,Hadoop2.7.1 错误信息: java.io.IOException: Could not locate ex ...
攻城狮在路上（陆）-- 提交运行MapReduce程序到hadoop集群运行
此种方式不能直接在eclipse中调试代码. 首先需要在src下放置服务器上的hadoop配置文件:core-site.xml\yarn-site.xml\hdfs-site.xml\mapred-s ...

随机推荐

Jwt Token 安全策略使用 ECDSA 椭圆曲线加密算法签名/验证
椭圆曲线密码学(Elliptic curve cryptography),简称 ECC,是一种建立公开密钥加密的算法,也就是非对称加密,ECDH 与 ECDSA 是基于 ECC 的算法.类似的还有 R ...
Android多线程编程<二>Handler异步消息处理机制之Message
Message(消息): 一. Message的字段: 在Android中,Message作为线程之间(主要是子线程和UI主线程之间)数据交换的载体,通过Handler去传递.它 ...
【Java基本功】聊聊抽象类和接口的区别
1 抽象类一般会实现一部分操作,并且留一些抽象方法让子类自己实现,比如Stringbuffer和Stringbuilder的父类abstractStringbuilder. 2 接口一般指一种规定,比 ...
SpringCloud断路器监控面板——Hystrix Dashboard
一.简介 Hystrix Dashboard是Hystrix的一个组件,Hystrix Dashboard提供一个断路器的监控面板,可以使我们更好的监控服务和集群的状态,仅仅使用Hystrix Das ...
EOS商业落地利器：多签名操作与应用
eos主网上线在即,它之所以能受到各方青睐,主要是看中了它在未来商业应用落地的潜力.在这期间,完善的账户与权限系统是必要条件. 关键字:eos,账户,钱包,权限,多重签名,eosio.msig,pro ...
NIO Channel和Buffer
Java NIO 由以下几个核心部分组成: Buffer Channel Selector 传统的IO操作面向数据流,意味着每次从流中读一个或多个字节,直至完成,数据没有被缓存在任何地方.NIO操作面 ...
Notyf - 超级简单、响应式的 JS 通知插件
通知是网站的常用功能之一,可以用来显示消息.通告.提示等等.Notyf 是一款超级简单.响应式的 JS 通知插件,不依赖 jQuery 库,可以独立使用.赶紧试用一下吧! 在线演示免费下载 ...
动态规划法（四）0-1背包问题（0-1 Knapsack Problem）
继续讲故事~~ 转眼我们的主人公丁丁就要离开自己的家乡,去大城市见世面了.这天晚上,妈妈正在耐心地帮丁丁收拾行李.家里有个最大能承受20kg的袋子,可是妈妈却有很多东西想装袋子里,已知行李的编 ...
Contest2073 - 湖南多校对抗赛（2015.04.06）
Contest2073 - 湖南多校对抗赛(2015.04.06) Problem A: (More) Multiplication Time Limit: 1 Sec Memory Limit: ...
Java集合框架——容器的快速报错机制 fail-fast 是什么？
前言:最近看 java 集合方面的源码,了解到集合使用了 fail-fast 的机制,这里就记录一下这个机制是什么,有什么用,如何实现的. 一.fail-fast 简介 fail-fast 机制,即快 ...

[MapReduce_add_1] Windows 下开发 MapReduce 程序部署到集群

0. 说明

1. 前提

2. 代码编写

[2.1 WCMapper.java]

[2.2 WCReducer.class]

[2.3 WCApp.class]

3. 打包项目 & 测试

4. 总结

[MapReduce_add_1] Windows 下开发 MapReduce 程序部署到集群的更多相关文章

随机推荐

热门专题

　　[2.1 WCMapper.java]

　　[2.2 WCReducer.class]

　　[2.3 WCApp.class]