hadoop 把mapreduce任务从本地提交到hadoop集群上运行

MapReduce任务有三种运行方式：

1、windows（linux）本地调试运行，需要本地hadoop环境支持

2、本地编译成jar包，手动发送到hadoop集群上用hadoop jar或者yarn jar方式运行。

3、本地编译环境在IDE里直接提交到集群上运行，实际上这种方式就是第二种方式的变种。

本例说的就是第三种方式

1）核心的部分就是Confirguration的配置

2）本地需要编译成jar包

3）运行参数在本地配置，包括输入输出参数
4）出现windows下的环境配置问题，参照https://www.cnblogs.com/asker009/p/10348188.html

关键运行代码如下：mapper和reducer就不贴出来了，可以看之前的https://www.cnblogs.com/asker009/p/10337598.html

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.net.URI;

public class WordCount {

    private static String HDFSUri = "hdfs://bigdata-senior01.home.com:9000";

    public static void main(String[] args) throws Exception {

        if(args.length!=2)

        {

            System.err.println("使用格式：WordCount <input path> <output path>");

            System.exit(-1);

        }

        long startTime = System.currentTimeMillis();

        //Configuration类代表作业的配置，该类会加载mapred-site.xml、hdfs-site.xml、core-site.xml等配置文件。

        Configuration conf =new Configuration();

        //本地模式运行mr程序时，输入输出的数据可以在本地，也可以在hdfs上

        //到底在哪里，就看以下两行配置你用哪行，默认就是file:///

        conf.set("fs.defaultFS","hdfs://bigdata-senior01.home.com:9000");

//        conf.set("fs.defaultFS", "file:///");

        //本地提交到集群上运行

        //运行集群模式，就是把程序提交到yarn中去运行

        //要想运行为集群模式，以下5个参数要指定为集群上的值（实际上就是hadoop集群上的配置）

        //还需要把hadoop集群上core-site.xml,yarn-site.xml,mapred-site.xml拷贝到resources目录下或者把这几个文件的核心配置写入conf变量

        //如果是把程序打包成jar,hadoop jar运行，不需要写下面，因为hadoop jar脚本自动把集群中配置好的配置文件加载给该程序

        conf.set("mapreduce.framework.name", "yarn");

        conf.set("yarn.nodemanager.aux-services","mapreduce_shuffle");

        conf.set("yarn.resourcemanager.hostname", "bigdata-senior01.home.com");

        conf.set("hadoop.tmp.dir","/opt/data/tmp");

        conf.set("mapreduce.application.classpath","/opt/modules/hadoop-3.1.0/share/hadoop/mapreduce/*, /opt/modules/hadoop-3.1.0/share/hadoop/mapreduce/lib-examples/*");

        //跨平台提交

        conf.set("mapreduce.app-submission.cross-platform", "true");

        //设置mapred.jar的路径,不然会报找不到，设置的内容就是本例中输出的jar包

        conf.set("mapred.jar","E:\\myProgram\\Java\\wordcount\\out\\artifacts\\wordcount_jar\\wordcount.jar");

        //如果实在非hadoop用户环境下提交任务

        System.setProperty("HADOOP_USER_NAME","hadoop");

        System.out.println("HADOOP_USER_NAME: "+System.getProperty("HADOOP_USER_NAME"));

        Path outPath = new Path(args[1]);

        //FileSystem里面包括很多系统，不局限于hdfs

        FileSystem fileSystem = FileSystem.get(URI.create(HDFSUri),conf);

        //删除输出路径

        if(fileSystem.exists(outPath))

        {

            fileSystem.delete(outPath,true);

        }

        Job job = Job.getInstance(conf,"word count"); // new Job(conf, "word count");

        job.setJarByClass(WordCount.class);

        job.setMapperClass(WordCountMapper.class);

        //Combiner最终不能影响reduce输出的结果

//        job.setCombinerClass(WordCountReducer.class);

        job.setReducerClass(WordCountReducer.class);

        //一般情况下mapper和reducer的输出的数据类型是一样的，所以我们用上面两条命令就行，如果不一样，我们就可以用下面两条命令单独指定mapper的输出key、value的数据类型

        //job.setMapOutputKeyClass(Text.class);

        //job.setMapOutputValueClass(IntWritable.class);

        //hadoop默认的是TextInputFormat和TextOutputFormat,所以说我们这里可以不用配置。

//        job.setInputFormatClass(TextInputFormat.class);

//        job.setOutputFormatClass(TextOutputFormat.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(IntWritable.class);

        //指定的这个路径可以是单个文件、一个目录或符合特定文件模式的一系列文件。

        //从方法名称可以看出，可以通过多次调用这个方法来实现多路径的输入。

        FileInputFormat.addInputPath(job,new Path(args[0]));

        FileOutputFormat.setOutputPath(job,new Path(args[1]));

        boolean result = job.waitForCompletion(true);

        long endTime = System.currentTimeMillis();

        long timeSpan = endTime - startTime;

        System.out.println("运行耗时："+timeSpan+"毫秒。");

        System.exit( result ? 0 : 1);

    }

}

hadoop 把mapreduce任务从本地提交到hadoop集群上运行的更多相关文章

将java开发的wordcount程序提交到spark集群上运行
今天来分享下将java开发的wordcount程序提交到spark集群上运行的步骤. 第一个步骤之前,先上传文本文件,spark.txt,然用命令hadoop fs -put spark.txt /s ...
用python + hadoop streaming 编写分布式程序（二） -- 在集群上运行与监控
写在前面相关随笔: Hadoop-1.0.4集群搭建笔记用python + hadoop streaming 编写分布式程序(一) -- 原理介绍,样例程序与本地调试用python + hado ...
MapReduce编程入门实例之WordCount：分别在Eclipse和Hadoop集群上运行
上一篇博文如何在Eclipse下搭建Hadoop开发环境,今天给大家介绍一下如何分别分别在Eclipse和Hadoop集群上运行我们的MapReduce程序! 1. 在Eclipse环境下运行MapR ...
Eclipse提交代码到Spark集群上运行
Spark集群master节点: 192.168.168.200 Eclipse运行windows主机: 192.168.168.100 场景: 为了测试在Eclipse上开发的代码在Spa ...
Hadoop打包成jar包在集群上运行时出现的各种问题以及解决方案
之前将eclipse下编好的mapreduce代码放到集群上面跑,发现速度很慢,namenode节点的cpu和内存使用率很低,datanode节点基本上处于没有运行的状态,然后通过查看hadoop-e ...
win10下将spark的程序提交给远程集群中运行
一,开发环境: 操作系统:win19 64位 IDE:IntelliJ IDEA JDK:1.8 scala:scala-2.10.6 集群:linux上cdh集群,其中spark为1.5.2,had ...
hadoop问题锦集(一):mapreduce不能在集群中运行
问题详细: 搭建类hadoop的集群集群环境,查看hadoop dfsadmin -report 也有datanode节点.在master:50070上也有. 然而在eclipse环境上运行mapre ...
Hadoop集群WordCount运行详解（转）
原文链接:Hadoop集群(第6期)_WordCount运行详解 1.MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对 ...
[Hadoop] - Win7下提交job到集群上去
一般我们采用win开发+linux hadoop集群的方式进行开发,使用插件:hadoop-***-eclipse-plugin. 运行程序的时候,我们一般采用run as application或者 ...

随机推荐

iOS 中的正则表达式符号
最近重新看了一遍 iOS 的正则文档,简单翻译下文档中涉及到的符号 1.正则表达式元字符符号说明 \a 响铃, \u0007 \A 匹配输入的开始,只匹配第一行,也就是忽略多行选项 \b 不在[] ...
MySql 增加字段删除字段修改字段名称修改字段类型
//1.增加一个字段 alter table user add COLUMN new1 VARCHAR(20) DEFAULT NULL; //增加一个字段,默认为空 alter table user ...
iOS 测试工具reveal可视化调试工具的使用
简单翻译一下reveal可视化图形工具插入项目的官方文档(官方英文版file:///Applications/Reveal.app/Contents/SharedSupport/Documentati ...
hdu1422重温世界杯(动态规划，最长子序列)
重温世界杯 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others)Total Submi ...
测试开发的成长之路 - 自动化一站式平台(UI、接口)
前言在自动化测试过程中,随着对接的自动化需求不断增加,测试用例数量显著上升,参与自动化测试的人也越来越多,多人协作就会碰到很多问题,包括脚本.数据.版本.项目整合.持续集成等,而且也增加了后期维护的 ...
HDU-1496(哈希表)
Hash入门第一题题意: 问题描述考虑具有以下形式的方程: a * x1 ^ 2 + b * x2 ^ 2 + c * x3 ^ 2 + d * x4 ^ 2 = 0 a,b,c,d是来自区间[- ...
Ubuntu 常用软件推荐(QQ、微信、MATLAB等)及安装过程
1. Wine QQ QQ 移植到 Linux 一直是一个比较头疼的问题,但我们日常交流.传输文件又离不开这个软件.在网上一番搜寻尝试后,发现最好的替代方案就是 Wine QQ,版本也还比较新,缺点是 ...
Ubuntu16.04安装truffle时的一些错误
1.使用truffle时出现 Error: /usr/bin/env: node: 没有那个文件或目录 1.如果是用sudo apt-get install nodejs命令安装的nodejs, ub ...
NMAP-端口扫描
1.时序选项 -T0 -> -T5 速度变快,但是准确性下降,nmap默认是T3 2.指定端口 3.扫描指定TCP和UDP端口 4.快速扫描常见100个端口 5.扫描常见的n的端口 6.TCP ...
收割大厂offer需要具备的条件
转载出处本人也一直在关注互联网,觉得还是有些了解.互联网要求是越来越高了,竞争的人太多了,不过你不用担心,个人觉得,你到了中层的水平,拿二线offer应该没问题,人多也有人多的好处,我比别人多努力一 ...

hadoop 把mapreduce任务从本地提交到hadoop集群上运行

hadoop 把mapreduce任务从本地提交到hadoop集群上运行的更多相关文章

随机推荐

热门专题