[Hadoop] - Win7下提交job到集群上去

一般我们采用win开发+linux hadoop集群的方式进行开发，使用插件：hadoop-***-eclipse-plugin。

运行程序的时候，我们一般采用run as application或者选择run as hadoop。按照这个字面理解，我们可以认为第一种是运行在本地，第二种是运行在hadoop集群上。但是实际情况是一般如果不进行配置的话，全部是在本地进行运行的。如果需要将job提交到集群上，那么需要进行必要的设置和添加部分代码。

1、copy mapred-site.xml && yarn-site.xml文件，并修改必要的信息，将yarn指向集群。

2、给mapred-site.xml文件中添加参数mapreduce.app-submission.cross-platform，参数值为true。

3、打包本地代码提交到集群上，如果不进行该操作，会出现ClassNotFoundException。打包代码如下：

 import java.io.File;

 import java.io.FileInputStream;

 import java.io.FileOutputStream;

 import java.io.IOException;

 import java.util.jar.JarEntry;

 import java.util.jar.JarOutputStream;

 public class EJob {

     public static File createTempJar(String root) throws IOException {

         if (!new File(root).exists()) {

             return null;

         }

         final File jarFile = File.createTempFile("EJob-", ".jar", new File(System

                 .getProperty("java.io.tmpdir")));

         Runtime.getRuntime().addShutdownHook(new Thread() {

             @Override

             public void run() {

                 jarFile.delete();

             }

         });

         JarOutputStream out = new JarOutputStream(new FileOutputStream(jarFile));

         createTempJarInner(out, new File(root), "");

         out.flush();

         out.close();

         return jarFile;

     }

     private static void createTempJarInner(JarOutputStream out, File f,

             String base) throws IOException {

         if (f.isDirectory()) {

             File[] fl = f.listFiles();

             if (base.length() > 0) {

                 base = base + "/";

             }

             for (int i = 0; i < fl.length; i++) {

                 createTempJarInner(out, fl[i], base + fl[i].getName());

             }

         } else {

             out.putNextEntry(new JarEntry(base));

             FileInputStream in = new FileInputStream(f);

             byte[] buffer = new byte[1024];

             int n = in.read(buffer);

             while (n != -1) {

                 out.write(buffer, 0, n);

                 n = in.read(buffer);

             }

             in.close();

         }

     }

  }

EJob 打包代码工具类

 File jarFile = EJob.createTempJar("target/classes");

((JobConf) job.getConfiguration()).setJar(jarFile.toString());

// 其他创建job的代码不进行任何的修改

至此，就可以将job提交到集群上去了。

对应任何在非hadoop集群中提交的mr任务来讲，均需要注意一下几点：

1. 参数mapreduce.app-submission.cross-platform必须设置为true，表示是跨集群提交job

2. 如果参数mapreduce.framework.name值为yarn，那么必须将类YarnClientProtocolProvider引入到项目的classpath路径中，maven依赖如下：

// 其他正常的hadoop-mapreduce-client依赖还是需要的， 只是这个在跨平台提交的过程中是一定需要的

<dependency>

    <groupId>org.apache.hadoop</groupId>

    <artifactId>hadoop-mapreduce-client-jobclient</artifactId>

    <version>${hadoop.version}</version>

</dependency>

3. 如果集群是HA设置，那么必须给定HA配置或者采用明确指定active节点的方式。必须给定的参数有yarn.resourcemanager.address和fs.defaultFS之类的定位参数

当HDFS和Yarn均使用HA的时候，跨集群提交最少配置(依赖集群的具体搭建方法，比如如果在搭建过程中执行了yarn的classpath，那么yarn-site.xml中的参数yarn.application.classpath可以不要，其他参数不可以少，必须存在!!!)

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

    <property>

        <name>fs.defaultFS</name>

        <value>hdfs://hdfs-cluster</value>

    </property>

</configuration>

core-site.xml

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

    <property>

        <name>dfs.nameservices</name>

        <value>hdfs-cluster</value>

    </property>

    <property>

        <name>dfs.ha.namenodes.hdfs-cluster</name>

        <value>hdfs-cluster-1,hdfs-cluster-2</value>

    </property>

    <property>

        <name>dfs.namenode.rpc-address.hdfs-cluster.hdfs-cluster-1</name>

        <value>hdfs-cluster-1:8020</value>

    </property>

    <property>

        <name>dfs.namenode.rpc-address.hdfs-cluster.hdfs-cluster-2</name>

        <value>hdfs-cluster-2:8020</value>

    </property>

    <property>

        <name>dfs.client.failover.proxy.provider.hdfs-cluster</name>

        <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>

    </property>

</configuration>

hdfs-site.xml

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

    <property>

        <name>mapreduce.framework.name</name>

        <value>yarn</value>

    </property>

    <property>

        <name>mapreduce.app-submission.cross-platform</name>

        <value>true</value>

    </property>

</configuration>

mapred-site.xml

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

    <!-- RM Manager Configd -->

    <property>

        <name>yarn.resourcemanager.ha.enabled</name>

        <value>true</value>

    </property>

    <property>

        <name>yarn.resourcemanager.cluster-id</name>

        <value>yarn-cluster</value>

    </property>

    <property>

        <name>yarn.resourcemanager.ha.rm-ids</name>

        <value>yarn-cluster-1,yarn-cluster-2</value>

    </property>

    <!-- RM1 Configs-->

    <property>

        <name>yarn.resourcemanager.address.yarn-cluster-1</name>

        <value>yarn-cluster-1:8032</value>

    </property>

    <!-- RM2 Configs -->

    <property>

        <name>yarn.resourcemanager.address.yarn-cluster-2</name>

        <value>yarn-cluster-2:8032</value>

    </property>

    <property>

        <name>yarn.application.classpath</name>

        <value>

                $HADOOP_CONF_DIR,

                $HADOOP_COMMON_HOME/*,$HADOOP_COMMON_HOME/lib/*,

                $HADOOP_HDFS_HOME/*,$HADOOP_HDFS_HOME/lib/*,

                $HADOOP_MAPRED_HOME/*,$HADOOP_MAPRED_HOME/lib/*,

                $HADOOP_YARN_HOME/*,$HADOOP_YARN_HOME/lib/*

        </value>

    </property>

</configuration>

yarn-site.xml

[Hadoop] - Win7下提交job到集群上去的更多相关文章

在eclipse上提交任务到集群执行
win7下eclipse远程开发hadoop程序,分为两种: (1)运行[Run As] Java Application, 打包程序为jar,上传集群执行(这里不做解释) (2)运行[Run As] ...
将java开发的wordcount程序提交到spark集群上运行
今天来分享下将java开发的wordcount程序提交到spark集群上运行的步骤. 第一个步骤之前,先上传文本文件,spark.txt,然用命令hadoop fs -put spark.txt /s ...
大数据学习day18----第三阶段spark01--------0.前言（分布式运算框架的核心思想，MR与Spark的比较，spark可以怎么运行，spark提交到spark集群的方式）1. spark(standalone模式)的安装 2. Spark各个角色的功能 3.SparkShell的使用，spark编程入门（wordcount案例）
0.前言 0.1 分布式运算框架的核心思想(此处以MR运行在yarn上为例) 提交job时,resourcemanager(图中写成了master)会根据数据的量以及工作的复杂度,解析工作量,从而 ...
CentOS下Hadoop-2.2.0集群安装配置
对于一个刚开始学习Spark的人来说,当然首先需要把环境搭建好,再跑几个例子,目前比较流行的部署是Spark On Yarn,作为新手,我觉得有必要走一遍Hadoop的集群安装配置,而不仅仅停留在本地 ...
Hadoop 2.6.4单节点集群配置
1.安装配置步骤 # wget http://download.oracle.com/otn-pub/java/jdk/8u91-b14/jdk-8u91-linux-x64.rpm # rpm -i ...
Linux下搭建Lotus Domino集群
Linux下搭建Lotus Domino 集群本文内容是Linux平台下Lotus Domino服务器部署案例(http://chenguang.blog.51cto.com/350944/1334 ...
Ubuntu_10.04下Hadoop-0.20.2集群配置手册
Ubuntu_10.04下Hadoop-0.20.2集群配置手册一.软硬件环境的准备下面的文章来自hadoopor.com,我先交待一下我自己的环境: 两台机器,每台机器上面两个虚机(vmware ...
Hadoop及Zookeeper+HBase完全分布式集群部署
Hadoop及HBase集群部署一. 集群环境系统版本虚拟机:内存 16G CPU 双核心系统: CentOS-7 64位系统下载地址: http://124.202.164.6/files ...
Linux下Hadoop2.7.3集群环境的搭建
Linux下Hadoop2.7.3集群环境的搭建本文旨在提供最基本的,可以用于在生产环境进行Hadoop.HDFS分布式环境的搭建,对自己是个总结和整理,也能方便新人学习使用. 基础环境 JDK的安 ...

随机推荐

P4语言编程快速开始实践二
参考:P4语言编程快速开始上一篇系列博客:P4语言编程快速开始实践二 Demo 2 本Demo所做的修改及实现的功能: 为simple_router添加一个计数器(counter),该计数器附加( ...
【转】PHP生成随机密码的几种方法
使用PHP开发应用程序,尤其是网站程序,常常需要生成随机密码,如用户注册生成随机密码,用户重置密码也需要生成一个随机的密码.随机密码也就是一串固定长度的字符串,这里我收集整理了几种生成随机字符串的方法 ...
wdcp使用记录--持续更新
1.扩展memcache 资源地址:http://download.csdn.net/detail/fangminglei/8390449 上传至root文件夹运行注:官方提供的文件不能安装,需要改 ...
学习tabhost 实现微博的主界面
2014-05-27 吴文付微博的主界面还是很漂亮的,我们这里来熟悉下tabhost的使用, 网上资料很多,主要参考了:http://blog.csdn.net/shulianghan/articl ...
CentOS搭建jdk
一.检查是否安装JDK 一般安装好的CentOS会自带jdk, java -version rpm -qa | grep java 显示如下信息: java-1.4.2-gcj-compat-1.4. ...
C#键盘事件处理(来源网上)
C#键盘事件处理如果你希望用户按F1弹出chm帮助,代码如下: private void FrmMain_Load(object sender, EventArgs e) { this.KeyPre ...
SqlParameter 使用
SqlParameter[] param = new SqlParameter[] { new SqlParameter ...
微信上传图片接口实现 JS
//2.微信上传图片接口实现 <script src="http://res.wx.qq.com/open/js/jweixin-1.0.0.js"></scri ...
LeetCode---Depth-first && Breadth-first
417. Pacific Atlantic Water Flow 思路:构造两个二维数组分别存储大西洋和太平洋的结果,先初始化边界,然后从边界出发,深度优先遍历,标记满足条件的所有节点 static ...
YII 1.0 设置关联模型
在model中设置如下 /* * 设置关联 */ public function relations(){ return array( 'cate'=>array(self::BELONGS_T ...

[Hadoop] - Win7下提交job到集群上去

[Hadoop] - Win7下提交job到集群上去的更多相关文章

随机推荐

热门专题