spark提交任务的两种的方法

在学习Spark过程中，资料中介绍的提交Spark Job的方式主要有两种（我所知道的）：

第一种:

通过命令行的方式提交Job,使用spark 自带的spark-submit工具提交，官网和大多数参考资料都是已这种方式提交的，提交命令示例如下：
./spark-submit --class com.learn.spark.SimpleApp --master yarn --deploy-mode client --driver-memory 2g --executor-memory 2g --executor-cores 3 ../spark-demo.jar
参数含义就不解释了，请参考官网资料。
第二种:

提交方式是已JAVA API编程的方式提交，这种方式不需要使用命令行，直接可以在IDEA中点击Run 运行包含Job的Main类就行，Spark 提供了以SparkLanuncher 作为唯一入口的API来实现。这种方式很方便（试想如果某个任务需要重复执行，但是又不会写linux 脚本怎么搞？我想到的是以JAV API的方式提交Job, 还可以和Spring整合，让应用在tomcat中运行），官网的示例：http://spark.apache.org/docs/latest/api/java/index.html?org/apache/spark/launcher/package-summary.html

根据官网的示例，通过JAVA API编程的方式提交有两种方式：

第一种是调用SparkLanuncher实例的startApplication方法，但是这种方式在所有配置都正确的情况下使用运行都会失败的，原因是startApplication方法会调用LauncherServer启动一个进程与集群交互，这个操作貌似是异步的，所以可能结果是main主线程结束了这个进程都没有起起来，导致运行失败。解决办法是调用new SparkLanuncher().startApplication后需要让主线程休眠一定的时间后者是使用下面的例子：

 package com.learn.spark; 

 import org.apache.spark.launcher.SparkAppHandle;

 import org.apache.spark.launcher.SparkLauncher; 

 import java.io.IOException;

 import java.util.HashMap;

 import java.util.concurrent.CountDownLatch; 

 public class LanuncherAppV {

     public static void main(String[] args) throws IOException, InterruptedException { 

         HashMap env = new HashMap();

         //这两个属性必须设置

         env.put("HADOOP_CONF_DIR", "/usr/local/hadoop/etc/overriterHaoopConf");

         env.put("JAVA_HOME", "/usr/local/java/jdk1.8.0_151");

         //可以不设置

         //env.put("YARN_CONF_DIR","");

         CountDownLatch countDownLatch = new CountDownLatch();

         //这里调用setJavaHome()方法后，JAVA_HOME is not set 错误依然存在

         SparkAppHandle handle = new SparkLauncher(env)

         .setSparkHome("/usr/local/spark")

         .setAppResource("/usr/local/spark/spark-demo.jar")

         .setMainClass("com.learn.spark.SimpleApp")

         .setMaster("yarn")

         .setDeployMode("cluster")

         .setConf("spark.app.id", "")

         .setConf("spark.driver.memory", "2g")

         .setConf("spark.akka.frameSize", "")

         .setConf("spark.executor.memory", "1g")

         .setConf("spark.executor.instances", "")

         .setConf("spark.executor.cores", "")

         .setConf("spark.default.parallelism", "")

         .setConf("spark.driver.allowMultipleContexts", "true")

         .setVerbose(true).startApplication(new SparkAppHandle.Listener() {

         //这里监听任务状态，当任务结束时（不管是什么原因结束）,isFinal（）方法会返回true,否则返回false

          @Override

         public void stateChanged(SparkAppHandle sparkAppHandle) {

             if (sparkAppHandle.getState().isFinal()) {

                 countDownLatch.countDown();

             }

             System.out.println("state:" + sparkAppHandle.getState().toString());

         } 

         @Override

         public void infoChanged(SparkAppHandle sparkAppHandle) {

             System.out.println("Info:" + sparkAppHandle.getState().toString());

         }

     });

     System.out.println("The task is executing, please wait ....");

     //线程等待任务结束

     countDownLatch.await();

     System.out.println("The task is finished!"); 

     }

 }

注意：如果部署模式是cluster,但是代码中有标准输出的话将看不到，需要把结果写到HDFS中，如果是client模式则可以看到输出。

第二种方式是：通过SparkLanuncher.lanunch()方法获取一个进程，然后调用进程的process.waitFor()方法等待线程返回结果，但是使用这种方式需要自己管理运行过程中的输出信息，比较麻烦，好处是一切都在掌握之中，即获取的输出信息和通过命令提交的方式一样，很详细，实现如下：

 package com.learn.spark; 

 import org.apache.spark.launcher.SparkAppHandle;

 import org.apache.spark.launcher.SparkLauncher; 

 import java.io.IOException;

 import java.util.HashMap; 

 public class LauncherApp { 

 public static void main(String[] args) throws IOException, InterruptedException { 

     HashMap env = new HashMap();

     //这两个属性必须设置

     env.put("HADOOP_CONF_DIR","/usr/local/hadoop/etc/overriterHaoopConf");

     env.put("JAVA_HOME","/usr/local/java/jdk1.8.0_151");

     //env.put("YARN_CONF_DIR",""); 

     SparkLauncher handle = new SparkLauncher(env)

         .setSparkHome("/usr/local/spark")

         .setAppResource("/usr/local/spark/spark-demo.jar")

         .setMainClass("com.learn.spark.SimpleApp")

         .setMaster("yarn")

         .setDeployMode("cluster")

         .setConf("spark.app.id", "")

         .setConf("spark.driver.memory", "2g")

         .setConf("spark.akka.frameSize", "")

         .setConf("spark.executor.memory", "1g")

         .setConf("spark.executor.instances", "")

         .setConf("spark.executor.cores", "")

         .setConf("spark.default.parallelism", "")

         .setConf("spark.driver.allowMultipleContexts","true")

         .setVerbose(true); 

     Process process =handle.launch();

     InputStreamReaderRunnable inputStreamReaderRunnable = new InputStreamReaderRunnable(process.getInputStream(), "input");

     Thread inputThread = new Thread(inputStreamReaderRunnable, "LogStreamReader input");

     inputThread.start(); 

     InputStreamReaderRunnable errorStreamReaderRunnable = new InputStreamReaderRunnable(process.getErrorStream(), "error");

     Thread errorThread = new Thread(errorStreamReaderRunnable, "LogStreamReader error");

     errorThread.start(); 

     System.out.println("Waiting for finish...");

     int exitCode = process.waitFor();

     System.out.println("Finished! Exit code:" + exitCode); 

     }

 }

使用的自定义InputStreamReaderRunnable类实现如下：

 package com.learn.spark; 

 import java.io.BufferedReader;

 import java.io.IOException;

 import java.io.InputStream;

 import java.io.InputStreamReader; 

 public class InputStreamReaderRunnable implements Runnable { 

 　　private BufferedReader reader; 

 　　private String name; 

 　　public InputStreamReaderRunnable(InputStream is, String name) {

 　　　　this.reader = new BufferedReader(new InputStreamReader(is));

 　　　　this.name = name;

 　　} 

 　　public void run() {

 　　　　System.out.println("InputStream " + name + ":");

 　　　　try {

 　　　　　　　　String line = reader.readLine();

 　　　　　　　　while (line != null) {

 　　　　　　　　　　　System.out.println(line);

 　　　　　　　　　　　line = reader.readLine();

 　　　　　　　　}

 　　　　　　　　reader.close();

 　　　 　　} catch (IOException e) {

 　　　　　 　　e.printStackTrace();

 　　　　　　}

 　 　}

 }

spark提交任务的两种的方法的更多相关文章

spark提交任务的三种的方法
在学习Spark过程中,资料中介绍的提交Spark Job的方式主要有三种: 第一种: 通过命令行的方式提交Job,使用spark 自带的spark-submit工具提交,官网和大多数参考资料都是已这 ...
【Spark篇】--Spark中Standalone的两种提交模式
一.前述 Spark中Standalone有两种提交模式,一个是Standalone-client模式,一个是Standalone-master模式. 二.具体 1.Standalon ...
spark application提交应用的两种方式
bin/spark-submit --help ... ... --deploy-mode DEPLOY_MODE Whether to launch the driver program loc ...
Spark On Yarn的两种模式yarn-cluster和yarn-client深度剖析
Spark On Yarn的优势每个Spark executor作为一个YARN容器(container)运行.Spark可以使得多个Tasks在同一个容器(container)里面运行 1. Sp ...
git两种合并方法比较merge和rebase
18:01 2015/11/18git两种合并方法比较merge和rebase其实很简单,就是合并后每个commit提交的id记录的顺序而已注意:重要的是如果公司用了grrit,grrit不允许用m ...
两种Ajax方法
两种Ajax方法 Ajax是一种用于快速创建动态网页的技术,他通过在后台与服务器进行少量的数据交换,可以实现网页的异步更新,不需要像传统网页那样重新加载页面也可以做到对网页的某部分作出更新,现在这项技 ...
Spark on YARN的两种运行模式
Spark on YARN有两种运行模式,如下 1.yarn-cluster:适合于生产环境. Spark的Driver运行在ApplicationMaster中,它负责向YARN Re ...
JS中的两种刷新方法以及区别和适用范围
在项目中有一个人信息修改的页面,但是修改后显示的却是修改之前的内容,分析问题后发现查询语句写在了修改语句之前,有些某些需要又必须这么写,但是修改信息后先却显示之前的信息也太不科学了. 所以我就想用js ...
两种js方法发起微信支付：WeixinJSBridge，wx.chooseWXPay区别
原文链接:https://www.2cto.com/weixin/201507/412752.html 1.为什么会有两种JS方法可以发起微信支付? 当你登陆微信公众号之后,左边有两个菜单栏,一个是微 ...

随机推荐

数据库——MySQL——事务
数据的事务是指作为单个逻辑工作单元执行的一系列操作,要么完全执行,要么完全不执行. 事务必须具备四个特性: 原子性原子性是指事务包含的所有操作要么全部成功,要么全部失败回滚一致性在事务T开始时, ...
max-height实现任意高度元素的展开收缩动画
http://dobinspark.com.cn/ 前言: 在说到实现元素的展开收缩,通常的想法是通过控制display的元素属性和none之间的切换,虽然说功能可以实现,但是这种展开是没有任何动画的 ...
tomcat端口被占用如何解决
有时候我们在eclipse中启动项目时,Tomcat服务器会报错,显示8080.8009.8005这几个端口被占用,此时你用debug启动项目时会发现不管用,console控制台什么信息也没有,此时产 ...
Swift_枚举
Swift_枚举点击查看源码空枚举 //空枚举 enum SomeEnumeration { // enumeration definition goes here } 枚举基本类型 //枚举基本 ...
ios常用数据库、完美无缺
直接copy过去就能用,我们不用再去造轮子,现在的xocod9.4更加人性化了,不用再添加依赖库,这点苹果你让我开始喜欢了,哈哈. 需要这兄弟拉进去的哈下班标的1,2,3,4就是就截图的4个文件,没 ...
centos7 php7 动态编译mysqlnd： configure: error: Cannot find OpenSSL's <evp.h> 错误解决
开始以为是没有安装openssl, openssl-devel,安装后发现还是提示这个错误,搜索了一下evp.h,这个文件也存在.GOOGLE 了一下,在stackoverflow,找到了答案,原来是 ...
使用WIn10自带的Linux子系统
最近一直有安装虚拟机的想法,今天刚刚知道win10有自带的Linux子系统,就准备试一下: 首先要保证自己的电脑处于开发者选项: 然后就要在控制面板的程序和功能页面点击“启用或者关闭WIndows功能 ...
Echarts+百度地图
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
nodejs的安装配置
Node.js安装及环境配置一.安装环境 1.本机系统:Windows 10 Pro(64位)2.Node.js:v6.9.2LTS(64位) 二.安装Node.js步骤 1.下载对应你系统的N ...
hadoop学习笔记——用python写wordcount程序
尝试着用3台虚拟机搭建了伪分布式系统,完整的搭建步骤等熟悉了整个分布式框架之后再写,今天写一下用python写wordcount程序(MapReduce任务)的具体步骤. MapReduce任务以来H ...

spark提交任务的两种的方法

spark提交任务的两种的方法的更多相关文章

随机推荐

热门专题