利用SparkLauncher 类以JAVA API 编程的方式提交Spark job

一.环境说明和使用软件的版本说明:

hadoop-version:hadoop-2.9.0.tar.gz

spark-version:spark-2.2.0-bin-hadoop2.7.tgz

java-version:jdk1.8.0_151

集群环境：单机伪分布式环境。

二.适用背景

在学习Spark过程中，资料中介绍的提交Spark Job的方式主要有两种（我所知道的）：第一种是通过命令行的方式提交Job,使用spark 自带的spark-submit工具提交，官网和大多数参考资料都是已这种方式提交的，提交命令示例如下：

./spark-submit --class com.learn.spark.SimpleApp --master yarn --deploy-mode client --driver-memory 2g --executor-memory 2g --executor-cores 3 ../spark-demo.jar

参数含义就不解释了，请参考官网资料。

第二种提交方式是已JAVA API编程的方式提交，这种方式不需要使用命令行，直接可以在IDEA中点击Run 运行包含Job的Main类就行，Spark 提供了以SparkLanuncher 作为唯一入口的API来实现。这种方式很方便（试想如果某个任务需要重复执行，但是又不会写linux 脚本怎么搞？我想到的是以JAV API的方式提交Job, 还可以和Spring整合，让应用在tomcat中运行），官网的示例：http://spark.apache.org/docs/latest/api/java/index.html?org/apache/spark/launcher/package-summary.html

三.文章的目地

官网已有demo和API的情况下写这篇文章的目地：官网给出的demo 放在本机跑不了。出现的现象是程序结束了，什么输出都没有或者输出JAVA_HOME is not set,虽然我调用方法设置了，然而没啥用，因此把我搜索和加上在自己思考后能够运行的demo记录下来。

四.相关demo

根据官网的示例这里有两种方式：

第一种是调用SparkLanuncher实例的startApplication方法，但是这种方式在所有配置都正确的情况下使用运行都会失败的，原因是startApplication方法会调用LauncherServer启动一个进程与集群交互，这个操作貌似是异步的，所以可能结果是main主线程结束了这个进程都没有起起来，导致运行失败。解决办法是调用new SparkLanuncher().startApplication后需要让主线程休眠一定的时间后者是使用下面的例子：

package com.learn.spark;

import org.apache.spark.launcher.SparkAppHandle;

import org.apache.spark.launcher.SparkLauncher;

import java.io.IOException;

import java.util.HashMap;

import java.util.concurrent.CountDownLatch;

public class LanuncherAppV {

    public static void main(String[] args) throws IOException, InterruptedException {

        HashMap env = new HashMap();

        //这两个属性必须设置

        env.put("HADOOP_CONF_DIR", "/usr/local/hadoop/etc/overriterHaoopConf");

        env.put("JAVA_HOME", "/usr/local/java/jdk1.8.0_151");

        //可以不设置

        //env.put("YARN_CONF_DIR","");

        CountDownLatch countDownLatch = new CountDownLatch();

        //这里调用setJavaHome()方法后，JAVA_HOME is not set 错误依然存在

        SparkAppHandle handle = new SparkLauncher(env)

                .setSparkHome("/usr/local/spark")

                .setAppResource("/usr/local/spark/spark-demo.jar")

                .setMainClass("com.learn.spark.SimpleApp")

                .setMaster("yarn")

                .setDeployMode("cluster")

                .setConf("spark.app.id", "")

                .setConf("spark.driver.memory", "2g")

                .setConf("spark.executor.memory", "1g")

                .setConf("spark.executor.instances", "")

                .setConf("spark.executor.cores", "")

                .setConf("spark.default.parallelism", "")

                .setConf("spark.driver.allowMultipleContexts", "true")

                .setVerbose(true).startApplication(new SparkAppHandle.Listener() {

                    //这里监听任务状态，当任务结束时（不管是什么原因结束）,isFinal（）方法会返回true,否则返回false

                    @Override

                    public void stateChanged(SparkAppHandle sparkAppHandle) {

                        if (sparkAppHandle.getState().isFinal()) {

                            countDownLatch.countDown();

                        }

                        System.out.println("state:" + sparkAppHandle.getState().toString());

                    }

                    @Override

                    public void infoChanged(SparkAppHandle sparkAppHandle) {

                        System.out.println("Info:" + sparkAppHandle.getState().toString());

                    }

                });

        System.out.println("The task is executing, please wait ....");

        //线程等待任务结束

        countDownLatch.await();

        System.out.println("The task is finished!");

    }

}

注意：如果部署模式是cluster,但是代码中有标准输出的话将看不到，需要把结果写到HDFS中，如果是client模式则可以看到输出。
第二种方式是：通过SparkLanuncher.lanunch()方法获取一个进程，然后调用进程的process.waitFor()方法等待线程返回结果，但是使用这种方式需要自己管理运行过程中的输出信息，比较麻烦，好处是一切都在掌握之中，即获取的输出信息和通过命令提交的方式一样，很详细，实现如下：

package com.learn.spark;

import org.apache.spark.launcher.SparkAppHandle;

import org.apache.spark.launcher.SparkLauncher;

import java.io.IOException;

import java.util.HashMap;

public class LauncherApp {

    public static void main(String[] args) throws IOException, InterruptedException {

        HashMap env = new HashMap();

        //这两个属性必须设置

        env.put("HADOOP_CONF_DIR","/usr/local/hadoop/etc/overriterHaoopConf");

        env.put("JAVA_HOME","/usr/local/java/jdk1.8.0_151");

        //env.put("YARN_CONF_DIR","");

        SparkLauncher handle = new SparkLauncher(env)

                .setSparkHome("/usr/local/spark")

                .setAppResource("/usr/local/spark/spark-demo.jar")

                .setMainClass("com.learn.spark.SimpleApp")

                .setMaster("yarn")

                .setDeployMode("cluster")

                .setConf("spark.app.id", "")

                .setConf("spark.driver.memory", "2g")

                .setConf("spark.akka.frameSize", "")

                .setConf("spark.executor.memory", "1g")

                .setConf("spark.executor.instances", "")

                .setConf("spark.executor.cores", "")

                .setConf("spark.default.parallelism", "")

                .setConf("spark.driver.allowMultipleContexts","true")

                .setVerbose(true);

         Process process =handle.launch();

        InputStreamReaderRunnable inputStreamReaderRunnable = new InputStreamReaderRunnable(process.getInputStream(), "input");

        Thread inputThread = new Thread(inputStreamReaderRunnable, "LogStreamReader input");

        inputThread.start();

        InputStreamReaderRunnable errorStreamReaderRunnable = new InputStreamReaderRunnable(process.getErrorStream(), "error");

        Thread errorThread = new Thread(errorStreamReaderRunnable, "LogStreamReader error");

        errorThread.start();

        System.out.println("Waiting for finish...");

        int exitCode = process.waitFor();

        System.out.println("Finished! Exit code:" + exitCode);

    }

}

使用的自定义InputStreamReaderRunnable类实现如下：

package com.learn.spark;

import java.io.BufferedReader;

import java.io.IOException;

import java.io.InputStream;

import java.io.InputStreamReader;

public class InputStreamReaderRunnable implements Runnable {

    private BufferedReader reader;

    private String name;

    public InputStreamReaderRunnable(InputStream is, String name) {

        this.reader = new BufferedReader(new InputStreamReader(is));

        this.name = name;

    }

    public void run() {

        System.out.println("InputStream " + name + ":");

        try {

            String line = reader.readLine();

            while (line != null) {

                System.out.println(line);

                line = reader.readLine();

            }

            reader.close();

        } catch (IOException e) {

            e.printStackTrace();

        }

    }

}

利用SparkLauncher 类以JAVA API 编程的方式提交Spark job的更多相关文章

HDFS shell操作及HDFS Java API编程
HDFS shell操作及HDFS Java API编程 1.熟悉Hadoop文件结构. 2.进行HDFS shell操作. 3.掌握通过Hadoop Java API对HDFS操作. 4.了解Had ...
使用JAVA API编程实现简易Habse操作
使用JAVA API编程实现下面内容: 1.创建<王者荣耀>游戏玩家信息表gamer,包含列族personalInfo(个人信息).recordInfo(战绩信息).assetsInfo( ...
java模拟表单上传文件，java通过模拟post方式提交表单实现图片上传功能实例
java模拟表单上传文件,java通过模拟post方式提交表单实现图片上传功能实例HttpClient 测试类,提供get post方法实例 package com.zdz.httpclient; i ...
9. 使用ZooKeeper Java API编程
ZooKeeper是用Java开发的,3.4.6版本的Java API文档可以在http://zookeeper.apache.org/doc/r3.4.6/api/index.html上找到. Ti ...
RabbitMQ的Java API编程
1.创建Maven工程,pom.xml引入依赖: <dependency> <groupId>com.rabbitmq</groupId> <artifact ...
MyBatis(七)：mybatis Java API编程实现增、删、改、查的用法
最近工作中用到了mybatis的Java API方式进行开发,顺便也整理下该功能的用法,接下来会针对基本部分进行学习: 1)Java API处理一对多.多对一的用法: 2)增.删.改.查的用法: 3) ...
MyBatis(六)：Mybatis Java API编程实现一对多、一对一
最近工作中用到了mybatis的Java API方式进行开发,顺便也整理下该功能的用法,接下来会针对基本部分进行学习: 1)Java API处理一对多.多对一的用法: 2)增.删.改.查的用法: 3) ...
HBase环境搭建、shell操作及Java API编程
一. 1.掌握Hbase在Hadoop集群体系结构中发挥的作用和使过程. 2.掌握安装和配置HBase基本方法. 3.掌握HBase shell的常用命令. 4.使用HBase shell命令进行表的 ...
与HDFS交互- By java API编程
环境(ubuntu下) jdk eclipse jar(很烦,整了很久才清楚) - 导包方法查看:https://www.cnblogs.com/floakss/p/9739030.html ()” ...

随机推荐

【zheng环境准备】安装zookeeper
1.zookeeper下载 wget http://mirrors.hust.edu.cn/apache/zookeeper/zookeeper-3.4.13/zookeeper-3.4.13.tar ...
[转]pycharm active code
43B4A73YYJ-eyJsaWNlbnNlSWQiOiI0M0I0QTczWVlKIiwibGljZW5zZWVOYW1lIjoibGFuIHl1IiwiYXNzaWduZWVOYW1lIjoiI ...
Docker集群管理portainer的使用
1.Slave主机docker需要开启2375端口 ubuntu: sudo vim /etc/default/docker DOCKER_OPTS="-H=unix:///var/run/ ...
Nginx安装及配置免费HTTPS证书
第一步:安装Nginx 安装Nginx 第二步:安装HTTPS证书( Let's Encrypt) 安装HTTPS证书第三步骤:浏览器验证 Chrome浏览器打开开发者工具->Security ...
mysql8.0驱动问题
<dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</a ...
爬虫----爬虫请求库selenium
一介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作, ...
【PPT大放送】MPD软件工作坊北京站圆满落幕深圳站即将开幕！
MPD工作坊深圳站体验票开启啦!文末有彩蛋哦! 7月14日至15日,由麦思博(msup)有限公司举办的第40届MPD软件工作坊在北京国家会议中心举行. 麦思博(msup)有限公司一直专注于软件研发中心 ...
windows下批量生成文件夹
在windows环境下如果想要批量生成文件夹: 1.创建一个记事本文件 2.首行大写MD 3.后面加上你想创建的文件夹的名字,每个名字之间有空格 4.退出记事本并保存 5.将记事本文件后缀改为bat文 ...
vue $set的使用
在我们使用vue进行开发的过程中,可能会遇到一种情况:当生成vue实例后,当再次给数据赋值时,有时候并不会自动更新到视图上去: 当我们去看vue文档的时候,会发现有这么一句话:如果在实例创建之后添加新 ...
Abhyankar's Conjecture
http://www.math.purdue.edu/about/purview/spring95/conjecture.html A Layman's Perspective of Abhyanka ...

利用SparkLauncher 类以JAVA API 编程的方式提交Spark job

利用SparkLauncher 类以JAVA API 编程的方式提交Spark job的更多相关文章

随机推荐

热门专题