spark在集群上运行

1.spark在集群上运行应用的详细过程

（1）用户通过spark-submit脚本提交应用

（2）spark-submit脚本启动驱动器程序，调用用户定义的main()方法

（3）驱动器程序与集群管理器通信，申请资源以启动执行器节点

（4）集群管理器为驱动器程序启动执行器节点

（5）驱动器进程执行用户应用中的操作。根据程序中所定义的对RDD的转化操作和行动操作，驱动器节点把工作以任务的形式发送到执行器进程

（6）任务在执行器程序中进行计算并保存结果

（7）如果驱动器程序的main()方法退出，或者调用了SparkContext.stop()，驱动器程序会终止执行器进程，并且通过集群管理器释放资源

2.集群上运行的app和本地运行的区别

集群上运行的app,还没有指定master，而本地运行的app，指定了运行的主机master是“local”，即本地主机。以下是spark WordCount的程序实例，我们没有指定master，需要提交到集群上运行。

import scala.Tuple2;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaPairRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.FlatMapFunction;

import org.apache.spark.api.java.function.Function2;

import org.apache.spark.api.java.function.PairFunction;

import java.util.Arrays;

import java.util.List;

import java.util.regex.Pattern;

public final class WordCount {

    private static final Pattern SPACE = Pattern.compile(" ");

    public static void main(String[] args) throws Exception {

        SparkConf sparkConf = new SparkConf().setAppName("JavaWordCount");//关键是没有指定master，需要提交到集群上运行

        JavaSparkContext ctx = new JavaSparkContext(sparkConf);

        JavaRDD<String> lines = ctx.textFile("C:\\test.txt", 1);

        JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {

            public Iterable<String> call(String s) {

                return Arrays.asList(SPACE.split(s));

            }

        });

        JavaPairRDD<String, Integer> ones = words.mapToPair(new PairFunction<String, String, Integer>() {

            public Tuple2<String, Integer> call(String s) {

                return new Tuple2<String, Integer>(s, 1);

            }

        });

        JavaPairRDD<String, Integer> counts = ones.reduceByKey(new Function2<Integer, Integer, Integer>() {

            public Integer call(Integer i1, Integer i2) {

                return i1 + i2;

            }

        });

        List<Tuple2<String, Integer>> output = counts.collect();

        for (Tuple2<?,?> tuple : output) {

            System.out.println(tuple._1() + ": " + tuple._2());

        }

        ctx.stop();

    }

}

3.使用spark-submit部署应用

（1）spark-submit的一般形式

bin/spark-submit [options] <app jar | python file> [app options]

<app jar | python file> 表示包含应用入口的JAR包或者Python脚本

[app options] 是传给你的应用的选项

spark-submit的一些常见标记

标记	描述
--master	表示要连接的集群管理器
--deploy-mode	选择在本地启动驱动器程序，还是在集群中的一台工作节点机器上启动。在客户端模式下，spark-submit会将驱动器程序运行在spark-submit被调用的这台机器上。在集群模式下，驱动器程序会被传输并被执行于集群的一个工作节点上，默认是本地模式。
--class	运行Java或者Scala程序应用的主类
--name	应用的显示名，会显示在spark的网页用户界面中
--jars	需要上传并放在应用的CLASSPATH中的JAR包的雷彪。如果应用依赖于少量第三方的jar包，可以把它们放在这个参数中
--files	需要放在应用工作目录中的文件雷彪。这个参数一般用来放需要分发到各节点的数据文件
--py-files	需添加到PYTHONPATH中的文件的雷彪。其中可以包含.py /.egg以及.zip文件
--executor-memory	执行器进程使用的内存量，以字节为单位，可以使用后缀指定更大的单位，比如512M或者15g
--driver-memory	驱动器进程使用的内存量，以字节为单位。可以使用后缀指定更大的单位，比如512m或者15g

使用各种选项调用spark-submit

./bin/spark-submit

--master spark:// hostname:7077

--deploy-mode cluster

--class com.databricks.examples.SparkExample

--name "Example program"

--jars dep1.jar,dep2.jar,dep3.jar

--total-executor-core 300

--executor-memory 10g

4.选择合适的集群管理器

(1)如果是从零开始，可以先选择独立集群管理器。独立模式安装起来最简单，而且如果你只是使用spark的话，独立集群管理器提供与其他集群管理器完全一样的全部功能。

(2)如果你要在使用spark的同时使用其他应用，或者是要用到更丰富的资源调度功能(例如队列)，那么YARN和Mesos都能满足你的需求。而在这两者中，对于大多数的hadoop发行版来说，一般YARN已经预装好了。

(3)Mesos相对于YARN和独立模式的一大优点在于其细粒度共享的选项，该选项可以将类似Spark shell这样的交互式应用中的不同命令分配到不同的CPU上。因此这对于多用户同时运行交互式shell的用例更有用处。

(4)在任何时候，最好把Spark运行在运行HDFS的节点还是那个，这样能快速访问存储。你可以自行在同样的节点上安装Mesos或独立集群管理器。如果使用YARN的话，大多数发行版已经把YARN和HDFS安装在了一起。

spark在集群上运行的更多相关文章

4. Spark在集群上运行
*以下内容由<Spark快速大数据分析>整理所得. 读书笔记的第四部分是讲的是Spark在集群上运行的知识点. 一.Spark应用组件介绍二.Spark在集群运行过程三.Spark配置 ...
Spark学习之在集群上运行Spark
一.简介 Spark 的一大好处就是可以通过增加机器数量并使用集群模式运行,来扩展程序的计算能力.好在编写用于在集群上并行执行的 Spark 应用所使用的 API 跟本地单机模式下的完全一样.也就是说 ...
Eclipse提交代码到Spark集群上运行
Spark集群master节点: 192.168.168.200 Eclipse运行windows主机: 192.168.168.100 场景: 为了测试在Eclipse上开发的代码在Spa ...
在集群上运行Spark
Spark 可以在各种各样的集群管理器(Hadoop YARN.Apache Mesos,还有Spark 自带的独立集群管理器)上运行,所以Spark 应用既能够适应专用集群,又能用于共享的云计算环境 ...
[Spark Core] 在 Spark 集群上运行程序
0. 说明将 IDEA 下的项目导出为 Jar 包,部署到 Spark 集群上运行. 1. 打包程序 1.0 前提搭建好 Spark 集群,完成代码的编写. 1.1 修改代码 [添加内容,判断参数 ...
将java开发的wordcount程序提交到spark集群上运行
今天来分享下将java开发的wordcount程序提交到spark集群上运行的步骤. 第一个步骤之前,先上传文本文件,spark.txt,然用命令hadoop fs -put spark.txt /s ...
06、部署Spark程序到集群上运行
06.部署Spark程序到集群上运行 6.1 修改程序代码修改文件加载路径在spark集群上执行程序时,如果加载文件需要确保路径是所有节点能否访问到的路径,因此通常是hdfs路径地址.所以需要修改 ...
Spark学习之在集群上运行Spark（6）
Spark学习之在集群上运行Spark(6) 1. Spark的一个优点在于可以通过增加机器数量并使用集群模式运行,来扩展程序的计算能力. 2. Spark既能适用于专用集群,也可以适用于共享的云计算 ...
在local模式下的spark程序打包到集群上运行
一.前期准备前期的环境准备,在Linux系统下要有Hadoop系统,spark伪分布式或者分布式,具体的教程可以查阅我的这两篇博客: Hadoop2.0伪分布式平台环境搭建 Spark2.4.0伪分 ...

随机推荐

IMosaicWorkspaceExtensionHelper
Provides a helper for working with a mosaic dataset workspace extension. Product Availability Availa ...
C#入门经典第十章类的成员-1
类成员的访问级别 public 成员可以由任何代码访问,公共的. private 私有的,成员只能有类中的代码访问.(默认的关键字) internal 内部的,成员只能有定义它的程序集(项目)内部 ...
Phaser小游戏
本来今天打算阅读AngularJs源代码的,但是上头下来了任务,做个小霸王上面的那种接金蛋的游戏,想象最近系统的学习了一下gulp和之前熟悉了一遍的Phaser,于是就打算用这两个东西一起来做个dem ...
转：使用WITH AS提高性能简化嵌套SQL
使用WITH AS提高性能简化嵌套SQL 一．WITH AS的含义 WITH AS短语,也叫做子查询部分(subquery factoring),可以让你做很多事情,定义一个SQL片断,该SQL片 ...
docker 容器日志集中 ELK + filebeat
docker 容器日志集中 ELK ELK 基于 ovr 网络下 docker-compose.yaml version: '2' networks: network-test: external: ...
简单三段式状态机实验2-LCD12864
此实验是在“基于I2C EPPRPM(AT24C02B) + LCD12864实验”基础上,把LCD模块里的一段式状态机改成三段式,I2C EPPROM模块暂时未改出来,一步一步来吧,改完后代码下载到 ...
关于js的几道经典题（作用域、原型链等）自己做的
1. function test() { var a = 1; setTimeout(function() { alert(a); a = 3; }, 1000); a = 2; setTimeout ...
STM8不用手动复位进入自带Bootloader方法（串口下载）
源:STM8不用手动复位进入自带Bootloader方法(串口下载) STM8不用手动复位进入自带Bootloader方法(串口下载)除非STM8片子的空的,如果复位运行的是自带Bootloader, ...
提示：ArcGIS version not specified. You must call RuntimeManager.Bind before creating any ArcGIS components.错误
ArcGIS10,然后就使用VS创建一个简单的AE应用程序,然后拖放一个toolbar.LicenseControl以及MapControl控件. 接着编译应用程序,编译成功. 然后单击F5运行程序, ...
在线演示红黑树（javascript）
在线演示地址:http://sandbox.runjs.cn/show/2nngvn8w 有点遗憾,本想实现个很棒的功能,就是红黑树每次“变形”的时候,做个“快照”,“变形”了几次就“快照”几次.方便 ...

spark在集群上运行

spark在集群上运行的更多相关文章

随机推荐

热门专题