Spark 参数配置的几种方法

1.Spark 属性
Spark应用程序的运行是通过外部参数来控制的，参数的设置正确与否，好与坏会直接影响应用程序的性能，也就影响我们整个集群的性能。参数控制有以下方式：
（1）直接设置在SparkConf，通过参数的形式传递给SparkContext，达到控制目的。（通过set()方法传入key-value对）比如：

val conf = new SparkConf()

  　　　　.setMaster(”local[]“) #注意1

  　　　　.setAppName(”test“)

  　　　　.set("spark.cores.max", "")  ######set()方法传入属性参数

val sc = new SparkContext(conf)

#注意1 本地开启2个线程来工作，注意了，本地工作方式除了集合生成RDD、读取本地文件和hdfs文件能开启一个线程就可以工作外，其他情况都开启至少两条线程才能正常工作。这是由于除以上情况，Spark会开启一个reciver来接受数据，若只有一条线程，reciver就占用唯一线程的资源，而数据处理等操作将没有资源可执行。

（2）动态加载Spark属性。为了应用程序名字和集群方式等属性不硬编码，灵活应用。可以这样处理：val sc = new SparkContext(new SparkConf())。通过 spark-submit 时添加必要的参数。如：

./bin/spark-submit --name "My app" --master local[] --conf spark.eventLog.enabled=false

          --conf "spark.executor.extraJavaOptions=-XX:+PrintGCDetails -XX:+PrintGCTimeStamps" myApp.jar

方法是：通过 --conf 标志，并在后面以key-value对的形式传入属性参数。

（3）在conf/spark-defaults.conf 定义必要的属性参数，Spark在启动时，SparkContext会自动加载此配置文件的属性。定义方式是：

 spark.master            spark://master:7077

 spark.executor.memory   4g

 spark.eventLog.enabled  true

 spark.serializer        org.apache.spark.serializer.KryoSerializer    #这里选用此序列化方法，是因为Java自带序列化方法性能一般，在此优化优化。

一切外部传给Spark应用程序的属性参数，最终与SparkConf里定义的值结合。Spark加载属性参数的优先顺序是：
   （1）直接在SparkConf设置的属性参数
   （2）通过 spark-submit 或 spark-shell 方式传递的属性参数
   （3）最后加载 spark-defaults.conf 配置文件的属性参数
当然了，既然有优先顺序之分，也就是说优先级高的会覆盖优先级低的参数。

2.查看应用程序的属性参数
http://<driver>:4040
此UI界面将会列出了Spark的属性，方便我们查看应用程序的属性参数，在性能调优时结合master UI非常有用。

Spark 参数配置的几种方法的更多相关文章

Spring3 MVC请求参数获取的几种方法
Spring3 MVC请求参数获取的几种方法一. 通过@PathVariabl获取路径中的参数 @RequestMapping(value="user/{id}/{name}&q ...
获取网页URL地址及参数等的两种方法(js和C#)
转:获取网页URL地址及参数等的两种方法(js和C#) 一 js 先看一个示例用javascript获取url网址信息 <script type="text/javascript&q ...
Spring3 MVC请求参数获取的几种方法[转]
Spring3 MVC请求参数获取的几种方法 Spring3 MVC请求参数获取的几种方法一. 通过@PathVariabl获取路径中的参数 @RequestMapping(value=& ...
Spark参数配置
转自:http://hadoop1989.com/2015/10/08/Spark-Configuration/ 一.Spark参数设置二.查看Spark参数设置三.Spark参数分类四.Spa ...
【Java】java数据库连接池配置的几种方法
今天遇到了关于数据源连接池配置的问题,发现有很多种方式可以配置,现总结如下,希望对大家有所帮助:(已Mysql数据库为例) 一,Tomcat配置数据源: 方式一:在WebRoot下面建文件夹META- ...
yum源配置的三种方法
(一)yum源概述 yum需要一个yum库,也就是yum源.默认情况下,CentOS就有一个yum源.在/etc/yum.repos.d/目录下有一些默认的配置文件(可以将这些文件移到/opt下,或者 ...
FPGA的EPCS 配置的2种方法 FPGA下载程序的方法（EPCS）
使用主动串行配置模式对Cyclone FPGA进行配置前,必须将配置文件写入串行配置器件EPCS.将配置文件写入EPCS的方法有三种: (1)在Quartus II的Programmer中,通过专门与 ...
Linux系统下安装jdk及环境配置（两种方法）
https://blog.csdn.net/qq_42815754/article/details/82968464 这里介绍两种linux环境下jdk的安装以及环境配置方法在windows系统安装j ...
Mybatis 传入多个参数查询数据 (3种方法)
第一种方案 DAO层的函数方法 public User selectUser(String name,String area); 对应的Mapper.xml <select id="s ...

随机推荐

GIS-001-gdal软件下载地址
http://www.gisinternals.com/ http://download.gisinternals.com/sdk/downloads/release-1600-x64-gdal-1- ...
storm中的基本概念
Storm是一个流计算框架,处理的数据是实时消息队列中的,所以需要我们写好一个topology逻辑放在那,接收进来的数据来处理,所以是通过移动数据平均分配到机器资源来获得高效率. Storm的优点是全 ...
hasattr() 、getattr() 、setattr()
hasattr(object, name) :用于判断一个对象中是否有指定的属性或方法,如果存在返回 True,否则返回 False getattr(object, name, [default]) ...
eclipse启动错误
1.错误日志 !SESSION 2013-12-09 12:24:33.826 -----------------------------------------------eclipse.build ...
关于Ethread的一些研究
环境 win764 以TP为例 ring3保护它会在windbg断下这个时候我们需要拿到当前线程对象应该到当前使用的CPU的地址 _KPRCB-> CurrentThread 就是当前线 ...
java高级---->Thread之CountDownLatch的使用
CountDownLatch是JDK 5+里面闭锁的一个实现,允许一个或者多个线程等待某个事件的发生.今天我们通过一些实例来学习一下它的用法. CountDownLatch的简单使用 CountDow ...
The 70th problem，UVa10396 Vampire Numbers
今天看Thinking in Java看到一个吸血鬼数的问题,于是查找UVa里也有类似的问题就动手写了先是用Java写的,不过WA了两次,然后没有发现错误,又用c++写的还是不行.最后发现要排序去重. ...
WEB安全第六篇--千里之外奇袭客户端：XSS和HTML注入
零.前言最近做专心web安全有一段时间了,但是目测后面的活会有些复杂,涉及到更多的中间件.底层安全.漏洞研究与安全建设等越来越复杂的东东,所以在这里想写一个系列关于web安全基础以及一些讨巧的pay ...
批量远程执行linux服务器程序--基于pxpect(多进程、记日志版)
#!/usr/bin/python '''Created on 2015-06-09@author: Administrator''' import pexpect import os,sys fro ...
Python - 3.6 学习二
Python 的高级特性切片对于指定索引范围取值的操作,Python提供了slice方法,类似于Excel中数据透视表的切片器. >>> L = ['Michael', 'Sar ...

Spark 参数配置的几种方法

Spark 参数配置的几种方法的更多相关文章

随机推荐

热门专题