Spark 配置整理

Spark 的配置有很多，这里一方面总结一下官方文档中的内容，一方面将网上查到的资料中用到的针对特定问题的配置整理一下。

先看一下官网的配置：http://spark.apache.org/docs/latest/configuration.html

spark 配置可分为三层： spark properties、environment variables、还有logging

spark properties 是由用户自己设置的，在任务中通过 SparkConf 类设置：

val conf = new SparkConf()
.setMaster("local")
.setAppName("CountingSheep")
.set("spark.executor.memory", "1g")val sc = new SparkContext(conf)

或者 你可以通过提交命令设置，这个时候 SparkConf 对象就不设置相关配置：

./bin/spark-submit --name "My app" --master local[4] --conf spark.shuffle.spill=false
--conf "spark.executor.extraJavaOptions=-XX:+PrintGCDetails -XX:+PrintGCTimeStamps" myApp.jar

在提交作业的时候能设置哪些配置呢？可以通过 bin/spark-submit --help 查看

spark-submit 还会加载 conf/spark-defaults.conf 中的配置

spark.master spark://5.6.7.8:7077
spark.executor.memory 512m
spark.eventLog.enabled true
spark.serializer org.apache.spark.serializer.KryoSerializer

如何查看已经配置的配置项？
http://Spark-master:ui-port/history/application-id/environment/
需要关注的一些设置：

spark.executor.memory 默认 512M，设置executor 的 jvm的内存大小

spark.executor.extraJavaOptions 额外的jvm设置，比如说gc策略，但是这里不能设置 jvm 的内存大小

spark.executor.extraLibraryPath 设置额外的executor运行lib目录

spark.shuffle.consolidateFiles 默认 false ，如果设置成true，能够整合shuffle阶段产生的中间文件，当reduce任务比较多的时候能提高性能

spark.shuffle.spill 默认true，与下面的配置配合使用，用来限制shuffle阶段，reduce占用内存的大小，如果超过内存限制就将数据刷到磁盘

spark.shuffle.memoryFraction 默认 0.2，如果上面的配置设置为true，shuffle阶段的内存占用总的内存的比例，如果超过这个比例，就将数据存到磁盘上。如果经常将数据刷到磁盘，可以将这个比例提高。

spark.shuffle.spill.compress 默认为true，shuffle阶段将中间结果刷入磁盘是否压缩

spark.shuffle.compress 默认为true，shuffle阶段中间结果是否压缩，这两种压缩都是使用的：spark.io.compression.codec 压缩算法

spark.shuffle.file.buffer.kb 默认32，每一个在内存中的shuffle file的大小，不把中间文件都刷到磁盘，可以减少对磁盘的seek和系统调用

spark.reducer.maxMbInFlight 默认48，对于reduce端，默认的会有5个线程负责拉取shuffle的中间结果，这5个线程分享这48M的内存的缓冲空间。如果内存不太大，最好设置的小一点。

spark.shuffle.manager 默认HASH，表示使用hash-based shuffle 算法，对于spark1.1版本，可以使用SORT，sort-based shuffle

spark.eventLog.enabled 默认false，记录spark events，当application运行结束，可用于重建 web ui

spark.eventLog.dir 默认 /tmp/spark-events，如果spark.eventLog.enabled 为true，用来存放event log的地址，可以设置成hdfs的目录

spark.io.compression.codec 默认 snappy，spark用到的压缩地方统一的压缩算法，三种可选配置：org.apache.spark.io.LZ4CompressionCodec,org.apache.spark.io.LZFCompressionCodec,
org.apache.spark.io.SnappyCompressionCodec

spark.default.parallelism 不同的模式使用的默认值不同，一般情况默认为2，使用到shuffle的任务，比如groupByKey、reduceByKey，如果用户没有设置并行度，则使用这个配置的默认并行度
spark.akka.frameSize 默认10，单位兆，akka传递消息的最大值，如果你的任务需要将比较大的结果传给driver，可以提高这个值，比如说在比较大的数据集上调用.collect()

spark.akka.threads 默认4，用于akka通信的线程数，如果集群比较大，机器内核比较多，可以增大这个值

spark.task.cpus 默认1，每个task分配的cpu

spark.task.maxFailures 默认4，task重试的次数

spark.scheduler.mode 默认FIFO，同一个SparkContext提交的jobs之间使用的调度策略，可以设置成FAIR

spark.locality.wait 默认3000，单位毫秒，为了起一个data local 的任务可以等待的时间。

spark.scheduler.revive.interval 默认 1000，单位毫秒，调度器激活task运行的时间间隔

对于在YARN集群上运行spark任务，还有一些特殊的配置需要注意：

spark.yarn.submit.file.replication 默认3，提交到yarn上的任务所需要的jar或者文件的副本数

spark.yarn.preserve.staging.files 默认false，如果设成true，将在任务运行完保存spark相关文件，比如 spark jar，app jar

spark.yarn.executor.memoryOverhead 默认384，单位兆，executor 分配的jvm内存，显然有点小

spark.yarn.driver.memoryOverhead 默认384，单位兆，driver的内存，也有点小

spark.yarn.jar 放spark jar文件的路径，当提交spark任务到yarn的时候，会将spark的jar和app的jar拷贝到hdfs的app的目录中，但是每一个任务都会用到spark的jar或者一些共用的jar包，所以，把这些共用jar包放到一个公共的位置，这样就省的每个任务都提交一次。例如：hdfs://some/path

Spark 配置整理的更多相关文章

【Spark学习】Apache Spark配置
Spark版本:1.1.1 本文系从官方文档翻译而来,转载请尊重译者的工作,注明以下链接: http://www.cnblogs.com/zhangningbo/p/4137969.html Spar ...
Spark配置&启动脚本分析
本文档基于Spark2.0,对spark启动脚本进行分析. date:2016/8/3 author:wangxl Spark配置&启动脚本分析我们主要关注3类文件,配置文件,启动脚本文件以 ...
spark2.2.1安装、pycharm连接spark配置
一.单机版本Spark安装 Win10下安装Spark2.2.1 1. 工具准备 JDK 8u161 with NetBeans 8.2: http://www.oracle.com/technetw ...
Spark 配置参数
SparkConfiguration 这一章节来看看 Spark的相关配置. 并非仅仅能够应用于 SparkStreaming, 而是对于 Spark的各种类型都有支持. 各个不同. 其中中文参考链接 ...
SSH（struts+spring+hibernate）常用配置整理
SSH(struts+spring+hibernate)常用配置整理 web.xml配置 <?xml version="1.0" encoding="UTF-8&q ...
Spark配置参数详解
以下是整理的Spark中的一些配置参数,官方文档请参考Spark Configuration. Spark提供三个位置用来配置系统: Spark属性:控制大部分的应用程序参数,可以用SparkConf ...
Code First 关系配置整理
之前EF一直有性能问题以及使用便利性问题, 终于到了EF6有了Migrations之后, 小弟也决定加入EF阵营了. 在学习FluentAPI配置关系的时候, 发现网上的好几个教程实际上博主自己都没有 ...
[bigdata] Spark RDD整理
1. RDD是什么RDD:Spark的核心概念是RDD (resilient distributed dataset),指的是一个只读的,可分区的弹性分布式数据集,这个数据集的全部或部分可以缓存在内存 ...
Spark配置参数调优
1．配置多个executor 在项目中,由于数据量为几百万甚至千万级别,如果一个executor装载的对象过多,会导致GC很慢.项目中,我们使一个worker节点执行app时启动多个executor, ...

随机推荐

7.10实习培训日志-markdown Git
父模块github地址一. markdown 1. markdown列表 html是一种发布的格式,markdown是一种书写的格式区块引用列表图片表格 html 标题记笔记写博客 2. ...
HDU - 5950 Recursive sequence（二项式+矩阵合并+矩阵快速幂）
Recursive sequence Farmer John likes to play mathematics games with his N cows. Recently, they are a ...
CodeForces - 633B A Trivial Problem 数论-阶乘后缀0
A Trivial Problem Mr. Santa asks all the great programmers of the world to solve a trivial problem. ...
win10怎样彻底关闭windows Defender
首先,我们在电脑中需要进入注册表编辑器进行修改,win10电脑进入windows Defender可以有两种方式,第一种是通过电脑自带的小娜进入,第二种则是常规的win加r. 不管使用哪种方式,首 ...
ASP.NETCORE MVC模块化
ASP.NETCORE MVC模块化编程前言记得上一篇博客中跟大家分享的是基于ASP.NETMVC5,实际也就是基于NETFRAMEWORK平台实现的这么一个轻量级插件式框架.那么今天我主要分享的 ...
三、python的基本类型
一.number 整数 int 浮点数 float 1.type()查看类型 >>> type(1) <class 'int'> >>> type(1. ...
洛谷P4407 [JSOI2009]电子字典
题目描述人们在英文字典中查找某个单词的时候可能不知道该单词的完整拼法,而只知道该单词的一个错误的近似拼法,这时人们可能陷入困境,为了查找一个单词而浪费大量的时间.带有模糊查询功能的电子字典能够从一定 ...
Acwing 98-分形之城
98. 分形之城城市的规划在城市建设中是个大问题. 不幸的是,很多城市在开始建设的时候并没有很好的规划,城市规模扩大之后规划不合理的问题就开始显现. 而这座名为 Fractal 的城市设想了这样 ...
Etherscan API 中文文档-账号
本文原文链接点击这里获取Etherscan API 中文文档(完整版) 完整内容排版更好,推荐读者前往阅读. 账号(Account) 账号及地址相关的 API,接口的参数说明请参考Etherscan ...
Django + Vue cli 3.0 访问静态资源问题
[问题背景] 用Vue clie 3.0的搭建得框架把我坑死了,在打包后,调用不到静态资源js,css,mp3等 [问题原因] vue cli 3.0打包后,dist目录下没有static目录,而Dj ...

Spark 配置整理

Spark 配置整理的更多相关文章

随机推荐

热门专题