[spark]-Spark2.x集群搭建与参数详解
在前面的Spark发展历程和基本概念中介绍了Spark的一些基本概念,熟悉了这些基本概念对于集群的搭建是很有必要的。我们可以了解到每个参数配置的作用是什么。这里将详细介绍Spark集群搭建以及xml参数配置。Spark的集群搭建分为分布式与伪分布式,分布式主要是与hadoop Yarn集群配合使用,伪分布式主要是单独使用作为测试。
Spark完全分布式搭建
由于Hadoop和Spark集群占用的内存较高,这种完全分布式集群的搭建对于跑应用来说太吃力,如果有服务器可以尝试,这里采用虚拟机方式实验,详情请看我的博客园:Hadoop2.8与spark2.1集群搭建
这里是一个早前的实验,但是确实没有怎么使用,因为当时对参数没有做优化,也没有理解其中个参数的含义。所以跑应用很吃力,而且会非常卡。下面直接介绍其中的各个参数。
Spark配置参数详解
上一步配置Spark集群的时候我们使用了三个节点:一个Master ,两个Worker,我们启动脚本的时候就会启动三个守护进程,分别名为Master,worker,worker。
conf/slaves.xml配置:在这里我们指定哪些机器作为Worker节点。伪分布式的话不要配置,因为Master,worker会在一个节点上启动。
conf/spark-env.sh配置:核心配置文件,配置的是spark应用的运行环境,详细配置了各个组件的细节。下面是他的一些参数
| 参数 | 简介 |
|---|---|
| SPARK_MASTER_IP | 指定master进程所在的机器的ip地址 |
| SPARK_MASTER_PORT | 指定master监听的端口号(默认是7077) |
| SPARK_MASTER_WEBUIPORT | 指定master web ui的端口号(默认是8080) |
| SPARK_LOCAL_DIRS | 指spark的工作目录,包括了shuffle map输出文件,以及持久化到磁盘的RDD等 |
| SPARK_WORKER_PORT | worker节点的端口号,默认是随机的 |
| SPARK_WORKER_CORES | worker节点上,允许spark作业使用的最大cpu数量,默认是机器上所有的cpu core |
| SPARK_WORKER_MEMORY | worker节点上,允许spark作业使用的最大内存量,格式为1000m,2g等,默认最小是1g内存 |
| SPARK_WORKER_INSTANCES | 当前机器上的worker进程数量,默认是1,可以设置成多个,但是这时一定要设置SPARK_WORKER_CORES,限制每个worker的cpu数量 |
| SPARK_WORKER_DIR | spark作业的工作目录,包括了作业的日志等,默认是spark_home/work |
| SPARK_DAEMON_MEMORY | 分配给master和worker进程自己本身的内存,默认是1g |
| SPARK_PUBLISC_DNS | master和worker的公共dns域名,默认是空 |
其中一些参数跟我们单独启动master和worker进程的命令行参数后面添加参数是一样的,如:sbin/start-master.sh --port 7078(或--memory 500m),类似这种方式,可以指定一样的配置属性。我们可以在spark-evn.sh中就去配置好这些参数,但是有时候需要根据情况临时需改配置,我们就可以使用这种在启动Master/Worker脚本时,添加参数的方式来进行配置。通常还是在脚本spark-env.sh中配置好,脚本命令行参数通常用于临时的情况。
✌( •̀ ω •́ )也就是说,有些master和worker的配置,可以在spark-env.sh中部署时即配置,但是也可以在start-slave.sh脚本启动进程时命令行参数设置但是命令行参数的优先级比较高,会覆盖掉spark-env.sh中的配置。
| 参数 | 简介 |
|---|---|
| SPARK_MASTER_OPTS | 设置master的额外参数,使用"-Dx=y"设置各个参数 |
比如说export SPARK_MASTER_OPTS="-Dspark.deploy.defaultCores=1"
| 参数(x) | 默认值(y) | 简介 |
|---|---|---|
| spark.deploy.defaultCores | 无限大 | 每个spark作业最多在standalone集群中使用多少个cpu core,默认是无限大,有多少用多少 |
| spark.deploy.retainedApplications | 200 | 在spark web ui上最多显示多少个application的信息 |
| spark.deploy.retainedDrivers | 200 | 在spark web ui上最多显示多少个driver的信息 |
| spark.deploy.spreadOut | true | 资源调度策略,spreadOut会尽量将application的executor进程分布在更多worker上,适合基于hdfs文件计算的情况,提升数据本地化概率;非spreadOut会尽量将executor分配到一个worker上,适合计算密集型的作业 |
| spark.deploy.timeout | 60 | 单位秒,一个worker多少时间没有响应之后,master认为worker挂掉了 |
| 参数 | 简介 |
|---|---|
| SPARK_WORKEROPTS | worker的额外参数,使用"-Dx=y"设置各个参数 |
SPARK_WORKEROPTS的一些参数配置(x,y)如下:
| 参数(x) | 默认值(y) | 简介 |
|---|---|---|
| spark.worker.cleanup.enabled | false | 是否启动自动清理worker工作目录,默认是false |
| spark.worker.cleanup.interval | 1800 | 单位秒,自动清理的时间间隔,默认是30分钟 |
| spark.worker.cleanup.appDataTtl | 7 * 24 * 3600 | 默认将一个spark作业的文件在worker工作目录保留多少时间,默认是7天 |
| 参数 | 简介 |
|---|---|
| SPARK_DAEMON_JAVAOPTS | 设置master和worker自己的jvm参数,使用"-Dx=y"设置各个参数 |
这里一些内存相关的参数大家看过就明白了,为什么之前用分布式的集群,每个worker节点才1个g内存,根本是没有办法使用standalone模式和yarn模式运行作业的,仅仅是启动进程耗费的内存就已经非常严重了,其中一些内存分配不合理就会导致启动的时候资源分配失败.如果还要在Yarn模式上运行的话,Hadoop集群进程还会占用一部分内存。所以说Spark使用是非常消耗资源的。有时候资源也会成为性能的一个瓶颈。
[spark]-Spark2.x集群搭建与参数详解的更多相关文章
- Spark —— 高可用集群搭建
一.集群规划 这里搭建一个3节点的Spark集群,其中三台主机上均部署Worker服务.同时为了保证高可用,除了在hadoop001上部署主Master服务外,还在hadoop002和hadoop00 ...
- Spark高可用集群搭建
Spark高可用集群搭建 node1 node2 node3 1.node1修改spark-env.sh,注释掉hadoop(就不用开启Hadoop集群了),添加如下语句 export ...
- mongo 3.4分片集群系列之五:详解平衡器
这个系列大致想跟大家分享以下篇章: 1.mongo 3.4分片集群系列之一:浅谈分片集群 2.mongo 3.4分片集群系列之二:搭建分片集群--哈希分片 3.mongo 3.4分片集群系列之三:搭建 ...
- mongo 3.4分片集群系列之六:详解配置数据库
这个系列大致想跟大家分享以下篇章: 1.mongo 3.4分片集群系列之一:浅谈分片集群 2.mongo 3.4分片集群系列之二:搭建分片集群--哈希分片 3.mongo 3.4分片集群系列之三:搭建 ...
- spark完全分布式集群搭建
最近学习Spark,因此想把相关内容记录下来,方便他人参考,也方便自己回忆吧 spark开发环境的介绍资料很多,大同小异,很多不能一次配置成功,我以自己的实际操作过程为准,详细记录下来. 1.基本运行 ...
- spark教程(一)-集群搭建
spark 简介 建议先阅读我的博客 大数据基础架构 spark 一个通用的计算引擎,专门为大规模数据处理而设计,与 mapreduce 类似,不同的是,mapreduce 把中间结果 写入 hdfs ...
- Kafka_2.12-2.5.1集群搭建与参数调优
Kafka是目前业界使用最广泛的消息队列.数据流转常见这样的业务场景,客户端把采集到的日志推送给Kafka,业务方可以消费Kafka的数据落地HDFS,用于离线分析,也可以使用Spark或Flink消 ...
- spark学习7(spark2.0集群搭建)
第一步:安装spark 将官网下载好的spark-2.0.0-bin-hadoop2.6.tgz上传到/usr/spark目录下.这里需注意的是spark和hadoop有对应版本关系 [root@sp ...
- spark高可用集群搭建及运行测试
文中的所有操作都是在之前的文章spark集群的搭建基础上建立的,重复操作已经简写: 之前的配置中使用了master01.slave01.slave02.slave03: 本篇文章还要添加master0 ...
随机推荐
- No.101_第二次团队会议
时间的敲定 在这一次的会议中,明确了任务目标,将任务进行合理分配,并且规划了整个任务的时间节点,这对团队来说非常重要. 一.最终项目 在上一节课的时候,我们最终没有拿到学霸开发项目,最后爬虫也被选走了 ...
- 20162328蔡文琛 week09 大二
20162328蔡文琛 大二week09 教材学习内容总结 堆是一棵完全二叉树,其中每个元素大于等于其所有子节点的值. 向堆中添加一个元素的方法是,首先将这个元素添加为叶节点然后将其向上移动到合适的位 ...
- fullPage全屏高度自适应
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content ...
- 线程局部存储TLS(thread local storage)
同一全局变量或者静态变量每个线程访问的是同一变量,多个线程同时访存同一全局变量或者静态变量时会导致冲突,尤其是多个线程同时需要修改这一变量时,通过TLS机制,为每一个使用该全局变量的线程都提供一个变量 ...
- 三公网络监督平台APP上线,源代码出售。
- 配置高可用集群(实验) corosyne+pacemaker
环境准备: 一准备三个虚拟机,把/etc/hosts/文件配置好 192.168.43.9 node0 ...
- 第五周PSP&进度条
团队项目psp: 一.表格 C类型 C内容 S开始时间 E结束时间 I时间间隔 T净时间(mins) 预计花费时间(mins) 讨论 讨论用户界面 9:27 10:42 18 57 60 分析 ...
- 9th 学习博客:使用Codebloks实现C++的图形化界面
使用开发工具codeblocks,添加ResEdit.exe这个控件,可以很方便地进行图形化编辑,这是在网上找得教程,实现的是最基本的在对话框内添加按钮,并实现单击响应在控制台输出相应的文字. mai ...
- Thread start()方法和run()方法的区别
转自:http://www.cnblogs.com/skywang12345/p/3479083.html start():作用一个新的线程,新线程会执行相应的run()方法,start()不能被重复 ...
- 给表格控件DBGrid加上记录序号的列
DBGrid使用起来还是很方便的,但就是没有显示记录序号的功能,必须自己加,参照老外给的解决方案如下: 方案1: 1- 在DBGrid建一个第一列 (列的名字起“NO”) 2- 在DBGrid事件 D ...