spark thrift server configuration
# MainApplicationProperties
# --master yarn --deploy-mode client 下的配置, client 模式表示,driver 是在本地机器上跑的,thrift server 设置就是 client 模式,这样会方便从 driver 中拿数
# spark job 临时保存的目录
spark.local.dir /tmp
# spark YARN Application Master 申请的内存,这个中会保存查询返回的数据,所以设置的大一些比较好。
# dw02 因为本身内存比较小,所以这里设置4G
spark.yarn.am.memory 12g
# YARN Application Master 设置的核数,默认是1,但是不够用,在处理 broad cast 变量时候会出问题,这里设置为5.
spark.yarn.am.cores 5
#spark.kryoserializer.buffer.max 1024m
#spark.master spark://10.62.34.223:7077
# --master yarn --deploy-mode cluster 下的配置
# 对应 YARN Application Master 申请的 core
spark.driver.cores 3
# 对应 YARN Application Master 申请的 memory, 注意这个和 yarn container 分配的最小内存有关, container 如果是 8G, 这里设置为4G, 实际分配也是 8G
spark.driver.memory 12g
# 返回结果的最大容量,如果这里超出了 driver memory 或者 jvm 的设置,就会 OOM
spark.driver.maxResultSize 10g
# Shuffle Behavior
# 影响一个Spark Job 的主要因素还是 代码开发, 资源参数, 以及数据倾斜, shuffle调优只能在整个 Spark 性能调优中占到一小部分
# shuffle 开启压缩
spark.shuffle.compress true
# 该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小。将数据写到磁盘文件之前,会先写入buffer缓冲中,待缓冲写满之后,才会溢写到磁盘。
spark.shuffle.file.buffer 64k
# 开启 External Shuffle Service ,避免 Executor 任务过重挂掉
spark.shuffle.service.enabled true
# shuffle 的 port
spark.shuffle.service.port 7337
# 在 分割文件的时候 压缩数据
spark.shuffle.spill.compress true
# shuffle read task从shuffle write task所在节点拉取属于自己的数据时,如果因为网络异常导致拉取失败,是会自动进行重试的。该参数就代表了可以重试的最大次数。如果在指定次数之内拉取还是没有成功,就可能会导致作业执行失败。
spark.shuffle.io.maxRetries 10
# retry 的重试时间
spark.shuffle.io.retryWait 30s
# Compression
# 数据传输过程中进行序列化
spark.serializer org.apache.spark.serializer.KryoSerializer
# Spark UI,
# 每个Job的监控
spark.ui.enabled true
spark.ui.port 4040
spark.ui.killEnabled true
# Execution Behavior
# 每个 Executor 申请的最小内存, 对应 YARN 的最小内存 8G, 这里就算比8G 小,申请下来的内存还是8G
spark.executor.memory 8G
# 每个 Executor 的核数,默认为 1, 实际上为1 是不够用的,如果计算量大,就会失去响应,这里设置为2,如果还是出现没有响应,继续调大
spark.executor.cores 2
# Scheduling
# FIFO 的资源分配模式
spark.scheduler.mode FIFO
# 开启预测, spark 会计算每个 task 跑的时间,如果某个 task 跑的太慢了,超出了预期,就会再启动一个相同的 task,看谁先跑完,谁先跑完,就用谁的计算结果。
# 如果出现 Lost task 239.0 in stage 144.0 (TID 398794, sha2hdpw17, executor 761): TaskKilled (another attempt succeeded), 就代表这个 task 因为计算时间太长被干掉了。
spark.speculation true
# 执行间隔
spark.speculation.interval 1000ms
# 任务完成
spark.speculation.quantile 0.8
# 比其他的慢多少倍时启动推测, 设置为2 的时候,有太多的task 被 retry 了, 如果到 5 了还没跑完,可能是真的有问题了,当然也有可能是某个task 执行很复杂的计算。
# 总之,开启推测后,日志中不要经常出现 kill 信息,如果太经常了,说明设置的不好, 加大倍数,或者彻底关闭
spark.speculation.multiplier 5
#Others
# 开启动态分配,如果 job 需要的资源多,会自动向 yarn 申请资源
# 注意啊,使用 spark streaming 最好不要开这个。
spark.dynamicAllocation.enabled true
# 动态分配,最小的 executors 个数
spark.dynamicAllocation.minExecutors 3
# 最大分为 executors 个数
spark.dynamicAllocation.maxExecutors 600
# 如果有 task 等待的时间超过了1S,就会申请资源
spark.dynamicAllocation.schedulerBacklogTimeout 1s
# 如果有 executor 超过 30s 没有被使用,就干掉
spark.dynamicAllocation.executorIdleTimeout 30s
# Spark Sql shuffle task 的并行度
spark.sql.shuffle.partitions 400
# 增加 broadcast time out 的时间,默认是 300s,但是我们有的 broadcast join 会超过这个事件,这个时候任务就会失败
spark.sql.broadcastTimeout 6000
# 增加窗口文件的大小,避免产生过多的小文件
spark.sql.windowExec.buffer.spill.threshold 1500000
# spark 默认的通信时间是120s, 有的时候会出现超时,这里调增为300s
spark.network.timeout 300s
#AppName
#yarn 上指定队列的名字,注意不同的机器需要修改
spark.yarn.queue spark_123
spark thrift server configuration的更多相关文章
- Spark Thrift Server
ThriftServer是一个JDBC/ODBC接口,用户可以通过JDBC/ODBC连接ThriftServer来访问SparkSQL的数据.ThriftServer在启动的时候,会启动了一个Spar ...
- Spark SQL Thrift Server 配置 Kerberos身份认证和权限管理
转载请注明出处:http://www.cnblogs.com/xiaodf/ 之前的博客介绍了通过Kerberos + Sentry的方式实现了hive server2的身份认证和权限管理功能,本文主 ...
- spark sql thrift server
### create data ## cat ## echo "$(date ;echo ## cat }'";exit}' ..} do passwd) echo "$ ...
- 「Spark」Spark SQL Thrift Server运行方式
Spark SQL可以使用JDBC/ODBC或命令行接口充当分布式查询引擎.这种模式,用户或者应用程序可以直接与Spark SQL交互,以运行SQL查询,无需编写任何代码. Spark SQL提供两种 ...
- 【原创】大数据基础之Spark(3)Spark Thrift实现原理及代码实现
spark 2.1.1 一 启动命令 启动spark thrift命令 $SPARK_HOME/sbin/start-thriftserver.sh 然后会执行 org.apache.spark.de ...
- 【原创】用python连接thrift Server 去执行sql的问题总汇
场景:python和现有产品的结合和应用——python的前瞻性调研 环境:centos7 0.首先确保安装了python和pyhive,下面是连接代码: #!/usr/bin/env python ...
- 【原创】大叔问题定位分享(18)beeline连接spark thrift有时会卡住
spark 2.1.1 beeline连接spark thrift之后,执行use database有时会卡住,而use database 在server端对应的是 setCurrentDatabas ...
- Zipkin Server Configuration Using Docker and MySQL[转]
Zipkin is a used for capturing timing data, it also has a centralized repository, and a microweb ser ...
- Apache2.4:AH01630 client denied by server configuration
问题说明:Apache服务总共有4个,是为了防止单点故障和负载均衡,负载均衡控制由局方的F5提供. 访问的内容在NAS存储上,现象是直接访问每个apache的服务内容都是没有问题,但是从负载地址过来的 ...
随机推荐
- spring-boot系列:(一)整合dubbo
spring-boot-2整合dubbo 新框架学习,必须上手干.书读百遍,其义自见. 本文主要介绍spring-boot-2整合dubbo,使用xml配置实现一个provider和consumer. ...
- 当安装了ubuntu操作系统怎么也调用不出中文输入法时,可以用以下方式尝试解决。
卸载 fcitx sudo apt-get remove fcitx 重启 sudo reboot 重新安装 fcitxsudo apt-get isntall fcitx 安装拼音输入法sudo a ...
- 编译安装FFmpeg 要支持xvid、x264、mp3、ogg、amr、faac
编译安装FFmpeg 要支持xvid.x264.mp3.ogg.amr.faac libfaac faac格式的编解码包libmp3lame mp3格式编解码包libopencore-am ...
- FluentAPI关系映射配置
都有哪几种关系? 1vs多,多vs多 1. 概念or关系映射相关方法: 1) 基本套路:this.Has***(o=>o.AAA).With***() 当前这个表和AAA属性的表关系是Has定义 ...
- 关于C语言中EOF的一点认识
总结来说:EOF(即End Of File)是一个文件结束的标记,当文件被读取到EOF位置时,参与读取的函数会返回整型值 -1,这时要注意的是:这个值被赋值给有符号char类型时是0xff,被赋值给有 ...
- linux系统管理-软件包管理
概述: inux家族中的软件包管理有很多工具. 一种是在debiton系列的linux中,以像ubuntu的apt-get为代表.对于此种方式的管理方式,个人感觉挺简单方便的, 一种是在Fedora和 ...
- mysql中redo和binlog的区别
影响MySQL中redo的配置参数: innodb_log_file_size:指定每个redo日志大小,默认值48MB innodb_log_files_in_group:指定日志文件组中redo日 ...
- Git diff 代码比较的高级技巧
Git diff 代码比较的高级技巧 作者:offbye 出处:http://blog.csdn.net/offbye/article/details/6592563 Git是使用branch来管理不 ...
- POJ 1743 [USACO5.1] Musical Theme (后缀数组+二分)
洛谷P2743传送门 题目大意:给你一个序列,求其中最长的一对相似等长子串 一对合法的相似子串被定义为: 1.任意一个子串长度都大于等于5 2.不能有重叠部分 3.其中一个子串可以在全部+/-某个值后 ...
- Myeclipse关闭JS等文件的验证
点击 window > 右键单击properties,弹出properties界面 然后选择MyEclipse->validation->Excluded Resource下找到不需 ...