spark thrift server configuration

# MainApplicationProperties

# --master yarn --deploy-mode client 下的配置， client 模式表示，driver 是在本地机器上跑的，thrift server 设置就是 client 模式，这样会方便从 driver 中拿数

# spark job 临时保存的目录

spark.local.dir                     /tmp

# spark YARN Application Master 申请的内存，这个中会保存查询返回的数据，所以设置的大一些比较好。

# dw02 因为本身内存比较小，所以这里设置4G

spark.yarn.am.memory                12g

# YARN Application Master 设置的核数，默认是1，但是不够用，在处理 broad cast 变量时候会出问题，这里设置为5.

spark.yarn.am.cores       5

#spark.kryoserializer.buffer.max     1024m

#spark.master                          spark://10.62.34.223:7077

# --master yarn --deploy-mode cluster 下的配置

# 对应 YARN Application Master 申请的 core

spark.driver.cores    3

# 对应 YARN Application Master 申请的 memory, 注意这个和 yarn container 分配的最小内存有关， container 如果是 8G， 这里设置为4G， 实际分配也是 8G

spark.driver.memory     12g

# 返回结果的最大容量，如果这里超出了 driver memory 或者 jvm 的设置，就会 OOM

spark.driver.maxResultSize    10g

# Shuffle Behavior

# 影响一个Spark Job 的主要因素还是 代码开发， 资源参数， 以及数据倾斜， shuffle调优只能在整个 Spark 性能调优中占到一小部分

# shuffle 开启压缩

spark.shuffle.compress                             true

# 该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小。将数据写到磁盘文件之前，会先写入buffer缓冲中，待缓冲写满之后，才会溢写到磁盘。

spark.shuffle.file.buffer                         64k

# 开启 External Shuffle Service ，避免 Executor 任务过重挂掉

spark.shuffle.service.enabled                     true

# shuffle 的 port

spark.shuffle.service.port                         7337

# 在 分割文件的时候 压缩数据

spark.shuffle.spill.compress                     true

# shuffle read task从shuffle write task所在节点拉取属于自己的数据时，如果因为网络异常导致拉取失败，是会自动进行重试的。该参数就代表了可以重试的最大次数。如果在指定次数之内拉取还是没有成功，就可能会导致作业执行失败。

spark.shuffle.io.maxRetries                       10

# retry 的重试时间

spark.shuffle.io.retryWait                       30s

# Compression

# 数据传输过程中进行序列化

spark.serializer                                org.apache.spark.serializer.KryoSerializer

# Spark UI,

# 每个Job的监控

spark.ui.enabled             true

spark.ui.port                 4040

spark.ui.killEnabled         true

# Execution Behavior

# 每个 Executor 申请的最小内存， 对应 YARN 的最小内存 8G， 这里就算比8G 小，申请下来的内存还是8G

spark.executor.memory                 8G

# 每个 Executor 的核数，默认为 1， 实际上为1 是不够用的，如果计算量大，就会失去响应，这里设置为2，如果还是出现没有响应，继续调大

spark.executor.cores                 2

# Scheduling

# FIFO 的资源分配模式

spark.scheduler.mode                              FIFO

# 开启预测, spark 会计算每个 task 跑的时间，如果某个 task 跑的太慢了，超出了预期，就会再启动一个相同的 task，看谁先跑完，谁先跑完，就用谁的计算结果。

# 如果出现 Lost task 239.0 in stage 144.0 (TID 398794, sha2hdpw17, executor 761): TaskKilled (another attempt succeeded)， 就代表这个 task 因为计算时间太长被干掉了。

spark.speculation                                true

# 执行间隔

spark.speculation.interval                        1000ms

# 任务完成

spark.speculation.quantile                        0.8

# 比其他的慢多少倍时启动推测, 设置为2 的时候，有太多的task 被 retry 了， 如果到 5 了还没跑完，可能是真的有问题了，当然也有可能是某个task 执行很复杂的计算。

# 总之，开启推测后，日志中不要经常出现 kill 信息，如果太经常了，说明设置的不好, 加大倍数，或者彻底关闭

spark.speculation.multiplier                    5

#Others

# 开启动态分配，如果 job 需要的资源多，会自动向 yarn 申请资源

# 注意啊，使用 spark streaming 最好不要开这个。

spark.dynamicAllocation.enabled                       true

# 动态分配，最小的 executors 个数

spark.dynamicAllocation.minExecutors                  3

# 最大分为 executors 个数

spark.dynamicAllocation.maxExecutors                  600

# 如果有 task 等待的时间超过了1S，就会申请资源

spark.dynamicAllocation.schedulerBacklogTimeout     1s

# 如果有 executor 超过 30s 没有被使用，就干掉

spark.dynamicAllocation.executorIdleTimeout          30s

# Spark Sql shuffle task 的并行度

spark.sql.shuffle.partitions                        400

# 增加 broadcast time out 的时间，默认是 300s，但是我们有的 broadcast join 会超过这个事件，这个时候任务就会失败

spark.sql.broadcastTimeout    6000

# 增加窗口文件的大小，避免产生过多的小文件

spark.sql.windowExec.buffer.spill.threshold 1500000

# spark 默认的通信时间是120s, 有的时候会出现超时，这里调增为300s

spark.network.timeout 300s

#AppName

#yarn 上指定队列的名字，注意不同的机器需要修改

spark.yarn.queue spark_123

spark thrift server configuration的更多相关文章

Spark Thrift Server
ThriftServer是一个JDBC/ODBC接口,用户可以通过JDBC/ODBC连接ThriftServer来访问SparkSQL的数据.ThriftServer在启动的时候,会启动了一个Spar ...
Spark SQL Thrift Server 配置 Kerberos身份认证和权限管理
转载请注明出处:http://www.cnblogs.com/xiaodf/ 之前的博客介绍了通过Kerberos + Sentry的方式实现了hive server2的身份认证和权限管理功能,本文主 ...
spark sql thrift server
### create data ## cat ## echo "$(date ;echo ## cat }'";exit}' ..} do passwd) echo "$ ...
「Spark」Spark SQL Thrift Server运行方式
Spark SQL可以使用JDBC/ODBC或命令行接口充当分布式查询引擎.这种模式,用户或者应用程序可以直接与Spark SQL交互,以运行SQL查询,无需编写任何代码. Spark SQL提供两种 ...
【原创】大数据基础之Spark（3）Spark Thrift实现原理及代码实现
spark 2.1.1 一启动命令启动spark thrift命令 $SPARK_HOME/sbin/start-thriftserver.sh 然后会执行 org.apache.spark.de ...
【原创】用python连接thrift Server 去执行sql的问题总汇
场景:python和现有产品的结合和应用——python的前瞻性调研环境:centos7 0.首先确保安装了python和pyhive,下面是连接代码: #!/usr/bin/env python ...
【原创】大叔问题定位分享（18）beeline连接spark thrift有时会卡住
spark 2.1.1 beeline连接spark thrift之后,执行use database有时会卡住,而use database 在server端对应的是 setCurrentDatabas ...
Zipkin Server Configuration Using Docker and MySQL[转]
Zipkin is a used for capturing timing data, it also has a centralized repository, and a microweb ser ...
Apache2.4：AH01630 client denied by server configuration
问题说明:Apache服务总共有4个,是为了防止单点故障和负载均衡,负载均衡控制由局方的F5提供. 访问的内容在NAS存储上,现象是直接访问每个apache的服务内容都是没有问题,但是从负载地址过来的 ...

随机推荐

Android 给WebView设置Cookie
最近项目中用到WebView访问新浪支付页面,有个要求是必须是登录状态,否则会报Token过期,然后我简单的将我从cookie中取得的ticket,即一串数字可以代表用户登录的唯一标识作为参数拼接到u ...
Android Finalizing a Cursor that has not been deactivated or closed
问题描述: 使用Sqlite数据库时,有时候会报下面的异常: Finalizing a Cursor that has not been deactivated or closed 一个光标没有被停用 ...
Hibernate框架学习(六)——一对多&多对一关系
一.关系表达 1.表中的表达 2.实体中的表达 3.orm元数据中的表达一对多:(在Customer.hbm.xml中添加) 多对一:(在LinkMan.hbm.xml中添加) 最后别忘了在hibe ...
Win10 UI入门 pivot multiable DataTemplate
this is a dynamic pivot with sliderable navigation and multiableDatatemplate Control 看了 alexis 大哥的pi ...
C#中方向键与回车键切换控件焦点
环境:界面上有TextBox,ComboBox等控件. 不建议把左右方向键都用来切换焦点,否则你在TextBox里面改变光标所在字符位置就不方便了. 方法一:笨方法,需为每个控件单独注册事件处理以T ...
使用RestTemplate上传文件给远程接口
MultiValueMap request = new LinkedMultiValueMap(1); ByteArrayResource is = new ByteArrayResource(mul ...
HDU 1756 Cupid's Arrow（判断点在多边形的内外）
链接:传送门思路:判断每支箭是否在多边形内,计算几何点定位中水题,不清楚下面的代码能不能适用于给定点的顺序不确定( 既不是顺时针又不是逆时针 ) /************************* ...
BZOJ 1878 HH的项链 (树状数组+离线)
题目大意:给你一个序列,求某区间出现不同的数的个数. 貌似离线树状数组是最好的解法先把所有询问挂在它们询问的右端点上然后从头到尾遍历这个序列,记录这个位置的值上一次出现的位置那么,当遍历到第i位 ...
Mysql干货收集
mysql优化:https://www.cnblogs.com/duanxz/tag/mysql/default.html?page=1
打包成ipa包
http://zengwu3915.blog.163.com/blog/static/27834897201362831449893/?suggestedreading&wumii Xcode ...

spark thrift server configuration

spark thrift server configuration的更多相关文章

随机推荐

热门专题