spark调优经验（待续）

spark调优是须要依据业务须要调整的，并非说某个设置是一成不变的，就比方机器学习一样，是在不断的调试中找出当前业务下更优的调优配置。以下零碎的总结了一些我的调优笔记。

spark 存储的时候存在严重的分配不均的现象，有几台机器在过渡使用，有几台机器却非常少被使用。有几台机器缓存了几十个上百个RDD blocks 有的机器一个RDD blocks 都没有。这样存储有RDD blocks 的能够进行运算。运算的tasks 最多为该机器core数。

spark.storage.memoryFraction 分配给用于缓存RDD的内存的比例

比方假设spark.executor.memory 30g spark.storage.memoryFraction 0.5 则用于缓存的内存为14G 多。默认留一些做其它用。

每个RDD blocks 的大小不一定是64兆可能小于64兆，另外假设driver不是子节点，driver 程序执行的节点上的用于缓存的内存，就不会被使用。

其实一个两三G 的数据须要用的缓存也至少须要两三G。假设中间过程中还有产生RDD 且也须要缓存到内存。则须要分配很多其它的内存用于缓存。

在缓存足够多的情况的

很多其它的内存不足错误提示(OOM) 来源于计算的时候产生的一些中间对象即计算所须要的内存。

所以分配用于缓存的内存应该是这么算的。比方我有10G的文件，4台机器。则每台机器至少2.5g缓存，假设每台机器分配给excutor 的内存为10g ，则memoryFraction 则至少为0.25 最好配大一些。但不能太大，太大会导致计算内存不够。

并且假设中间过程还有产生新的RDD。则须要依据实际情况调大memoryFraction。

RDD 缓存分布不均匀是影响spark 的非常大的性能之中的一个。为什么这么说？

由于有的机器分配给用于RDD 缓存的内存都用完了，这样相对而言在这个机器上计算的开销也会大，有的机器缓存占用的内存非常少。就算用这个机器来计算，还须要启动Node_local 模式。这样会影响计算的时间。

调优过程也遇到了一些问题，还没解决，比方：

为什么一个2G 的数据。默认块大小为64M. default.parallelism 设置成100，可它总是不按这个数据来分，比方常常分成了108个blocks，影响partions个数的參数还有哪些？还有我明明有四个节点，但常常有节点被分配的RDD 和计算都非常少非常少，这样的资源浪费的情况应该怎么调解？

spark调优经验（待续）的更多相关文章

【Spark学习】Apache Spark调优
Spark版本:1.1.0 本文系以开源中国社区的译文为基础,结合官方文档翻译修订而来,转载请注明以下链接: http://www.cnblogs.com/zhangningbo/p/4117981. ...
【Spark调优】提交job资源参数调优
[场景] Spark提交作业job的时候要指定该job可以使用的CPU.内存等资源参数,生产环境中,任务资源分配不足会导致该job执行中断.失败等问题,所以对Spark的job资源参数分配调优非常重要 ...
【Spark调优】Shuffle原理理解与参数调优
[生产实践经验] 生产实践中的切身体会是:影响Spark性能的大BOSS就是shuffle,抓住并解决shuffle这个主要原因,事半功倍. [Shuffle原理学习笔记] 1.未经优化的HashSh ...
【Spark调优】大表join大表，少数key导致数据倾斜解决方案
[使用场景] 两个RDD进行join的时候,如果数据量都比较大,那么此时可以sample看下两个RDD中的key分布情况.如果出现数据倾斜,是因为其中某一个RDD中的少数几个key的数据量过大,而另一 ...
【Spark调优】小表join大表数据倾斜解决方案
[使用场景] 对RDD使用join类操作,或者是在Spark SQL中使用join语句时,而且join操作中的一个RDD或表的数据量比较小(例如几百MB或者1~2GB),比较适用此方案. [解决方案] ...
【Spark调优】数据倾斜及排查
[数据倾斜及调优概述] 大数据分布式计算中一个常见的棘手问题——数据倾斜: 在进行shuffle的时候,必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或j ...
【Spark调优】Broadcast广播变量
[业务场景] 在Spark的统计开发过程中,肯定会遇到类似小维表join大业务表的场景,或者需要在算子函数中使用外部变量的场景(尤其是大变量,比如100M以上的大集合),那么此时应该使用Spark的广 ...
【Spark调优】Kryo序列化
[Java序列化与反序列化] Java序列化是指把Java对象转换为字节序列的过程:而Java反序列化是指把字节序列恢复为Java对象的过程.序列化使用场景:1.数据的持久化,通过序列化可以把数据永久 ...
【翻译】Spark 调优 (Tuning Spark) 中文版
由于Spark自己的调优guidance已经覆盖了很多很有价值的点,因此这里直接翻译一份过来.也作为一个积累. Spark 调优 (Tuning Spark) 由于大多数Spark计算任务是在内存中运 ...

随机推荐

LoadRunner 一参多用
LoadRunner参数化后的值在脚本中多处位置引用(LoadRunner 一参多用) LoadRunner的参数化给了我们很多便利,但是当一个脚本中同一个值出现多处,并且值都是一致的.这个时候, ...
阿里云修改CentOS Linux服务器的主机名
阿里云主机的默认主机名是为AY开头的随机名称,如何修改为易于区分的友好名称呢?请看下面的操作步骤: 1. vi /etc/hosts i键,修改主机名,esc键,:wq键保存退出 2. vi /etc ...
JAVAEE——宜立方商城12：购物车实现、订单确认页面展示
1. 学习计划第十二天: 1.购物车实现 2.订单确认页面展示 2. 购物车的实现 2.1. 功能分析 1.购物车是一个独立的表现层工程. 2.添加购物车不要求登录.可以指定购买商品的数量. 3.展 ...
Oracle 默认的几个登陆用户名和密码
默认用户有这么几个,system,sys,scott,hr ,一般scott 和hr 作为你的练习用户.system的默认密码是 manager sys的默认密码是 change_on_install ...
内容播放colorbox
1.需要的js (1)jquery (2)colorbox (http://www.jacklmoore.com/colorbox/ 下载文件夹,其中有js.css文件) //加载的时候注意文件的路径 ...
模型构建<1>:模型评估-分类问题
对模型的评估是指对模型泛化能力的评估,主要通过具体的性能度量指标来完成.在对比不同模型的能力时,使用不同的性能度量指标可能会导致不同的评判结果,因此也就意味着,模型的好坏只是相对的,什么样的模型是较好 ...
CF597C Subsequences 树状数组 + 动态规划
设$f(i, j)$表示以$i$结尾的,长为$j$的上升子序列的数量转移时用树状数组维护即可复杂度为$O(kn \log n)$ 注:特判0 #include <cstdio> #in ...
java设计模式（六）策略模式
适用于同一操作的不同行为,策略模式定义了一系列的算法,并将每一个算法封装起来,而且使它们可以相互替换,让算法独立于使用它的客户而独立变化,具体应用场景如第三方支付对接不同银行的算法. 要点:1)抽象策 ...
Java中的Runnable、Callable、Future、FutureTask的区别
本文转载自:http://blog.csdn.net/bboyfeiyu/article/details/24851847 Runnable 其中Runnable应该是我们最熟悉的接口,它只有一个ru ...
拆分Cocos2dx渲染部分代码
纹理实现思想这个是Cocos2dx的渲染部分的最基本的实现,被我拆分到mac上,但是并不是用的EGLContext,而是搭配glfw,还有soil第三方图形库. 实现 // // main.cpp ...

spark调优经验（待续）

spark调优经验（待续）的更多相关文章

随机推荐

热门专题