spark调优经验（待续）

spark调优是须要依据业务须要调整的，并非说某个设置是一成不变的，就比方机器学习一样，是在不断的调试中找出当前业务下更优的调优配置。以下零碎的总结了一些我的调优笔记。

spark 存储的时候存在严重的分配不均的现象，有几台机器在过渡使用，有几台机器却非常少被使用。有几台机器缓存了几十个上百个RDD blocks 有的机器一个RDD blocks 都没有。这样存储有RDD blocks 的能够进行运算。运算的tasks 最多为该机器core数。

spark.storage.memoryFraction 分配给用于缓存RDD的内存的比例

比方假设spark.executor.memory 30g spark.storage.memoryFraction 0.5 则用于缓存的内存为14G 多。默认留一些做其它用。

每个RDD blocks 的大小不一定是64兆可能小于64兆，另外假设driver不是子节点，driver 程序执行的节点上的用于缓存的内存，就不会被使用。

其实一个两三G 的数据须要用的缓存也至少须要两三G。假设中间过程中还有产生RDD 且也须要缓存到内存。则须要分配很多其它的内存用于缓存。

在缓存足够多的情况的

很多其它的内存不足错误提示(OOM) 来源于计算的时候产生的一些中间对象即计算所须要的内存。

所以分配用于缓存的内存应该是这么算的。比方我有10G的文件，4台机器。则每台机器至少2.5g缓存，假设每台机器分配给excutor 的内存为10g ，则memoryFraction 则至少为0.25 最好配大一些。但不能太大，太大会导致计算内存不够。

并且假设中间过程还有产生新的RDD。则须要依据实际情况调大memoryFraction。

RDD 缓存分布不均匀是影响spark 的非常大的性能之中的一个。为什么这么说？

由于有的机器分配给用于RDD 缓存的内存都用完了，这样相对而言在这个机器上计算的开销也会大，有的机器缓存占用的内存非常少。就算用这个机器来计算，还须要启动Node_local 模式。这样会影响计算的时间。

调优过程也遇到了一些问题，还没解决，比方：

为什么一个2G 的数据。默认块大小为64M. default.parallelism 设置成100，可它总是不按这个数据来分，比方常常分成了108个blocks，影响partions个数的參数还有哪些？还有我明明有四个节点，但常常有节点被分配的RDD 和计算都非常少非常少，这样的资源浪费的情况应该怎么调解？

spark调优经验（待续）的更多相关文章

【Spark学习】Apache Spark调优
Spark版本:1.1.0 本文系以开源中国社区的译文为基础,结合官方文档翻译修订而来,转载请注明以下链接: http://www.cnblogs.com/zhangningbo/p/4117981. ...
【Spark调优】提交job资源参数调优
[场景] Spark提交作业job的时候要指定该job可以使用的CPU.内存等资源参数,生产环境中,任务资源分配不足会导致该job执行中断.失败等问题,所以对Spark的job资源参数分配调优非常重要 ...
【Spark调优】Shuffle原理理解与参数调优
[生产实践经验] 生产实践中的切身体会是:影响Spark性能的大BOSS就是shuffle,抓住并解决shuffle这个主要原因,事半功倍. [Shuffle原理学习笔记] 1.未经优化的HashSh ...
【Spark调优】大表join大表，少数key导致数据倾斜解决方案
[使用场景] 两个RDD进行join的时候,如果数据量都比较大,那么此时可以sample看下两个RDD中的key分布情况.如果出现数据倾斜,是因为其中某一个RDD中的少数几个key的数据量过大,而另一 ...
【Spark调优】小表join大表数据倾斜解决方案
[使用场景] 对RDD使用join类操作,或者是在Spark SQL中使用join语句时,而且join操作中的一个RDD或表的数据量比较小(例如几百MB或者1~2GB),比较适用此方案. [解决方案] ...
【Spark调优】数据倾斜及排查
[数据倾斜及调优概述] 大数据分布式计算中一个常见的棘手问题——数据倾斜: 在进行shuffle的时候,必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或j ...
【Spark调优】Broadcast广播变量
[业务场景] 在Spark的统计开发过程中,肯定会遇到类似小维表join大业务表的场景,或者需要在算子函数中使用外部变量的场景(尤其是大变量,比如100M以上的大集合),那么此时应该使用Spark的广 ...
【Spark调优】Kryo序列化
[Java序列化与反序列化] Java序列化是指把Java对象转换为字节序列的过程:而Java反序列化是指把字节序列恢复为Java对象的过程.序列化使用场景:1.数据的持久化,通过序列化可以把数据永久 ...
【翻译】Spark 调优 (Tuning Spark) 中文版
由于Spark自己的调优guidance已经覆盖了很多很有价值的点,因此这里直接翻译一份过来.也作为一个积累. Spark 调优 (Tuning Spark) 由于大多数Spark计算任务是在内存中运 ...

随机推荐

loadrunner运行时设置中清空缓存方法
用函数web_cache_clearup()或run-time settings---browser emulation 把clear cache on each iteration打勾 W v\] ...
MemSQL Start[c]UP 2.0 - Round 1 F - Permutation 思维+线段树维护hash值
F - Permutation 思路:对于当前的值x, 只需要知道x + k, x - k这两个值是否出现在其左右两侧,又因为每个值只有一个, 所以可以转换成,x+k, x-k在到x所在位置的时候是否 ...
linux下根目录扩容
划分出一个磁盘,并将其格式化 [root@gg ~]# mkfs.ext3 /dev/sdb2 创建一个物理卷 [root@gg ~]# pvcreate /dev/sdb2 [roo ...
Python下opencv使用笔记(图像的平滑与滤波)
对于图形的平滑与滤波,但从滤波角度来讲,一般主要的目的都是为了实现对图像噪声的消除,增强图像的效果. 对于2D图像可以进行低通或者高通滤波操作低通滤波(LPF):有利于去噪,模糊图像高通滤波(HP ...
2011年入侵 Kernel.org 的黑客被捕面临10年监禁
2011年中旬,Linux内核官网kernel.org遭到黑客入侵,攻击者植入了rootkit Phalanx,并在服务器上设置了SSH后门,kernel.org为此关闭了三周多时间.官方表示将会公开 ...
POJ2104 K-th Number [整体二分]
题目传送门 K-th Number Time Limit: 20000MS Memory Limit: 65536K Total Submissions: 69053 Accepted: 24 ...
交换机高级特性MUX VLAN
MUX VLAN 基本概念 lMUX VLAN(Multiplex VLAN)提供了一种通过VLAN进行网络资源控制的机制. 例如,在企业网络中,企业员工和企业客户可以访问企业的服务器. 对于企业来说 ...
Qt Quick快速入门之qml布局
Qml里面布局主要有两种,锚点布局.Grid布局. 锚点布局使用anchors附件属性将一个元素的边定位到另一个元素的边,从而确定元素的位置和大小.下面是示例 import QtQuick 2.3 i ...
【20181103T2】图【结论+bfs最短路】
一眼最短路 --感觉是个结论啊建超级源汇? 什么鬼合并ab和cd? 不一样的吗开始想的至少有一条路径是最短路然后发现不对: 开始对着这个图瞎想从B开始找A的最短路,然后把到B小于等于的边赋成 ...
BZOJ 1174 [Balkan2007]Toponyms（Trie）
[题目链接] http://www.lydsy.com/JudgeOnline/problem.php?id=1174 [题目大意] 选出一些字符串,使得字符串的最长公共前缀*字符串的总个数最大化 [ ...

spark调优经验（待续）

spark调优经验（待续）的更多相关文章

随机推荐

热门专题