spark性能调优--jvm调优（转）

一.问题切入

调用spark 程序的时候，在获取数据库连接的时候总是报内存溢出错误

（在ideal上运行的时候设置jvm参数 -Xms512m -Xmx1024m -XX:PermSize=512m -XX:MaxPermSize=1024M，不会报错）

二.jvm参数和 saprk 参数和内存四区解读

1.内存四区

1、栈区（stack）：由编译器自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中的栈。

2、堆区（heap：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式倒是类似于链表。

3、数据区：主要包括静态全局区和常量区，如果要站在汇编角度细分的话还可以分为很多小的区。

全局区（静态区）（static）：全局变量和静态变量的存储是放在一块的，初始化的全局变量和静态变量在一块区域，未初始化的全局变量和未初始化的静态变量在相邻的另一块区域。程序结束后有系统释放

常量区：常量字符串就是放在这里的。程序结束后由系统释放

4、代码区：存放函数体的二进制代码。

参考： http://blog.csdn.net/wu5215080/article/details/38899259

2.jvm 参数

-Xms512m -Xmx1024m-XX:PermSize=512m -XX:MaxPermSize=1024M

-Xms JVM初始分配的堆内存默认是设备物理内存的 1/64

-Xmx JVM最大允许分配的堆内存，按需分配默认是设备物理内存的 1/4

-XX:PermSize JVM初始分配的非堆内存默认是设备物理内存的 1/64

-XX:MaxPermSize JVM最大允许分配的非堆内存默认是设备物理内存的 1/4

参考： http://www.cnblogs.com/mingforyou/archive/2012/03/03/2378143.html

3.spark参数

-- driver-memory ： driver运行的内存大小，默认1G driver：sparkcontext ，sqlContext等运行的地方， sparkcontext ，sqlContext 一般运行在栈内存

-- executor-memory : executor的内存大小，默认1G executor： rdd 等运行的地方 ,rdd 一般运行在栈内存

conf spark.storage.memoryFraction=0.3 spark用于缓存rdd的内存百分比(剩下的内存用来保证任务运行时各种其它内存空间的需要)，默认0.6（和运行在堆或栈没有关系）

得出：

栈内存正比于 driver-memory : 内存被 sparkcontext，sqlContext 等固定占用，和数据库连接没有多大关系

栈内存正比于 executor-memory ； executor-memory 分两种： rdd 和其他（包含获取获取数据库连接的内存）

三.问题分析和解决

方向：增大executor-memory 和减小 conf spark.storage.memoryFraction 的值 ,根据具体环境而定

命令方式：

nohup spark-submit \

--masteryarn \

--executor-memory 1024M \

--confspark.storage.memoryFraction=0.3 \

--classcom.xiaopeng.bi.gamepublish.GamePublishKpi \

/home/hduser/projs/xiaopeng_bi.jar60 >> /home/hduser/projs/logs/gamepublishkpi.log &

代码方式：

val sparkConf = newSparkConf().setAppName(this.getClass.getName.replace("$",""))

.set("spark.default.parallelism", "60") // 1. 调节并行度

.set("spark.serializer","org.apache.spark.serializer.KryoSerializer") // 3.序列化方式

.set("spark.shuffle.consolidateFiles", "true")// 4. shuffle 过程中合并小文件

.set("spark.storage.memoryFraction", "0.4");// 5.cache占用的内存占比

.set("spark.sql.shuffle.partitions", "60")// 6.shuffle 时 partion的个数
---------------------
作者：kequanjade
原文：https://blog.csdn.net/keyuquan/article/details/72629605

spark性能调优--jvm调优（转）的更多相关文章

Spark性能优化：开发调优篇
1.前言在大数据计算领域,Spark已经成为了越来越流行.越来越受欢迎的计算平台之一.Spark的功能涵盖了大数据领域的离线批处理.SQL类处理.流式/实时计算.机器学习.图计算等各种不同类型的计算 ...
spark调优——JVM调优
对于JVM调优,首先应该明确,(major)full gc/minor gc,都会导致JVM的工作线程停止工作,即stop the world. JVM调优一:降低cache操作的内存占比 1. ...
（转）Spark性能优化：资源调优篇
在开发完Spark作业之后,就该为作业配置合适的资源了.Spark的资源参数,基本都可以在spark-submit命令中作为参数设置.很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何 ...
【转载】 Spark性能优化：资源调优篇
在开发完Spark作业之后,就该为作业配置合适的资源了.Spark的资源参数,基本都可以在spark-submit命令中作为参数设置.很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置 ...
Spark性能优化：资源调优篇（转）
在开发完Spark作业之后,就该为作业配置合适的资源了.Spark的资源参数,基本都可以在spark-submit命令中作为参数设置.很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置 ...
Spark性能优化--数据倾斜调优与shuffle调优
一.数据倾斜发生的原理原理:在进行shuffle的时候,必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或join等操作.此时如果某个key对应的数据量特 ...
Spark性能优化：shuffle调优
调优概述大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO.序列化.网络数据传输等操作.因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行 ...
Spark性能优化：资源调优篇
在开发完Spark作业之后,就该为作业配置合适的资源了.Spark的资源参数,基本都可以在spark-submit命令中作为参数设置.很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置 ...
java性能调优---------------------JVM调优方案
JVM的调优的主要过程有: 1.确定堆内存大小(-Xmx.-Xms) 2.合理分配新生代和老年代(-XX:NewRatio.-Xmn.-XX:SurvivorRatio) 3.确定永久区大小(-XX: ...

随机推荐

关于js的值传递和引用传递
最近在弄一个东西,明明就很简单的.不知道为啥有个坑,双向绑定,不过当有个数组为空时,它不会发送空的数组,而是不发送.这就坑爹了.导致老是删不掉. 处理了下,改成验证为空时,发送'[]‘字符串.成功.但 ...
数组、栈、堆(java基础知识五)
1.数组概述.定义格式 * A:数组概念数组是存储同一种数据类型多个元素的集合.也可以看成是一个容器. 数组既可以存储基本数据类型,也可以存储引用数据类型. * B:数组定义格式格式1:数据类型[ ...
java24点算法
输入任意的四个数,求出所有能得到二十四点的算式,不过我是菜鸟,可能性能方面不好,希望各位多多指教1. [代码][Java]代码 import java.util.ArrayList;impo ...
html5--6-14 CSS3中的颜色表示方式
html5--6-14 CSS3中的颜色表示方式实例每个参数 (red.green 以及 blue) 定义颜色的强度,可以是介于 0 与 255 之间的整数,或者是百分比值(从 0% 到 100% ...
最浅谈的SG函数
[更新] Nim游戏的经验: 每次最多取m个——%(m+1) 阶梯nim——奇数位无视,看偶数位互相独立,成一堆一堆的石子 . . . . 既然被征召去汇总算法..那么挑个简单点的SG函数好了.. 介 ...
1 model的创建
extJs数据模型之Model博客分类: ExtJs 1 model的创建 //我们利用Ext.define来创建我们的模型类 //DB table person(name,age,email) ...
RESTEasy使用json返回的例子
创建一个json的model类: package com.howtodoinjava.model; import java.io.Serializable; import javax.xml.bind ...
hdu5829 Rikka with Subset
首先考虑本题的$O(n^2)$做法. $Part1$ 对原序列从大到小排序后,考虑每个数字对最终答案的贡献,有第x个数字对答案的贡献十分难以计算,所以考虑计算数字x是集合第K大的方案数,作为数字x对$ ...
HDU 5878 I Count Two Three (预处理+二分查找)
题意:给出一个整数nnn, 找出一个大于等于nnn的最小整数mmm, 使得mmm可以表示为2a3b5c7d2^a3^b5^c7^d2a3b5c7d. 析:预处理出所有形为2a3 ...
NYOJ3——多边形重心问题
多边形重心问题时间限制:3000 ms | 内存限制:65535 KB 难度:5 描述:在某个多边形上,取n个点,这n个点顺序给出,按照给出顺序将相邻的点用直线连接, (第一个和最后一个连接) ...

spark性能调优--jvm调优（转）

spark性能调优--jvm调优（转）的更多相关文章

随机推荐

热门专题