一.问题切入

调用spark 程序的时候,在获取数据库连接的时候总是报  内存溢出 错误

(在ideal上运行的时候设置jvm参数 -Xms512m -Xmx1024m -XX:PermSize=512m -XX:MaxPermSize=1024M,不会报错)

二.jvm参数 和 saprk 参数 和内存四区 解读

1.内存四区

1、栈区(stack):由编译器自动分配释放 ,存放函数的参数值,局部变量的值等。其操作方式类似于数据结构中的栈。

2、堆区(heap:一般由程序员分配释放, 若程序员不释放,程序结束时可能由OS回  收 。注意它与数据结构中的堆是两回事,分配方式倒是类似于链表。

3、数据区:主要包括静态全局区和常量区,如果要站在汇编角度细分的话还可以分为很多小的区。

全局区(静态区)(static):全局变量和静态变量的存储是放在一块的,初始化的全局变量和静态变量在一块区域,未初始化的全局变量和未初始化的静态变量在相邻的  另一块区域。 程序结束后有系统释放

常量区:常量字符串就是放在这里的。 程序结束后由系统释放

4、代码区:存放函数体的二进制代码。

参考: http://blog.csdn.net/wu5215080/article/details/38899259

2.jvm 参数

-Xms512m -Xmx1024m-XX:PermSize=512m -XX:MaxPermSize=1024M

-Xms                            JVM初始分配的堆内存                                               默认是设备物理内存的 1/64

-Xmx                            JVM最大允许分配的堆内存,按需分配                        默认是设备物理内存的 1/4

-XX:PermSize               JVM初始分配的非堆内存                                            默认是设备物理内存的 1/64

-XX:MaxPermSize        JVM最大允许分配的非堆内存                                      默认是设备物理内存的 1/4

参考: http://www.cnblogs.com/mingforyou/archive/2012/03/03/2378143.html

3.spark参数

-- driver-memory : driver运行的内存大小,默认1G  driver:sparkcontext ,sqlContext等运行的地方, sparkcontext ,sqlContext 一般运行在栈内存

-- executor-memory : executor的内存大小,默认1G   executor: rdd 等运行的地方 ,rdd 一般运行在栈内存

conf spark.storage.memoryFraction=0.3     spark用于缓存rdd的内存百分比(剩下的内存用来保证任务运行时各种其它内存空间的需要),默认0.6(和运行在堆或栈没有关系)

得出:

栈内存   正比于 driver-memory : 内存被 sparkcontext,sqlContext 等固定占用,和数据库连接没有多大关系

栈内存  正比于  executor-memory ;  executor-memory 分两种: rdd 和其他(包含获取获取 数据库连接的内存)

三.问题分析和解决

方向:增大executor-memory 和减小 conf spark.storage.memoryFraction 的值 ,根据具体环境而定

命令方式:

nohup spark-submit \

--masteryarn  \

--executor-memory 1024M \

--confspark.storage.memoryFraction=0.3 \

--classcom.xiaopeng.bi.gamepublish.GamePublishKpi \

/home/hduser/projs/xiaopeng_bi.jar60 >> /home/hduser/projs/logs/gamepublishkpi.log &

代码方式:

val sparkConf = newSparkConf().setAppName(this.getClass.getName.replace("$",""))

.set("spark.default.parallelism", "60") //  1. 调节并行度

.set("spark.serializer","org.apache.spark.serializer.KryoSerializer") // 3.序列化方式

.set("spark.shuffle.consolidateFiles", "true")// 4. shuffle 过程中  合并小文件

.set("spark.storage.memoryFraction", "0.4");// 5.cache占用的内存占比

.set("spark.sql.shuffle.partitions", "60")// 6.shuffle 时 partion的个数
---------------------
作者:kequanjade
原文:https://blog.csdn.net/keyuquan/article/details/72629605

spark性能调优--jvm调优(转)的更多相关文章

  1. Spark性能优化:开发调优篇

    1.前言 在大数据计算领域,Spark已经成为了越来越流行.越来越受欢迎的计算平台之一.Spark的功能涵盖了大数据领域的离线批处理.SQL类处理.流式/实时计算.机器学习.图计算等各种不同类型的计算 ...

  2. spark调优——JVM调优

    对于JVM调优,首先应该明确,(major)full gc/minor gc,都会导致JVM的工作线程停止工作,即stop the world. JVM调优一:降低cache操作的内存占比 1.   ...

  3. (转)Spark性能优化:资源调优篇

      在开发完Spark作业之后,就该为作业配置合适的资源了.Spark的资源参数,基本都可以在spark-submit命令中作为参数设置.很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何 ...

  4. 【转载】 Spark性能优化:资源调优篇

    在开发完Spark作业之后,就该为作业配置合适的资源了.Spark的资源参数,基本都可以在spark-submit命令中作为参数设置.很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置 ...

  5. Spark性能优化:资源调优篇(转)

    在开发完Spark作业之后,就该为作业配置合适的资源了.Spark的资源参数,基本都可以在spark-submit命令中作为参数设置.很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置 ...

  6. Spark性能优化--数据倾斜调优与shuffle调优

    一.数据倾斜发生的原理 原理:在进行shuffle的时候,必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或join等操作.此时如果某个key对应的数据量特 ...

  7. Spark性能优化:shuffle调优

    调优概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO.序列化.网络数据传输等操作.因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行 ...

  8. Spark性能优化:资源调优篇

    在开发完Spark作业之后,就该为作业配置合适的资源了.Spark的资源参数,基本都可以在spark-submit命令中作为参数设置.很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置 ...

  9. java性能调优---------------------JVM调优方案

    JVM的调优的主要过程有: 1.确定堆内存大小(-Xmx.-Xms) 2.合理分配新生代和老年代(-XX:NewRatio.-Xmn.-XX:SurvivorRatio) 3.确定永久区大小(-XX: ...

随机推荐

  1. ${varname:-defaultvalue}

    ${varname:-defaultvalue}的意思是:如果varname存在且非null,则返回其值:否则,返回defaultvalue. 用途:如果变量未定义,则返回默认值.

  2. 【CQ18阶梯赛第一场】题解

    [A-风格不统一如何写程序] 输入字符串,得到长度,对于每个字符:如果是大写,则改为:‘_’+小写:如果是‘_’则忽略‘_’,并且把后面的小写改为大写. #include<cstdio> ...

  3. C#使用SendMessage发送组合键

    有时需要出发菜单功能,例如发送ALT + F打开应用程序的文件菜单,如何使用SendMessage实现呢? 使用用spy++截取的ALT+F的消息内容(如何使用spy++,请熟悉的高手指点下,我使用s ...

  4. 【旧文章搬运】遍历EPROCESS中的ActiveProcessLinks枚举进程

    原文发表于百度空间,2008-7-25========================================================================== 前面对PEB ...

  5. c#操作rabbitmq

    今天将会介绍如果使用rabbitmq进行简单的消息入队,出队操作,因为本文演示的环境要用到上文中配置的环境,所以要运行本文sample,请先按上一篇中完成相应环境配置.         首先,我们下载 ...

  6. 国产免费的visio替代品edraw mind map,用来话流程图够用了

    最新版Edraw Mind Map可以创建基本的思维导图.气泡图和基本流程图,提供了强大的设计功能,包括丰富设计素材.全面的页面布局定义.预置的符号库与绘图工具等.创建的图形,可以导出为常用图像格式. ...

  7. 一个坑爹的Swift报错原因分析与解决方案

    有时候在实际开发中,完全没有任何问题.但是一到实机测试,就会直接卡机   let count = scoreStorage.count return scoreStorage[Int(arc4rand ...

  8. HDU6031:Innumerable Ancestors(二分+倍增数组)

    传送门 题意 n个点的图,有n-1条无向边,m个询问,每次询问 给出两个集合a和b,找到a的一个元素x,b的一个元素y,使得x和y的lca深度最大 分析 这道题如果直接暴力做,复杂度为O(mk1k2* ...

  9. PTA 2-1 列出连通集【DFS+BFS基础】

    给定一个有N个顶点和E条边的无向图,请用DFS和BFS分别列出其所有的连通集.假设顶点从0到N−1编号.进行搜索时,假设我们总是从编号最小的顶点出发,按编号递增的顺序访问邻接点. 输入格式: 输入第1 ...

  10. Java 在线反编译

    使用jd-gui反编译java提示 // INTERNAL ERROR // 的类,用在线反编译直接反编译.class http://www.showmycode.com/