spark分片个数的确定及Spark内存错误(GC error)的迂回解决方式

我们知道，spark中每个分片都代表着一部分数据，那么分片数量如何被确认的呢？

首先我们使用最常见的HDFS+Spark，sparkDeploy的方式来讨论，spark读取HDFS数据使用的是sparkcontext.textfile(Path, minPartitions)：

   def textFile(

       path: String,

       minPartitions: Int = defaultMinPartitions): RDD[String] = withScope {

     assertNotStopped()

     hadoopFile(path, classOf[TextInputFormat], classOf[LongWritable], classOf[Text],

       minPartitions).map(pair => pair._2.toString)

   }

在用户指定minPartitions时，便会使用用户指定的分片数量来划分，否则使用defaultMinPartitions。那么defaultMinPartitions是怎么来的？

  def defaultMinPartitions: Int = math.min(defaultParallelism, 2)

...

  def defaultParallelism: Int = {

    assertNotStopped()

    taskScheduler.defaultParallelism

  }

...

  override def defaultParallelism(): Int = backend.defaultParallelism()

...

  override def defaultParallelism(): Int = {

    conf.getInt("spark.default.parallelism", math.max(totalCoreCount.get(), 2))

  }

可以看到这个参数是通过SparkConf中的spark.default.parallelism指定的。如果两边都没指定，那么分片数就为2。

在内存小，分片数少而数据量较大的情况下，会产生GC error，因为内存占用过大，java的垃圾回收无法完成，所以在出现内存错误的时候不妨试试将默认的分片数量加大，或者干脆在textfile中指定。这样有助于数据的处理完成。

spark分片个数的确定及Spark内存错误(GC error)的迂回解决方式的更多相关文章

Android内存优化-内存泄漏的几个场景以及解决方式
转自:http://blog.csdn.net/a910626/article/details/50849760 一.什么是内存泄漏在Java程序中,如果一个对象没有利用价值了,正常情况下gc是会对 ...
Spark源码分析之九：内存管理模型
Spark是现在很流行的一个基于内存的分布式计算框架,既然是基于内存,那么自然而然的,内存的管理就是Spark存储管理的重中之重了.那么,Spark究竟采用什么样的内存管理模型呢?本文就为大家揭开Sp ...
【转】科普Spark，Spark是什么，如何使用Spark
本博文是转自如下链接,为了方便自己查阅学习和他人交流.感谢原博主的提供! http://www.aboutyun.com/thread-6849-1-1.html http://www.aboutyu ...
【Spark 深入学习-08】说说Spark分区原理及优化方法
本节内容 ------------------ · Spark为什么要分区 · Spark分区原则及方法 · Spark分区案例 · 参考资料 ------------------ 一.Spark为什 ...
Spark学习笔记1——第一个Spark程序：单词数统计
Spark学习笔记1--第一个Spark程序:单词数统计笔记摘抄自 [美] Holden Karau 等著的<Spark快速大数据分析> 添加依赖通过 Maven 添加 Spark-c ...
spark下载安装，运行examples(spark一)
1.官方网址 http://spark.apache.org/ image.png 2.点击下载下载最新版本目前是(2.4.3)此spark预设为hadoop2.7或者更高版本,我前面安装的是had ...
Apache Spark源码走读之16 -- spark repl实现详解
欢迎转载,转载请注明出处,徽沪一郎. 概要之所以对spark shell的内部实现产生兴趣全部缘于好奇代码的编译加载过程,scala是需要编译才能执行的语言,但提供的scala repl可以实现代码 ...
Spark环境搭建（下）——Spark安装
1. 下载Spark 1.1 官网下载Spark http://spark.apache.org/downloads.html 打开上述链接,进入到下图,点击红框下载Spark-2.2.0-bin-h ...
Spark学习笔记1（初始spark
1.什么是spark? spark是一个基于内存的,分布式的,大数据的计算框架,可以解决各种大数据领域的计算问题,提供了一站式的服务 Spark2009年诞生于伯克利大学的AMPLab实验室 2010 ...

随机推荐

MTK机子修复分区信息
这是前一个星期的事了,最近一直懒得写博客~ 此事是由于我误刷了内核,然后导致分区信息出错... 内置存储挂载不上,也找不到内置存储的分区! 如果不是star的帮助.估计俺的爪机就要返厂了!! 接下来说 ...
Moses更改权重的命令变化 -d -t -
-l 可以用: weight-l 或者lm (不需要在前面加-) 还是用-weight-overwrite “Distortion0= 0"更保险 reording weight i ...
Ajax-goahead局部刷新页面
软件开发最常用的方法是:C/S,B/S.如果嵌入式设备中使用Ajax,那么既可以使用C/S方式,也可以使用B/S开发上位机.最近公司的一个项目需要异步获取后台数据,使用form更新数据时会有空白卡顿不 ...
linux kernel 0.11 bootsect
bootsect作用 ①将自己移动到0x90000处 ②将setup从磁盘读到0x90200处 ③将system从磁盘读到0x10000处寄存器汇编代码中存在:数据段data seg 栈段 sta ...
oracle 几个时间函数探究
近来经常用到时间函数,在此写一个笔记,记录自己的所得,希望也对您有所帮助. 1.对于一个时间如 sysdate:2015/1/30 14:16:03如何只得到年月日,同时它的数据类型不变化呢? 最容易 ...
Android--ViewPager的无限轮播
ViewPage_RadioButton实现带小圆点的无限轮播,效果还能凑合着用. 1.在ViewPage的监听里面这样处理 @Override public void onPageSelected( ...
用Java实现3DES
3DES,即三重DES,是DES的加强版,也是DES的一个更安全的变形.它使用3个56位(共168位)的密钥对数据进行三次加密,和DES相比,安全性得到了较大的提高. 实际上,3DES是一个过渡的加密 ...
纯真IP数据库导入mysql
下载纯真IP数据库安装后解压到本地为ip.txt 格式为: 1.1.145.0 1.1.147.255 泰国沙功那空 1.1.148.0 1.1.149.255 ...
APP_Store - 怎样为iOS8应用制作预览视频
关于iOS 8应用预览视频的话题,从设计.技术规范,到录屏.编辑工具,介绍的都比较详尽:建议收藏,在接下来用的到的时候作以参考.下面进入译文. 最近一两个月里,苹果的世界里出现了很多新东西,比如屏幕更 ...
c++中头文件include规则浅析[译]
英文原文地址在开发大型的软件项目时,头文件需要得到恰当的管理,甚至在c中也会面临这种问题,当我们用c++开发时,头文件的管理会变得更复杂,更加耗费我们的时间去管理,下面我将讲一些包含规则来简化这个苦 ...

spark分片个数的确定及Spark内存错误(GC error)的迂回解决方式

spark分片个数的确定及Spark内存错误(GC error)的迂回解决方式的更多相关文章

随机推荐

热门专题