Spark 1.4.1中Beeline使用的gc overhead limit exceeded

最近使用SparkSQL做数据的打平操作，就是把多个表的数据经过关联操作导入到一个表中，这样数据查询的过程中就不需要在多个表中查询了，在数据量大的情况下，这样大大提高了查询效率。

我启动了thriftserver,然后通过beeline去连接thriftserver，打平操作进行的很顺利，但是在执行groupby操作的时候beeline报了一个错误：gc overhead limit exceeded

我分析可能是thriftserver报的错误。但是查看了thriftserver的日志没有任何异常打出来，没办法重新执行该sql ,通过jmap跟了下，JVM的old区一直没有满，那就是不是thriftserver的问题了。

那么可能就是beeline的问题了，jmap跟了一下 ,beeline只有512m的内存，old区满满的。

下面就可以着手调整beeline的参数设置，我调整了java_opts, spark_daemon_memory,spark_driver_memory, spark_java_opts.统统不行，看了1.4.1的源码。是程序的问题，

幸好在spark 1.5中fix这个问题了。

查看SparkClassCommandBuilder的源码

if (className.equals("org.apache.spark.deploy.master.Master")) {

      javaOptsKeys.add("SPARK_DAEMON_JAVA_OPTS");

      javaOptsKeys.add("SPARK_MASTER_OPTS");

      memKey = "SPARK_DAEMON_MEMORY";

    } else if (className.equals("org.apache.spark.deploy.worker.Worker")) {

      javaOptsKeys.add("SPARK_DAEMON_JAVA_OPTS");

      javaOptsKeys.add("SPARK_WORKER_OPTS");

      memKey = "SPARK_DAEMON_MEMORY";

    } else if (className.equals("org.apache.spark.deploy.history.HistoryServer")) {

      javaOptsKeys.add("SPARK_DAEMON_JAVA_OPTS");

      javaOptsKeys.add("SPARK_HISTORY_OPTS");

      memKey = "SPARK_DAEMON_MEMORY";

    } else if (className.equals("org.apache.spark.executor.CoarseGrainedExecutorBackend")) {

      javaOptsKeys.add("SPARK_JAVA_OPTS");

      javaOptsKeys.add("SPARK_EXECUTOR_OPTS");

      memKey = "SPARK_EXECUTOR_MEMORY";

    } else if (className.equals("org.apache.spark.executor.MesosExecutorBackend")) {

      javaOptsKeys.add("SPARK_EXECUTOR_OPTS");

      memKey = "SPARK_EXECUTOR_MEMORY";

    } else if (className.equals("org.apache.spark.deploy.ExternalShuffleService") ||

        className.equals("org.apache.spark.deploy.mesos.MesosExternalShuffleService")) {

      javaOptsKeys.add("SPARK_DAEMON_JAVA_OPTS");

      javaOptsKeys.add("SPARK_SHUFFLE_OPTS");

      memKey = "SPARK_DAEMON_MEMORY";

    } else if (className.startsWith("org.apache.spark.tools.")) {

      String sparkHome = getSparkHome();

      File toolsDir = new File(join(File.separator, sparkHome, "tools", "target",

        "scala-" + getScalaVersion()));

      checkState(toolsDir.isDirectory(), "Cannot find tools build directory.");

      Pattern re = Pattern.compile("spark-tools_.*\\.jar");

      for (File f : toolsDir.listFiles()) {

        if (re.matcher(f.getName()).matches()) {

          extraClassPath = f.getAbsolutePath();

          break;

        }

      }

      checkState(extraClassPath != null,

        "Failed to find Spark Tools Jar in %s.\n" +

        "You need to run \"build/sbt tools/package\" before running %s.",

        toolsDir.getAbsolutePath(), className);

      javaOptsKeys.add("SPARK_JAVA_OPTS");

    } else {

      javaOptsKeys.add("SPARK_JAVA_OPTS");

      memKey = "SPARK_DRIVER_MEMORY";

    }

看46.47的代码，1.5可以通过SPARk_JAVA_OPTS和SPARK_DRIVER_MEMORY来设置beeline的内存

Spark 1.4.1中Beeline使用的gc overhead limit exceeded的更多相关文章

Spark OOM：java heap space，OOM:GC overhead limit exceeded解决方法
问题描述: 在使用spark过程中,有时会因为数据增大,而出现下面两种错误: java.lang.OutOfMemoryError: Java heap space java.lang.OutOfMe ...
Spark java.lang.outofmemoryerror gc overhead limit exceeded 与 spark OOM:java heap space 解决方法
引用自:http://cache.baiducontent.com/c?m=9f65cb4a8c8507ed4fece7631046893b4c4380146d96864968d4e414c42246 ...
myeclipse中解决 java heap space/gc overhead limit exceeded eclipse 的方法
在Eclipse打包的时候报错:gc overhead limit exceeded eclipse 原因是Eclipse默认配置内存太小须要更改安装Eclipse目录下的eclipse.ini文件. ...
spark异常篇-OutOfMemory:GC overhead limit exceeded
执行如下代码时报错 # encoding:utf-8 from pyspark import SparkConf, SparkContext from pyspark.sql import Spark ...
OutOfMemoryError: Java heap space和GC overhead limit exceeded在Ant的Build.xml中的通用解决方式
这个仅仅是一点点经验,总结一下,当中前两个相应第一个Error.后两个相应第二个Error,假设heap space还不够.能够再改大些. <jvmarg value="-Xms512 ...
spark aggregateByKey 时 java.lang.OutOfMemoryError: GC overhead limit exceeded
最后发现有一个用户单日访问我们网站次数为 4千万,直接导致 aggregate 时内存不够.过滤掉该用户即可.
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN
Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门起始点: SparkSession ...
Apache Spark 2.2.0 中文文档
Apache Spark 2.2.0 中文文档 - 快速入门 | ApacheCN Geekhoo 关注 2017.09.20 13:55* 字数 2062 阅读 13评论 0喜欢 1 快速入门使用 ...
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets
Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门起始点: SparkSession ...

随机推荐

关于overflow:hidden
(本文只针对hidden这个值的用处进行阐述) 关于overflow:hidden;很多人都知道他是溢出隐藏的一个属性,但是并不是很多人知道它的一些神奇的地方!首先先讲一下众所周知的溢出隐藏吧! 溢出 ...
【数论】卡塔兰数 Catalan
一.简介设$h(0)=1$,$h(1)=1$,Catalan数满足递推式 $h(n) = h(0) \ast h(n-1) + h(1)\ast h(n-2) + \cdots + h(n-1)\a ...
mongodb所在目录空间不足解决方法
1.原理是将目录/home/aa软连接到/usr/lib/下,以后从/usr/lib下读取的内容其实都是放在/home/aa下. 建议不要大范围动/usr下的内容,咋着也是属于系统目录,可能会对已装软 ...
redis设置为null问题
查看源码后发现,redis没有删除方法,本想给他设置为null,但是redis报错,所有仔细想了一下,发现redis提供了一个时间限制方法,所有可以让redis的时间限制为1s,就想当于删除redis ...
学习动态性能表(7)--v$process
学习动态性能表第七篇--V$PROCESS 2007.5.30 本视图包含当前系统oracle运行的所有进程信息.常被用于将oracle或服务进程的操作系统进程ID与数据库session之间建立联 ...
BZOJ4198：[NOI2015]荷马史诗
浅谈$Huffman$树:https://www.cnblogs.com/AKMer/p/10300870.html 题目传送门:https://lydsy.com/JudgeOnline/pro ...
CEF源码编译
CEF的构造说明:https://bitbucket.org/chromiumembedded/cef/wiki/BranchesAndBuilding chromium的源码地址:https://c ...
Linux驱动 - SPI驱动之四 SPI数据传输的队列化
我们知道,SPI数据传输可以有两种方式:同步方式和异步方式.所谓同步方式是指数据传输的发起者必须等待本次传输的结束,期间不能做其它事情,用代码来解释就是,调用传输的函数后,直到数据传输完成,函数才会返 ...
Java基础--反射Reflection
Reflection 反射能在运行时获取一个类的全部信息,并且可以调用类方法,修改类属性,创建类实例. 而在编译期间不用关心对象是谁反射可用在动态代理,注解解释,和反射工厂等地方. -------- ...
机器学习：SVM（scikit-learn 中的 RBF、RBF 中的超参数 γ）
一.高斯核函数.高斯函数 μ:期望值,均值,样本平均数:(决定告诉函数中心轴的位置:x = μ) σ2:方差:(度量随机样本和平均值之间的偏离程度:, 为总体方差, 为变量, 为总体均值, 为总 ...

Spark 1.4.1中Beeline使用的gc overhead limit exceeded

Spark 1.4.1中Beeline使用的gc overhead limit exceeded的更多相关文章

随机推荐

热门专题