一、spark错误

1、

17/07/17 15:34:55 ERROR yarn.ApplicationMaster: User class threw exception: java.lang.UnsupportedOperationException: empty collection

java.lang.UnsupportedOperationException: empty collection

	at org.apache.spark.rdd.RDD$$anonfun$reduce$1$$anonfun$apply$40.apply(RDD.scala:1027)

	at org.apache.spark.rdd.RDD$$anonfun$reduce$1$$anonfun$apply$40.apply(RDD.scala:1027)

	at scala.Option.getOrElse(Option.scala:120)

	at org.apache.spark.rdd.RDD$$anonfun$reduce$1.apply(RDD.scala:1027)

	at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:150)

	at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:111)

	at org.apache.spark.rdd.RDD.withScope(RDD.scala:316)

	at org.apache.spark.rdd.RDD.reduce(RDD.scala:1007)

	at sparkoffline.DayCount$.dayCount(DayCount.scala:44)

	at sparkoffline.Main$.main(Main.scala:35)

	at sparkoffline.Main.main(Main.scala)

	at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)

	at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)

	at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)

	at java.lang.reflect.Method.invoke(Method.java:498)

	at org.apache.spark.deploy.yarn.ApplicationMaster$$anon$2.run(ApplicationMaster.scala:558)

17/07/17 15:34:55 INFO yarn.ApplicationMaster: Final app status: FAILED, exitCode: 15, (reason: User class threw exception: java.lang.UnsupportedOperationException: empty collection)

17/07/17 15:34:55 INFO spark.SparkContext: Invoking stop() from shutdown hook

　　spark 从hbase过滤出数据形成RDD，然后再做计算，这个错误大概意思是从hbase过滤出来的数据为空，也就是一个空的RDD

2、

org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 12

	at org.apache.spark.MapOutputTracker$$anonfun$org$apache$spark$MapOutputTracker$$convertMapStatuses$2.apply(MapOutputTracker.scala:548)

	at org.apache.spark.MapOutputTracker$$anonfun$org$apache$spark$MapOutputTracker$$convertMapStatuses$2.apply(MapOutputTracker.scala:544)

	at scala.collection.TraversableLike$WithFilter$$anonfun$foreach$1.apply(TraversableLike.scala:772)

	at scala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:33)

	at scala.collection.mutable.ArrayOps$ofRef.foreach(ArrayOps.scala:108)

	at scala.collection.TraversableLike$WithFilter.foreach(TraversableLike.scala:771)

	at org.apache.spark.MapOutputTracker$.org$apache$spark$MapOutputTracker$$convertMapStatuses(MapOutputTracker.scala:544)

	at org.apache.spark.MapOutputTracker.getMapSizesByExecutorId(MapOutputTracker.scala:155)

	at org.apache.spark.shuffle.BlockStoreShuffleReader.read(BlockStoreShuffleReader.scala:47)

	at org.apache.spark.rdd.ShuffledRDD.compute(ShuffledRDD.scala:98)

	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:306)

	at org.apache.spark.rdd.RDD.iterator(RDD.scala:270)

	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)

	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:306)

	at org.apache.spark.rdd.RDD.iterator(RDD.scala:270)

	at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:73)

	at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:41)

	at org.apache.spark.scheduler.Task.run(Task.scala:89)

	at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:227)

	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)

	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)

	at java.lang.Thread.run(Thread.java:745)

org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle
解决方案：这种问题一般发生在有大量shuffle操作的时候,task不断的failed,然后又重执行，一直循环下去，直到application失败。一般遇到这种问题提高executor内存即可,同时增加每个executor的cpu,这样不会减少task并行度。

或者改代码，替代shuffle 算子（例如reducebykey 替代groupbykey）

一、spark错误的更多相关文章

CM5.x配置spark错误解决
通过cloudera manager 5.x添加spark服务,在创建服务过程中,发现spark服务创建失败,可以通过控制台错误输出看到如下日志信息: + perl -pi -e 's#{{CMF_C ...
Spark 错误日志中看到的一些问题
2014-4-23 18:42:09 org.jivesoftware.spark.util.log.Log error 严重: Unable to contact shared group info ...
spark错误记录总结
1.执行spark-submit时出错执行任务如下: # ./spark-submit --class org.apache.spark.examples.SparkPi /hadoop/spark ...
win下写任务提交给集群
一,复制和删除hdfs中的文件 import org.apache.hadoop.fs.{FileSystem, Path} import org.apache.spark.{SparkConf, S ...
航空概论（历年资料，引之百度文库，PS：未调格式，有点乱）
航空航天尔雅选择题1. 已经实现了<天方夜谭>中的飞毯设想.—— A——美国2. 地球到月球大约—— C 38 万公里3. 建立了航空史上第一条定期空中路线—— B——德国4. 对于孔明 ...
spark mllib配置pom.xml错误 Multiple markers at this line Could not transfer artifact net.sf.opencsv:opencsv:jar:2.3 from/to central (https://repo.maven.apache.org/maven2): repo.maven.apache.org
刚刚spark mllib,在maven repository网站http://mvnrepository.com/中查询mllib后得到相关库的最新dependence为: <dependen ...
Spark随机深林扩展—OOB错误评估和变量权重
本文目的当前spark(1.3版)随机森林实现,没有包括OOB错误评估和变量权重计算.而这两个功能在实际工作中比较常用.OOB错误评估可以代替交叉检验,评估模型整体结果,避免交叉检验带来的计算开销. ...
spark分片个数的确定及Spark内存错误(GC error)的迂回解决方式
我们知道,spark中每个分片都代表着一部分数据,那么分片数量如何被确认的呢? 首先我们使用最常见的HDFS+Spark,sparkDeploy的方式来讨论,spark读取HDFS数据使用的是spar ...
Spark常见错误汇总
1. Spark Driver cannot bind on port0, SparkContext initialized failed 如果是通过spark-submit等命令行提交的任务,在sp ...

随机推荐

[转] Unicode字符编码区间表
firebug 打UTF8 字符: var res = ""; for(var i=0x80;i< 0xff ;i++){ res += i.toString(16) + & ...
rev命令详解
基础命令学习目录首页 rev命令将文件中的每行内容以字符为单位反序输出,即第一个字符最后输出,最后一个字符最先输出,依次类推. #cat a.txt wo shi mcw, nihao how do ...
JDK自带的监控工具方法
一.概述 SUN 的JDK中的几个工具,非常好用.秉承着有免费,不用商用的原则.以下简单介绍一下这几种工具.(注:本文章下的所有工具都存在JDK5.0以上版本的工具集里(jdk的bin目录 ...
scrapy有用的（代理，user-agent，随机延迟等）
代理方法一(待测试) 见scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware import os # 设置相应的代理用户名密码,主机和 ...
北航MOOC系统Android客户端NABC
北航MOOC手机客户端NABC分析 1) N (Need 需求) MOOC是Massive Open Online Course的缩写,通常被译为大型开放式网络课程,它最早在08年的时候由一位加拿大的 ...
实验3 --俄罗斯方块 with 20135335郝爽
一. 实验内容 (一)敏捷开发与XP 内容:1.敏捷开发(Agile Development)是一种以人为核心.迭代.循序渐进的开发方法. 2.极限编程(eXtreme Programming,X ...
web03-OutputInfo
电影网站:www.aikan66.com 项目网站:www.aikan66.com 游戏网站:www.aikan66.com 图片网站:www.aikan66.com 书籍网站:www.aikan66 ...
我对git的认识
Git 真的是不了解也没听说过git 所以真的不知道从何谈起所以就参考度娘啦! Git是一个开源的分布式版本控制系统,用以有效.高速的处理从很小到非常大的项目版本管理.Git 是 Linus To ...
《TCP/IP 详解卷1：协议》第 9 章：广播和本地组播（IGMP 和 MLD）
我已经懒了,卷一已经是去年年底看完的,但怎么说卷一的坑开了就要填完啊-- 广播和本地组播(IGMP 和 MLD) 引言有 4 种 IP 地址,单播(unicast).任播(anycast).组播(m ...
Internet History, Technology and Security (Week2)
Week2. History: The First Internet - NSFNet coursera address Supercomputers Justify a National Netwo ...

一、spark错误

一、spark错误的更多相关文章

随机推荐

热门专题