Spark在StandAlone模式下提交任务，spark.rpc.message.maxSize太小而出错

1.错误信息
org.apache.spark.SparkException: Job aborted due to stage failure:Serialized task 32:5 was 1728746673 bytes,

    which exceeds max allowed: spark.rpc.message.maxSize (134217728 bytes).
    Consider increasing spark.rpc.message.maxSize or using broadcast variables for large values.at org.apache.spark.scheduler.DAGScheduler……
2.错误原因
　　Spark节点间传输的数据过大，超过系统默认的128M，因此需要提高spark.rpc.message.maxSize的大小或者选择用broadcast广播数据。
然而在某些情况下，广播数据并不能契合我们的需求，这时我们可以在提交任务时对spark.rpc.message.maxSize进行配置，调高maxSize即可。
3.具体解决方案

./bin/spark-submit \
  --class <main-class>
  --master <master-url> \
  --deploy-mode <deploy-mode> \
  --conf spark.rpc.message.maxSize=256
  ... # other options
  <application-jar> \
  [application-arguments]
红色区域即可根据需求更改spark.rpc.message.maxSize的大小，举例改为256M，实测有效。

Spark在StandAlone模式下提交任务，spark.rpc.message.maxSize太小而出错的更多相关文章

spark 在yarn模式下提交作业
1.spark在yarn模式下提交作业需要启动hdfs集群和yarn,具体操作参照:hadoop 完全分布式集群搭建 2.spark需要配置yarn和hadoop的参数目录将spark/conf/目 ...
关于spark standalone模式下的executor问题
1.spark standalone模式下,worker与executor是一一对应的. 2.如果想要多个worker,那么需要修改spark-env的SPARK_WORKER_INSTANCES为2 ...
spark on yarn模式下配置spark-sql访问hive元数据
spark on yarn模式下配置spark-sql访问hive元数据目的:在spark on yarn模式下,执行spark-sql访问hive的元数据.并对比一下spark-sql 和hive ...
KindEditor设置为过滤模式，但在代码模式下提交表单时不过虑HTML标签的解决方法
KindEditor设置filterMode为true,但在代码模式下提交表单的话,发现并没有过虑掉自己不想保留的HTML标签. 这时只需同步内容前加上红色部分内容即可: onClick=" ...
spark yarn cluster模式下任务提交和计算流程分析
spark可以运行在standalone,yarn,mesos等多种模式下,当前我们用的最普遍的是yarn模式,在yarn模式下又分为client和cluster.本文接下来将分析yarn clust ...
大数据学习day18----第三阶段spark01--------0.前言（分布式运算框架的核心思想，MR与Spark的比较，spark可以怎么运行，spark提交到spark集群的方式）1. spark(standalone模式)的安装 2. Spark各个角色的功能 3.SparkShell的使用，spark编程入门（wordcount案例）
0.前言 0.1 分布式运算框架的核心思想(此处以MR运行在yarn上为例) 提交job时,resourcemanager(图中写成了master)会根据数据的量以及工作的复杂度,解析工作量,从而 ...
【Spark】Spark-shell案例——standAlone模式下读取HDFS上存放的文件
目录可以先用local模式读取一下步骤一.先将做测试的数据上传到HDFS 二.开发scala代码 standAlone模式查看HDFS上的文件步骤一.退出local模式,重新进入Spark- ...
Spark的StandAlone模式原理和安装、Spark-on-YARN的理解
Spark是一个内存迭代式运算框架,通过RDD来描述数据从哪里来,数据用那个算子计算,计算完的数据保存到哪里,RDD之间的依赖关系.他只是一个运算框架,和storm一样只做运算,不做存储. Spark ...
Spark之standalone模式
standalone hdfs:namenode是主节点进程,datanode是从节点进程 yarn:resourcemanager是主节点进程,nodemanager是从节点进程 hdfs和yarn ...

随机推荐

Navicat Premium 12
1.win 客户端软件下载: https://www.navicat.com.cn/download/navicat-premium 2.安装双击安装--点击下一步我同意--下一步选择安装路径- ...
利用JS模拟排队系统
我爱撸码,撸码使我感到快乐!大家好,我是Counter.今天给大家分享的是js模拟排队系统,刚开始有排队序列,序列里有vip用户和普通用户,vip用户永远位于普通用户的前面,只有当当前vip用户都办理 ...
HTML与CSS的一些知识（四）
续: line-height 用于设置一行文本行高,一般用于文本的垂直居中: display 用于设置元素的显示方式 float 浮动,让元素漂浮起来排列浮动的影响: a.浮动后,行内元素可以支持宽 ...
记python使用grpc
using grpc in Python gRPC是基于http/2的RPC框架,使用ProtoBuf作为底层数据序列化.Nginx服务器2018年3月17日引入gRPC支持. gRPC 是用来实现跨 ...
[ZOJ 4020] Traffic Light
题目链接:http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemCode=4020 很简单的一个bfs题,是我想多了. 顺便学习一下C++的S ...
[译]RabbitMQ教程C#版 - 远程过程调用(RPC)
先决条件本教程假定 RabbitMQ 已经安装,并运行在localhost标准端口(5672).如果你使用不同的主机.端口或证书,则需要调整连接设置. 从哪里获得帮助如果您在阅读本教程时遇到困难, ...
docker run -v参数
挂载目录(直接给例子吧) -v=[]:绑定挂载目录宿主机绑定: -v<host>:<container>:[rw|ro] 在Docker中新建一个共享的卷: -v /< ...
数据类型（data type）
基本数据类型(primitive data type):字符型(2个字节),布尔型(一位),byte(1个字节),short(两个字节),int(4个字节),long(8个字节),float(2个字节 ...
关于AMD 、CMD、 commonjs的认识
首先什么是amd.cmd和commonjs.总的来说,这三个玩意就是js的模块规范. 但是,这三者有什么区别呢.... amd规范是应用于浏览器,如requireJS. commonjs规范应用与服务 ...
SQL Server 视图（仅代码及练习）
use electric go --建立供电局1#仓库所存放物资的视图. create view s1_stock as select * from stock where warehouse='供电 ...

Spark在StandAlone模式下提交任务，spark.rpc.message.maxSize太小而出错

Spark在StandAlone模式下提交任务，spark.rpc.message.maxSize太小而出错的更多相关文章

随机推荐

热门专题