Spark设置Kryo序列化缓冲区大小

背景

今天在开发SparkRDD的过程中出现Buffer Overflow错误，查看具体Yarn日志后发现是因为Kryo序列化缓冲区溢出了，日志建议调大spark.kryoserializer.buffer.max的value，搜索了一下设置keyo序列化缓冲区的方法，特此整理记录下来。

20/01/08 17:12:55 WARN scheduler.TaskSetManager: Lost task 1.0 in stage 1.0 (TID 4, s015.test.com, executor 1): org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow. Available: 0, required: 10300408. To avoid this, increase spark.kryoserializer.buffer.max value.

	at org.apache.spark.serializer.KryoSerializerInstance.serialize(KryoSerializer.scala:315)

	at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:367)

	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)

	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)

	at java.lang.Thread.run(Thread.java:748)

方法一：通过conf参数设置spark.kryoserializer.buffer.max

spark-submit在提交spark作业时可以带很多参数，其中有一个参数--conf可以设置spark.kryoserializer.buffer.max的大小，具体如下。

./bin/spark-submit \

  --class <main-class> \

  --master <master-url> \

  --deploy-mode <deploy-mode> \

  --conf spark.kryoserializer.buffer.max=512m \

  ... # other options

  <application-jar> \

  [application-arguments]

上面的--conf spark.kryoserializer.buffer.max=512m即代表把Kryo序列化缓冲区的buffer大小设置为512mb。

方法二：通过程序中拿到sparkConf对象设置spark.kryoserializer.buffer.max

1.设置Kryo为序列化类

//设置Kryo为序列化类（默认为Java序列类）

sparkConf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer");

2.设置spark.kryoserializer.buffer.max的值

//两种设置方法

sparkConf.set("spark.kryoserializer.buffer.max", "128m");

sparkConf.set("spark.kryoserializer.buffer.max.mb", "128");

3.检查是否成功设置Kryo参数

//打印日志，检查是否成功设置

System.out.println( sparkConf.get("spark.kryoserializer.buffer.max") );

参考文献

[1]【大数据进击】如何设置spark.kryoserializer.buffer.max value

[2]Spark official docs: Submitting Applications

Spark设置Kryo序列化缓冲区大小的更多相关文章

Spark:将RDD[List[String,List[Person]]]中的List[Person]通过spark api保存为hdfs文件时一直出现not serializable task，没办法找到"spark自定义Kryo序列化输入输出API"
声明:本文转自<在Spark中自定义Kryo序列化输入输出API> 在Spark中内置支持两种系列化格式:(1).Java serialization:(2).Kryo seriali ...
SetConsoleScreenBufferSize 函数--设置控制台屏幕缓冲区大小
SetConsoleScreenBufferSize函数来源:https://msdn.microsoft.com/en-us/library/windows/desktop/ms686044(v= ...
【Spark调优】Kryo序列化
[Java序列化与反序列化] Java序列化是指把Java对象转换为字节序列的过程:而Java反序列化是指把字节序列恢复为Java对象的过程.序列化使用场景:1.数据的持久化,通过序列化可以把数据永久 ...
socket tcp缓冲区大小的默认值、最大值
Author:阿冬哥 Created:2013-4-17 Blog:http://blog.csdn.net/c359719435/ Copyright 2013 阿冬哥 http://blog.cs ...
【Linux】tcp缓冲区大小的默认值、最大值
Author:阿冬哥 Created:2013-4-17 Blog:http://blog.csdn.net/c359719435/ Copyright 2013 阿冬哥 http://blog.cs ...
在Spark中使用Kryo序列化
spark序列化对于优化<网络性能>极为重要,将RDD以序列化格式来保存减少内存占用. spark.serializer=org.apache.spark.serializer.Jav ...
在Spark中自定义Kryo序列化输入输出API（转）
原文链接:在Spark中自定义Kryo序列化输入输出API 在Spark中内置支持两种系列化格式:(1).Java serialization:(2).Kryo serialization.在默认情况 ...
Spark优化之三：Kryo序列化
Spark默认采用Java的序列化器,这里建议采用Kryo序列化提高性能.实测性能最高甚至提高一倍. Spark之所以不默认使用Kryo序列化,可能的原因是需要对类进行注册. Java程序中注册很简单 ...
VS2015编译FFMPEG，修改FFmpeg缓冲区大小解决实时流解码丢包问题，FFmpeg错误rtsp流地址卡死的问题，设置超时
之前尝试过很多网上利用Windows编译FFmpeg的文章,都没有办法编译X64位的FFmpeg,有些教程中有专门提到编译64位的FFmpeg需要下载mingw-w64-install,但是编译的过程 ...

随机推荐

oracle WHERE子句中的连接顺序
ORACLE采用自下而上的顺序解析WHERE子句,根据这个原理,表之间的连接必须写在其他WHERE条件之前, 那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾. 例如: (低效,执行时间1 ...
javascript 元素的大小
1.偏移量元素的可见大小由其高度.宽度决定,包括所有内边距.滚动条和边框大小(不包含外边距).通过下列4个属性可以获取元素的偏移量: offsetHeight: offsetWidth: offse ...
Python--day19--os模块
os模块 os模块是与操作系统交互的一个接口 os.makedirs('dirname1/dirname2') 可生成多层递归目录 os.removedirs('dirname1') 若目录为空,则删 ...
2016年NOIP普及组复赛题解
题目涉及算法: 买铅笔:入门题: 回文日期:枚举: 海港:双指针: 魔法阵:数学推理. 买铅笔题目链接:https://www.luogu.org/problem/P1909 设至少要买 \(num ...
Java集合系统
前言: 要想学习java的集合体系,就必须先了解java的集合框架,总的来说,分为Collection和Map体系. Collection集合框架: Map集合框架: 一. Collection接口 ...
C# “不支持给定路径的格式”异常处理
问题背景无聊研究了一下怎么发送邮件(包含附件),但发现附带的文件路径除了报错就是报错,不知道为什么. 用了不下好几种方式,比如 var x = "E:\\Git\\cmd\\git.exe ...
用生活例子来形象了解TCP-IP协议
TCP/IP模型四层协议与邮件? 1.应用层——与用户直接打交道类似要寄的物件 2.传输层——处理和增加源数据并传输到IP层类似快递单信息 3.IP层——分配地址和传送数据类似分拣站分 ...
H3C IPv6地址分类
@RequestBody、@ResponseBody注解是如何将输入输出转换成json的
@RequestBody.@ResponseBody注解,可以直接将输入解析成Json.将输出解析成Json,但HTTP 请求和响应是基于文本的,意味着浏览器和服务器通过交换原始文本进行通信,而这里其 ...
Loj2604开车旅行
Loj2604开车旅行我完全没有看出这道题哪里是DP 首先,一个位置向后的最近和第二近我们可以通过set去简单实现通过维护最大和次大即可至于高度相同的情况我们可以通过先在set中查询小的来实现 ...