【问题跟踪】KryoException: java.io.IOException: No space left on device
今天在对LDA进行不同參数训练模型。记录其avglogLikelihood和logPerplexity,以便推断模型训练是否收敛时,产生了一个令人极度崩溃的事儿:程序在辛辛苦苦跑了7.3h后...挂了!
证据例如以下:
早上一来看这张图,好像跑完了,然后点进去看...然后就没有然后了
每次迭代都须要9min左右,迭代了近50次跟我说挂了,确实挺让人奔溃的。
先说说我的配置以及LDA參数吧
5 * 40cores cpu
5* 500g memory
參数:
没办法,既然都崩溃了,跟进去找问题呗
磁盘没空间了!
这是什么鬼...于是常规的,先从网上找找,看看有没有人有类似的问题。结果还真让我发现两个
Spark:java.io.IOException: No space left on device
发现第一个的回答中比較实用的是这个:
同一时候,结合第二个中的解释
基本上定位到应该是spark.local.dir文件夹用来存放shuffle产生的暂时文件的空间不够用了。
好吧,那看看自己的配置咯
这下子好玩儿了。配置的local文件夹空间剩余杠杠的,机器上还剩大概600G(关键是总共5台啊。!
!总共至少3T空间)。跟我说No space left on device确定不是在逗我的?好吧,看来应该不是shuffle文件存储的空间不足了。
怎么办?问题总不能摆着儿吧,没办法,那就跟进去spark的UI慢慢研究咯
等等!
还真发现点儿规律,为什么报错的都是同一台机器。然后想到之前的一个任务也有fails,赶紧打开看看,验证一下
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="">
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="">
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="">
看来果然是这样了。如今规律是发现了,那为什么会这样啊?刚才看到的bigdata04上的磁盘空间是全然够用的啊,真是奇了怪了!
等等!突然想起来,我好像是在这台机启动的任务
也就是说,bigdata04是我的driver。
原来如此。既然是driver。那么跟存储有关的就仅仅有提交任务时配置的參数--driver-memory 50g这个了。
并且。好像刚才查看运行过程的时候。shuffle write也是非常大的
那就试着把--driver-memory这个參数调大点吧。
先记录到这里,等结果出来后再看看。假设没问题了再改动本文总结一下!
【问题跟踪】KryoException: java.io.IOException: No space left on device的更多相关文章
- java.io.IOException: No space left on device 错误
今天碰到比较奇怪的问题: 7/05/14 19:20:24 INFO util.Utils: Fetching http://192.168.31.160:33039/jars/spark_study ...
- [Jenkins]Jenkins构建时提示java.io.IOException: No space left on device
突然发现Jenkins的Job全部都停了,打开Jenkins发现所有的slave机器,均提示: 点开Dead(!),提示Thread has died,如下图: 看图好像说是Jenkins所在的服务器 ...
- java.io.IOException No space left on device
磁盘空间不足 1.df -k,发现程序所在的工作目录/data,居然到了100%. 1604050 free allocated Kb 535144219 used allocated Kb 100 ...
- 解决:java.io.IOException: No FileSystem for scheme: hdfs
解决:java.io.IOException: No FileSystem for scheme: hdfs 开发项目初期,写完代码开始放到服务器上开始测试的时候,报出这样的一个错,不知道怎么处理了, ...
- AIO 开始不定时的抛异常: java.io.IOException: 指定的网络名不再可用
一天里会抛出几个这样的错误,但发现服务还在正常的运行. java.io.IOException: 指定的网络名不再可用. at sun.nio.ch.Iocp.translateErrorToIOEx ...
- Hive报错 Failed with exception java.io.IOException:java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI: ${system:user.name%7D
报错信息如下 Failed with exception java.io.IOException:java.lang.IllegalArgumentException: java.net.URISyn ...
- java.io.IOException: mark/reset not supported
java.io.IOException: mark/reset not supported at java.io.InputStream.reset(InputStream.java:348) at ...
- java.io.IOException: invalid header field
通过本文, 我们明白了什么是 jar的清单文件 MANIFEST.MF, 简单示例: E:\ws\Test\WEB-INF\classes>jar cvfm testCL.jar ListTes ...
- java.io.IOException: Cannot run program "jad"
今天调试google tag manager, 需要看看google analytics source code,无奈没有源码,装个一个插件ejad 还是不行: java.io.IOException ...
随机推荐
- Oracle 12c 用户创建、角色、权限
aaarticlea/png;base64,iVBORw0KGgoAAAANSUhEUgAAAd4AAADHCAIAAAA4UqVzAAAgAElEQVR4nOy9Z5Bk13UmyN/6vZrlrG
- Java 底层机制(JVM/堆/栈/方法区/GC/类加载)
转载:https://www.jianshu.com/p/ae97b692614e?from=timeline JVM体系结构 JVM是一种解释执行class文件的规范技术. JVM体系结构 我翻 ...
- 大数据(十一) - Mahout
传统数据挖掘/机器学习库存在的问题 缺少一个活跃的技术社区 扩展性差 文档化差,缺少实例 不开源.商业化库 通常由研究机 ...
- VREP中的二维激光雷达
目前,轮式机器人的研究中已经大量使用激光雷达辅助机器人的避障导航,考虑到使用成本,一般二维激光雷达使用较多,如下图.由于只能扫描一个平面,如果想用二维激光雷达获取环境三维点云,则需要通过移动机器人或加 ...
- python之模块distutils,打包工具
# -*- coding: utf-8 -*- #python 27 #xiaodeng #python之模块distutils,打包工具 import distutils #distutils包有2 ...
- python之模块cmath
# -*- coding: utf-8 -*-#python 27#xiaodeng#python之模块cmath #复数的数学函数,如log.tan.sin等函数用法,针对我目前的情况用途较少,暂不 ...
- vsftp 虚拟用户测试
1.创建用于进行FTP验证的帐号密码数据库文件,单数行为账户名,偶数行为密码.[root@rhel1 vsftpd]# vi /etc/vsftpd/vuser.listuser1123456user ...
- MySQL表名大小写敏感导致的问题
最近在项目中遇到一个比较奇怪的小问题.在开发过程中自己测试没有问题,但是提测后,测试的同时在测试一个功能时报错了,日志是: Caused by: com.mysql.jdbc.exceptions ...
- Ubuntu下安装软件、卸载
Ubuntu下安装软件.卸载 一般的安装程序有三种: .deb和.rpm这2中安装文件 .boudle这是二进制安装文件 .tar.gz文件是压缩包,与.rar和.zip压缩包一样,安装此类文件需要先 ...
- CASE WHEN 及 SELECT CASE WHEN的用法(写了一坨烂代码发现两条sql就行了, 哎)
转自:http://blog.sina.com.cn/s/blog_4c538f6c01012mzt.html Case具有两种格式.简单Case函数和Case搜索函数. 简单Case函数 CASE ...