hdfs的bug纪录， Unexpected block state

今早遇到一个bug，提交 spark job 失败。说 hdfs 在 safe mode状态，不允许创建和删除文件。

然后发现 hdfs 的日志文件不断滚动，几乎每秒钟100M的速度打日志，当时没有看懂。safe mode 打开关闭了几回，发现主要的问题是下面这条日志：

java.lang.IllegalStateException: Unexpected block state: blk_1073748951_12122

 is COMMITTED but not COMPLETE, file=application_1543829391405_0459_1.inprogress (INodeFile),

 blocks=[blk_1073748951_12122] (i=0)d

翻译：blk_1073748951_12122 坏了，该block属于文件 application_1543829391405_0459_1.inprogress

解决方案：删除该文件，关闭safe mode。

问题推测：我们的 yarn 集群运行在 aws 上，配置了弹性伸缩的策略。 application_1543829391405_0459_1.inprogress 属于一个 spark application 的meta信息。

可能是弹性收缩，也可能是偶然因素，导致 block 数据丢失，于是引发问题：

1. spark application 失败

2. dfs自我修复，疯狂打日志

3. 打开了 safe mode，无法提交新的任务

hdfs的bug纪录， Unexpected block state的更多相关文章

Directory /home/hdfs/name is in an inconsistent state: storage directory does not exist or is not a
2018-06-11 17:50:36,896 WARN org.apache.hadoop.hdfs.server.namenode.FSNamesystem: Encountered except ...
值得一提：关于 HDFS 的 file size 和 block size
转 http://blog.csdn.net/samhacker/article/details/23089157?utm_source=tuicool&utm_medium=referral ...
HDFS概述（2）————Block块大小设置
以下内容转自:http://blog.csdn.net/samhacker/article/details/23089157?utm_source=tuicool&utm_medium=ref ...
实战小项目BUG纪录
果然,作为程序员最可爱的女朋友就是各种BUG,解决了你的开发能力和开发效率就会上升到一个新的层次.反之,在你面对BUG的时候,如果轻易的就放弃了,你也就失去了一次自我成长的机会.学习就是这样的,我们有 ...
HDFS中的数据块(Block)
我们在分布式存储原理总结中了解了分布式存储的三大特点: 数据分块,分布式的存储在多台机器上数据块冗余存储在多台机器以提高数据块的高可用性遵从主/从(master/slave)结构的分布式存储集群 ...
【查看修复HDFS中丢失的块】org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block: BP
首先得好看有多少损坏的文件,其中需要使用Hadoop的fsck命令: 以下是官方解释用法: hadoop fsck //路径以上将会展示该路径下所有受损的文件最后用-delete 可以清除掉 ...
Hadoop EC 踩坑：data block 缺失导致的 HDFS 传输速率下降
环境:hadoop-3.0.2 + 11 机集群 + RS-6-3-1024K 的EC策略状况:某天,往 HDFS 上日常 put 业务数据时,发现传输速率严重下降分析: 检查集群发现,在之前的传 ...
FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block pool <registering> (Datanode Uuid unassigned) service to controller/192.168.1.183:9000. Exiting. java.io.IOExcep
2018-01-09 09:47:38,297 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed ...
Hdfs block数据块大小的设置规则
1.概述 hadoop集群中文件的存储都是以块的形式存储在hdfs中. 2.默认值从2.7.3版本开始block size的默认大小为128M,之前版本的默认值是64M. 3.如何修改block块的 ...

随机推荐

【转】使用普通用户执行docker
原文:https://www.cnblogs.com/klvchen/p/9098745.html CentOS 版本 7.4,Docker 版本 docker-1.13 及以下 ll /var/ru ...
CentOS上安装elasticsearch
1.安装docker yum install docker 2.启动docker systemctl start docker 查看docker版本: docker -v 之后只要启动机器就会自动开启 ...
dubbo的dispatcher设置原理
在上回<Dubbo源代码实现六>中我们已经了解到,对于Dubbo集群中的Provider角色,有IO线程池(默认无界)和业务处理线程池(默认200)两个线程池,所以当业务的并发比较高,或者 ...
python中的 dir()内置函数的作用以及使用方法
dir() 内置函数的作用 python 内置方法有很多,无论是初学者还是精通python 的程序员都不能全部即住所有的方法,这时候 dir() 方法就非常有用了,使用 dir()函数可以查看对象内的 ...
notepad++常用命令
1>shift+tab减少缩进 2>tab键增加缩进 3>ctrol+d键复制多行 4>shift+alt+方向箭头,选中列 5>alt+c插入序列 6>ctrl+ ...
树莓派安装nextcloud、Seafile
参考博文:http://bbs.eeworld.com.cn/thread-505579-1-1.html http://blog.sina.com.cn/s/blog_6f55d8210102xia ...
HashMap源码__resize
final Node<K,V>[] resize() { //创建一个Node数组用于存放table中的元素, Node<K,V>[] oldTab = table; //获取 ...
Windows驱动开发-IRP的完成例程
<Windows驱动开发技术详解 >331页, 在将IRP发送给底层驱动或其他驱动之前,可以对IRP设置一个完成例程,一旦底层驱动将IRP完成后,IRP完成例程立刻被处罚,通过设置完成例程 ...
【PAT甲级】1035 Password (20 分)
题意: 输入一个正整数N(<=1000),接着输入N行数据,每行包括一个ID和一个密码,长度不超过10的字符串,如果有歧义字符就将其修改.输出修改过多少组密码并按输入顺序输出ID和修改后的密码, ...
httpclient post 请求
package com.thinkgem.jeesite.common.utils; import org.apache.http.HttpEntity; import org.apache.http ...

hdfs的bug纪录， Unexpected block state

hdfs的bug纪录， Unexpected block state的更多相关文章

随机推荐

热门专题