环境

集群7台

master 3台

datanode 4台

每个datanode有12个硬盘

场景

启动集群之后,发现有一台datanode未启动,手动启动,还是未启动。查看日志,发现:

Initialization failed for Block pool <registering> (Datanode Uuid unassigned) service to

百度之后,说是磁盘有问题

核查

查看硬盘信息

[root@hdfsdata1 /]df -h
Filesystem Size Used Avail Use% Mounted on
/dev/mapper/VolGroup-lv_root 50G 3.2G 44G 7% /
tmpfs 63G 0 63G 0% /dev/shm
/dev/sdm2 485M 40M 421M 9% /boot
/dev/sdm1 200M 260K 200M 1% /boot/efi
/dev/mapper/VolGroup-lv_home 5.0G 161M 4.6G 4% /home
/dev/mapper/VolGroup-lv_zhjs 197G 3.2G 184G 2% /zhjs
/dev/sda 5.4T 17G 5.1T 1% /data01
/dev/sdb 5.4T 17G 5.1T 1% /data02
/dev/sdc 5.4T 18G 5.1T 1% /data03
/dev/sdd 5.4T 18G 5.1T 1% /data04
/dev/sde 5.4T 18G 5.1T 1% /data05
/dev/sdf 5.4T 18G 5.1T 1% /data06
/dev/sdg 5.4T 18G 5.1T 1% /data07
/dev/sdh 5.4T 18G 5.1T 1% /data08
/dev/sdi 5.4T 24G 5.1T 1% /data09
/dev/sdj 5.4T 18G 5.1T 1% /data10
/dev/sdk 5.4T 17G 5.1T 1% /data11
/dev/sdl 5.4T 1.7T 3.5T 32% /data12

查看磁盘状态
iostat -x -k

[root@hdfsdata1 /] iostat -x -k
Linux 2.6.32-431.el6.x86_64 (hdfsdata1) 2021年09月05日 _x86_64_ (32 CPU)
avg-cpu: %user %nice %system %iowait %steal %idle
0.20 0.00 0.06 0.02 0.00 99.73
Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await svctm %util
sda 0.00 3.67 0.04 0.14 2.98 15.24 204.79 0.01 70.48 0.76 0.01
sdc 0.00 3.86 0.06 0.14 4.09 16.03 201.01 0.01 65.44 0.76 0.02
sde 0.00 8.35 0.05 0.20 3.88 34.19 308.30 0.03 104.15 1.03 0.03
sdf 0.00 5.42 0.07 0.17 4.70 22.35 227.83 0.02 74.27 0.85 0.02
sdm 0.01 1.11 0.01 0.85 0.26 7.87 18.87 0.01 15.66 5.71 0.49
sdg 0.00 6.96 0.06 0.18 4.22 28.57 272.65 0.02 88.65 0.93 0.02
sdh 0.00 11.60 0.06 0.24 5.30 47.36 347.48 0.03 113.76 1.08 0.03
sdi 0.00 2.23 0.01 0.11 1.50 9.40 170.01 0.06 446.02 3.37 0.04
sdb 0.00 3.53 0.05 0.14 3.77 14.66 200.25 0.01 65.31 0.77 0.01
sdj 0.00 4.89 0.05 0.16 4.71 20.21 235.10 0.02 116.51 1.61 0.03
sdk 0.00 4.52 0.06 0.16 5.91 18.71 220.89 0.02 109.69 1.60 0.04
sdl 0.01 37.37 0.04 0.78 3.44 152.72 380.19 0.11 137.09 1.30 0.11
sdd 0.00 4.57 0.07 0.15 5.02 18.89 217.37 0.01 67.86 0.82 0.02
dm-0 0.00 0.00 0.01 1.22 0.18 4.86 8.26 0.08 65.84 3.06 0.37
dm-1 0.00 0.00 0.01 0.00 0.05 0.01 8.00 0.00 4.31 0.42 0.00
dm-2 0.00 0.00 0.00 0.07 0.00 0.27 8.00 0.00 9.46 4.88 0.03
dm-3 0.00 0.00 0.00 0.68 0.03 2.73 8.08 0.12 170.89 1.33 0.09

发现sdi这个硬盘的await:平均每次设备I/O操作的等待时间很高

查看硬盘状态
smartctl -H /dev/sdi

[root@hdfsdata1 /]smartctl -H /dev/sdi
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-431.el6.x86_64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net Smartctl open device: /dev/sdi failed: No such device or address

查看其他盘状态(正常)

smartctl -H /dev/sda

[root@hdfsdata1 /]smartctl -H /dev/sda
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-431.el6.x86_64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net SMART Health Status: OK

进入目录验证

[root@hdfsdata1 /]cd /data09
[root@hdfsdata1 data09]pwd
/data09
[root@hdfsdata1 data09]ll
ls: 正在读取目录.: 输入/输出错误
总用量 0

发现/dev/sdi这个磁盘确实存在问题!

hadoop 之 某一个datanode启动失败(Initialization failed for Block pool <registering> (Datanode Uuid unassigned) service to)的更多相关文章

  1. FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block pool <registering> (Datanode Uuid unassigned) service to controller/192.168.1.183:9000. Exiting. java.io.IOExcep

    2018-01-09 09:47:38,297 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed ...

  2. Initialization failed for Block pool <registering> (Datanode Uuid unassigned) service to IP1:8020 Invalid volume failure config value: 1

    2017-02-27 16:19:44,739 ERROR datanode.DataNode: Initialization failed for Block pool <registerin ...

  3. Datanode启动问题 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block pool <registering>

    -- ::, INFO org.apache.hadoop.hdfs.server.datanode.DataNode: supergroup = supergroup -- ::, INFO org ...

  4. Initialization failed for block pool Block pool(转载)

    2014-06-18 20:34:59,622 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed ...

  5. namenode和datanode启动失败

    1.namenode启动失败,查看错误原因,是无法格式化,再看日志,根据日志提示,清空对应的目录,即可解决这个问题. 2.datanode启动失败: Can't open /var/run/cloud ...

  6. 最近有安装了一次hadoop集群,NameNode启动失败,及原因

    最近有安装了一次hadoop集群,NameNode启动失败,查看日志,找到以下原因: 遇到的异常1: org.apache.hadoop.hdfs.server.common.Inconsistent ...

  7. hadoop datanode启动失败

    问题导读: 1.Hadoop出现问题时,该如何入手查看问题?2.datanode无法启动,我们该怎么解决?3.如何动态加入DataNode或TaskTracker? 一.问题描述当我多次格式化文件系统 ...

  8. hadoop datanode启动失败(All directories in dfs.data.dir are invalid)

    由于hadoop节点的磁盘满了,导致节点死掉,今天对其进行扩容.首先,将原节点的数据拷贝到目标节点下,从而避免数据的丢失,但是在执行hadoop_daemon.sh start datanode后没有 ...

  9. datanode启动失败

    当我动态加入一个hadoop从节点的之后,出现了一个问题: [root@hadoop current]# hadoop-daemon.sh start datanode starting datano ...

随机推荐

  1. Element-ui 中对表单进行验证

    Element-ui 中对表单(Form)绑定的对象中的对象属性进行校验 如果是直接绑定属性,是可以的,但是绑定对象中的属性就需要特别处理,需要在rules中添加双引号 " "或者 ...

  2. AJAX - Http 中 post 和 get 的区别

    HTTP: post 和 get 是 HTTP 协议中的两种方法.浏览器和服务器的交互是通过 HTTP 协议执行的,他的全称为Hyper Text Transfer Protocol(超文本传输协议) ...

  3. .net 5 开发部署B/S程序。

    现在.net 6 已经出来了,visualStudio 2022也发行预览版了. 自 .net5 发布,.net core 与.net framework 已经走向统一.确实越来越好用了. 现在.ne ...

  4. Redis单点到集群迁移

    目录 一.简介 一.简介 1.环境 源 192.168.1.185的6379 目标 192.168.1.91的7001,7002 192.168.1.92的7003,7004 192.168.1.94 ...

  5. 如何用PHP/MySQL为 iOS App 写一个简单的web服务器(译) PART1

    原文:http://www.raywenderlich.com/2941/how-to-write-a-simple-phpmysql-web-service-for-an-ios-app 作为一个i ...

  6. threejs 贴图动画总结

    引言 在三维可视化中,会涉及到很多动画,其中贴图动画是其中很重要的一种,本文介绍几种贴图动画的思路,供大家一起探讨. 流动动画 流动动画通过设置贴图的repeat属性,并不断改变贴图对象的offset ...

  7. 解放生产力「GitHub 热点速览 v.21.51」

    作者:HelloGitHub-小鱼干 解放生产力一直都是我们共同追求的目标,能在摸鱼的空闲把赚了.而大部分好用的工具便能很好地解放我们的生产力,比如本周特推 RedisJSON 不用对 JSON 做哈 ...

  8. Java网络多线程编程:对象流错误导致Connection reset

    Java网络多线程编程--对象流错误导致Connection reset 在老韩的网络多线程编程实战项目中,发生了如下报错: 服务器端和客户端均发生了报错,在确定相应对象流代码完全没有问题之后,回归定 ...

  9. Python3 json &pickle 数据序列化

    json 所有语言通用的信息交换格式 json.dumps()将list列表.dict字典.元组.函数等对象转换为可以存储的字符格式存入文件 json.dump(数据对象名,已以写方式打开的对象) 直 ...

  10. 大型网站高可用架构之CAP原理

    在讨论高可用数据服务架构之前,必须先讨论的一个话题是,为了保证数据的高可用,网站通常会牺牲另一个也很重要的指标:数据一致性. CAP原理认为,一个提供数据服务的存储系统无法同时满足数据一致性.数据可用 ...