环境

集群7台

master 3台

datanode 4台

每个datanode有12个硬盘

场景

启动集群之后,发现有一台datanode未启动,手动启动,还是未启动。查看日志,发现:

Initialization failed for Block pool <registering> (Datanode Uuid unassigned) service to

百度之后,说是磁盘有问题

核查

查看硬盘信息

[root@hdfsdata1 /]df -h
Filesystem Size Used Avail Use% Mounted on
/dev/mapper/VolGroup-lv_root 50G 3.2G 44G 7% /
tmpfs 63G 0 63G 0% /dev/shm
/dev/sdm2 485M 40M 421M 9% /boot
/dev/sdm1 200M 260K 200M 1% /boot/efi
/dev/mapper/VolGroup-lv_home 5.0G 161M 4.6G 4% /home
/dev/mapper/VolGroup-lv_zhjs 197G 3.2G 184G 2% /zhjs
/dev/sda 5.4T 17G 5.1T 1% /data01
/dev/sdb 5.4T 17G 5.1T 1% /data02
/dev/sdc 5.4T 18G 5.1T 1% /data03
/dev/sdd 5.4T 18G 5.1T 1% /data04
/dev/sde 5.4T 18G 5.1T 1% /data05
/dev/sdf 5.4T 18G 5.1T 1% /data06
/dev/sdg 5.4T 18G 5.1T 1% /data07
/dev/sdh 5.4T 18G 5.1T 1% /data08
/dev/sdi 5.4T 24G 5.1T 1% /data09
/dev/sdj 5.4T 18G 5.1T 1% /data10
/dev/sdk 5.4T 17G 5.1T 1% /data11
/dev/sdl 5.4T 1.7T 3.5T 32% /data12

查看磁盘状态
iostat -x -k

[root@hdfsdata1 /] iostat -x -k
Linux 2.6.32-431.el6.x86_64 (hdfsdata1) 2021年09月05日 _x86_64_ (32 CPU)
avg-cpu: %user %nice %system %iowait %steal %idle
0.20 0.00 0.06 0.02 0.00 99.73
Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await svctm %util
sda 0.00 3.67 0.04 0.14 2.98 15.24 204.79 0.01 70.48 0.76 0.01
sdc 0.00 3.86 0.06 0.14 4.09 16.03 201.01 0.01 65.44 0.76 0.02
sde 0.00 8.35 0.05 0.20 3.88 34.19 308.30 0.03 104.15 1.03 0.03
sdf 0.00 5.42 0.07 0.17 4.70 22.35 227.83 0.02 74.27 0.85 0.02
sdm 0.01 1.11 0.01 0.85 0.26 7.87 18.87 0.01 15.66 5.71 0.49
sdg 0.00 6.96 0.06 0.18 4.22 28.57 272.65 0.02 88.65 0.93 0.02
sdh 0.00 11.60 0.06 0.24 5.30 47.36 347.48 0.03 113.76 1.08 0.03
sdi 0.00 2.23 0.01 0.11 1.50 9.40 170.01 0.06 446.02 3.37 0.04
sdb 0.00 3.53 0.05 0.14 3.77 14.66 200.25 0.01 65.31 0.77 0.01
sdj 0.00 4.89 0.05 0.16 4.71 20.21 235.10 0.02 116.51 1.61 0.03
sdk 0.00 4.52 0.06 0.16 5.91 18.71 220.89 0.02 109.69 1.60 0.04
sdl 0.01 37.37 0.04 0.78 3.44 152.72 380.19 0.11 137.09 1.30 0.11
sdd 0.00 4.57 0.07 0.15 5.02 18.89 217.37 0.01 67.86 0.82 0.02
dm-0 0.00 0.00 0.01 1.22 0.18 4.86 8.26 0.08 65.84 3.06 0.37
dm-1 0.00 0.00 0.01 0.00 0.05 0.01 8.00 0.00 4.31 0.42 0.00
dm-2 0.00 0.00 0.00 0.07 0.00 0.27 8.00 0.00 9.46 4.88 0.03
dm-3 0.00 0.00 0.00 0.68 0.03 2.73 8.08 0.12 170.89 1.33 0.09

发现sdi这个硬盘的await:平均每次设备I/O操作的等待时间很高

查看硬盘状态
smartctl -H /dev/sdi

[root@hdfsdata1 /]smartctl -H /dev/sdi
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-431.el6.x86_64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net Smartctl open device: /dev/sdi failed: No such device or address

查看其他盘状态(正常)

smartctl -H /dev/sda

[root@hdfsdata1 /]smartctl -H /dev/sda
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-431.el6.x86_64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net SMART Health Status: OK

进入目录验证

[root@hdfsdata1 /]cd /data09
[root@hdfsdata1 data09]pwd
/data09
[root@hdfsdata1 data09]ll
ls: 正在读取目录.: 输入/输出错误
总用量 0

发现/dev/sdi这个磁盘确实存在问题!

hadoop 之 某一个datanode启动失败(Initialization failed for Block pool <registering> (Datanode Uuid unassigned) service to)的更多相关文章

  1. FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block pool <registering> (Datanode Uuid unassigned) service to controller/192.168.1.183:9000. Exiting. java.io.IOExcep

    2018-01-09 09:47:38,297 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed ...

  2. Initialization failed for Block pool <registering> (Datanode Uuid unassigned) service to IP1:8020 Invalid volume failure config value: 1

    2017-02-27 16:19:44,739 ERROR datanode.DataNode: Initialization failed for Block pool <registerin ...

  3. Datanode启动问题 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block pool <registering>

    -- ::, INFO org.apache.hadoop.hdfs.server.datanode.DataNode: supergroup = supergroup -- ::, INFO org ...

  4. Initialization failed for block pool Block pool(转载)

    2014-06-18 20:34:59,622 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed ...

  5. namenode和datanode启动失败

    1.namenode启动失败,查看错误原因,是无法格式化,再看日志,根据日志提示,清空对应的目录,即可解决这个问题. 2.datanode启动失败: Can't open /var/run/cloud ...

  6. 最近有安装了一次hadoop集群,NameNode启动失败,及原因

    最近有安装了一次hadoop集群,NameNode启动失败,查看日志,找到以下原因: 遇到的异常1: org.apache.hadoop.hdfs.server.common.Inconsistent ...

  7. hadoop datanode启动失败

    问题导读: 1.Hadoop出现问题时,该如何入手查看问题?2.datanode无法启动,我们该怎么解决?3.如何动态加入DataNode或TaskTracker? 一.问题描述当我多次格式化文件系统 ...

  8. hadoop datanode启动失败(All directories in dfs.data.dir are invalid)

    由于hadoop节点的磁盘满了,导致节点死掉,今天对其进行扩容.首先,将原节点的数据拷贝到目标节点下,从而避免数据的丢失,但是在执行hadoop_daemon.sh start datanode后没有 ...

  9. datanode启动失败

    当我动态加入一个hadoop从节点的之后,出现了一个问题: [root@hadoop current]# hadoop-daemon.sh start datanode starting datano ...

随机推荐

  1. SpringBoot 项目不加载 application.properties 配置文件

    起因:新安装的idea第一次运行springboot项目报url错误(Failed to configure a DataSource: 'url' attribute is not specifie ...

  2. CSS伪类选择器实现三角形

    使用css实现常用的三角效果 项目中三角: .breadcrumb{ height: 40px; line-height: 40px; padding: 0 20px; border-top: 1px ...

  3. 论文翻译:2021_MetricGAN+: An Improved Version of MetricGAN for Speech Enhancement

    论文地址:MetricGAN+:用于语音增强的 MetricGAN 的改进版本 论文代码:https://github.com/JasonSWFu/MetricGAN 引用格式:Fu S W, Yu ...

  4. CF1461A String Generation 题解

    Content 构造一个仅由 a,b,c 三个字符组成,且最长回文子串长度不超过 \(k\) 的长度为 \(n\) 的字符串. 数据范围:数据组数 \(\leqslant 10\),\(1\leqsl ...

  5. 【九度OJ】题目1174:查找第K小数 解题报告

    [九度OJ]题目1174:查找第K小数 解题报告 标签(空格分隔): 九度OJ 原题地址:http://ac.jobdu.com/problem.php?pid=1174 题目描述: 查找一个数组的第 ...

  6. 【LeetCode】479. Largest Palindrome Product 解题报告(Python & C++)

    作者: 负雪明烛 id: fuxuemingzhu 个人博客: http://fuxuemingzhu.cn/ 目录 题目描述 题目大意 解题方法 日期 题目地址:https://leetcode.c ...

  7. 【LeetCode】688. Knight Probability in Chessboard 解题报告(Python)

    作者: 负雪明烛 id: fuxuemingzhu 个人博客: http://fuxuemingzhu.cn/ 题目地址:https://leetcode.com/problems/knight-pr ...

  8. 【】二次通告--Apache log4j-2.15.0-rc1版本存在绕过风险,请广大用户尽快更新版本

    [转载自360众测] Apache Log4j2是一个基于Java的日志记录工具.该工具重写了Log4j框架,并且引入了大量丰富的特性.我们可以控制日志信息输送的目的地为控制台.文件.GUI组件等,通 ...

  9. Azure Data Lake(一) 在NET Core 控制台中操作 Data Lake Storage

    一,引言 Azure Data Lake Storage Gen2 是一组专用于大数据分析的功能,基于 Azure Blob Storage 构建的.Data Lake Storage Gen2 包含 ...

  10. CoGAN

    目录 概 主要内容 代码 Liu M., Tuzel O. Coupled Generative Adversarial Networks. NIPS, 2016. 概 用GAN和数据(从边缘分布中采 ...