hadoop namenode启动失败

hadoop version=3.1.2

生产环境中，一台namenode节点突然挂掉了，，重新启动失败，日志如下：

Info=-64%3A1391355681%3A1545175191847%3ACID-9160c87b-3ab7-4372-98a1-536a59dd36ef&inProgressOk=true' to transaction ID 159168296

2019-03-05 14:38:06,460 INFO org.apache.hadoop.hdfs.server.namenode.RedundantEditLogInputStream: Fast-forwarding stream 'http://xxx:8480/getJournal?jid=GD-AI&segmentTxId=162853718&storageInfo=-64%3A1391355681%3A1545175191847%3ACID-9160c87b-3ab7-4372-98a1-536a59dd36ef&inProgressOk=true' to transaction ID 159168296

2019-03-05 14:38:06,487 WARN org.apache.hadoop.hdfs.server.namenode.FSNamesystem: Encountered exception loading fsimage

java.io.IOException: There appears to be a gap in the edit log.  We expected txid 159168296, but got txid 162853718.

        at org.apache.hadoop.hdfs.server.namenode.MetaRecoveryContext.editLogLoaderPrompt(MetaRecoveryContext.java:94)

        at org.apache.hadoop.hdfs.server.namenode.FSEditLogLoader.loadEditRecords(FSEditLogLoader.java:238)

        at org.apache.hadoop.hdfs.server.namenode.FSEditLogLoader.loadFSEdits(FSEditLogLoader.java:160)

        at org.apache.hadoop.hdfs.server.namenode.FSImage.loadEdits(FSImage.java:890)

        at org.apache.hadoop.hdfs.server.namenode.FSImage.loadFSImage(FSImage.java:745)

        at org.apache.hadoop.hdfs.server.namenode.FSImage.recoverTransitionRead(FSImage.java:323)

        at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.loadFSImage(FSNamesystem.java:1097)

        at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.loadFromDisk(FSNamesystem.java:714)

        at org.apache.hadoop.hdfs.server.namenode.NameNode.loadNamesystem(NameNode.java:632)

        at org.apache.hadoop.hdfs.server.namenode.NameNode.initialize(NameNode.java:694)

        at org.apache.hadoop.hdfs.server.namenode.NameNode.<init>(NameNode.java:937)

        at org.apache.hadoop.hdfs.server.namenode.NameNode.<init>(NameNode.java:910)

        at org.apache.hadoop.hdfs.server.namenode.NameNode.createNameNode(NameNode.java:1643)

        at org.apache.hadoop.hdfs.server.namenode.NameNode.main(NameNode.java:1710)

2019-03-05 14:38:06,490 INFO org.eclipse.jetty.server.handler.ContextHandler: Stopped o.e.j.w.WebAppContext@6950ed69{/,null,UNAVAILABLE}{/hdfs}

2019-03-05 14:38:06,494 INFO org.eclipse.jetty.server.AbstractConnector: Stopped ServerConnector@5f20155b{HTTP/1.1,[http/1.1]}{xxx:50070}

2019-03-05 14:38:06,494 INFO org.eclipse.jetty.server.handler.ContextHandler: Stopped o.e.j.s.ServletContextHandler@4722ef0c{/static,file:///data1/hadoop/hadoop-3.1.2/share/hadoop/hdfs/webapps/static/,UNAVAILABLE}

2019-03-05 14:38:06,494 INFO org.eclipse.jetty.server.handler.ContextHandler: Stopped o.e.j.s.ServletContextHandler@5b38c1ec{/logs,file:///data1/hadoop/hadoop-3.1.2/logs/,UNAVAILABLE}

2019-03-05 14:38:06,495 INFO org.apache.hadoop.metrics2.impl.MetricsSystemImpl: Stopping NameNode metrics system...

2019-03-05 14:38:06,496 INFO org.apache.hadoop.metrics2.impl.MetricsSystemImpl: NameNode metrics system stopped.

2019-03-05 14:38:06,496 INFO org.apache.hadoop.metrics2.impl.MetricsSystemImpl: NameNode metrics system shutdown complete.

2019-03-05 14:38:06,496 ERROR org.apache.hadoop.hdfs.server.namenode.NameNode: Failed to start namenode.

java.io.IOException: There appears to be a gap in the edit log.  We expected txid 159168296, but got txid 162853718.

        at org.apache.hadoop.hdfs.server.namenode.MetaRecoveryContext.editLogLoaderPrompt(MetaRecoveryContext.java:94)

        at org.apache.hadoop.hdfs.server.namenode.FSEditLogLoader.loadEditRecords(FSEditLogLoader.java:238)

        at org.apache.hadoop.hdfs.server.namenode.FSEditLogLoader.loadFSEdits(FSEditLogLoader.java:160)

        at org.apache.hadoop.hdfs.server.namenode.FSImage.loadEdits(FSImage.java:890)

        at org.apache.hadoop.hdfs.server.namenode.FSImage.loadFSImage(FSImage.java:745)

        at org.apache.hadoop.hdfs.server.namenode.FSImage.recoverTransitionRead(FSImage.java:323)

        at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.loadFSImage(FSNamesystem.java:1097)

        at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.loadFromDisk(FSNamesystem.java:714)

        at org.apache.hadoop.hdfs.server.namenode.NameNode.loadNamesystem(NameNode.java:632)

        at org.apache.hadoop.hdfs.server.namenode.NameNode.initialize(NameNode.java:694)

        at org.apache.hadoop.hdfs.server.namenode.NameNode.<init>(NameNode.java:937)

        at org.apache.hadoop.hdfs.server.namenode.NameNode.<init>(NameNode.java:910)

        at org.apache.hadoop.hdfs.server.namenode.NameNode.createNameNode(NameNode.java:1643)

        at org.apache.hadoop.hdfs.server.namenode.NameNode.main(NameNode.java:1710)

2019-03-05 14:38:06,497 INFO org.apache.hadoop.util.ExitUtil: Exiting with status 1: java.io.IOException: There appears to be a gap in the edit log.  We expected txid 159168296, but got txid 162853718.

2019-03-05 14:38:06,499 INFO org.apache.hadoop.hdfs.server.namenode.NameNode: SHUTDOWN_MSG:

/************************************************************c

从报错来看，，是获取edit log日志出错。说白点，就是namenode元数据破坏了，需要修复。

解决：

（1）、在出错的机器执行如下命令，一路按c或者y

# hadoop namenode -recover

（2）、如果第一种没有解决，那么按如下的方法来解决

解决步骤与命令：
1）确保另外一个active的nn是正常的且不要去关闭，如果此前提不保证，则寻找另外解决方法，底下忽略；
2）然后检查active-nn的元数据目录下的fsimage是否是最新的，可根据当前机器时间来大致判断，如否则需要进入安全模式后savenamespace，操作如下：
du -sh /hadoop/journal/ 这个的大小也要确定下，太大则很会很慢

su hdfs
export HADOOP_CLIENT_OPTS="-D transwarp.maintenance.only.mode=true"
hdfs dfsadmin –safemode get
hdfs dfsadmin -safemode enter
hdfs dfsadmin –saveNamespace
hdfs dfsadmin -safemode leave

3）然后把hive1(当前active) 的disk1的这current两个最新的标红色fsimge以及对应的md5的文件，scp到hive2（启动失败的nn）的disk1 的同样目录current目录下，当然一般dfs.namenode.name.dir配置的是两块磁盘，另外一个也需要scp过去，最后需要注意复制过去文件的权限，需要修改权限chown hdfs:hdfs xx文件

重启此前失败的standby-namenode;

借鉴：http://support.transwarp.cn/t/namenode/2242

hadoop namenode启动失败的更多相关文章

hadoop的namenode启动失败
1.jps发现namenode启动失败每次开机都要重新格式化一下namenode才可以其实问题出现自tmp文件上,因为每次开机就会被清空,所以现在我们配置一个tmp文件目录. 如果之前没有配置过, ...
hadoop中namenode启动失败
jps发现namenode启动失败每次开机都要重新格式化一下namenode才可以其实问题出现自tmp文件上,因为每次开机就会被清空,所以现在我们配置一个tmp文件目录. 如果之前没有配置过,默认 ...
最近有安装了一次hadoop集群，NameNode启动失败，及原因
最近有安装了一次hadoop集群,NameNode启动失败,查看日志,找到以下原因: 遇到的异常1: org.apache.hadoop.hdfs.server.common.Inconsistent ...
hadoop datanode启动失败
问题导读: 1.Hadoop出现问题时,该如何入手查看问题?2.datanode无法启动,我们该怎么解决?3.如何动态加入DataNode或TaskTracker? 一.问题描述当我多次格式化文件系统 ...
hadoop namenode启动过程详细剖析及瓶颈分析
NameNode中几个关键的数据结构 FSImage Namenode 会将HDFS的文件和目录元数据存储在一个叫fsimage的二进制文件中,每次保存fsimage之后到下次保存之间的所有hdfs操 ...
Hadoop namenode启动瓶颈分析
NameNode启动过程详细剖析 NameNode中几个关键的数据结构 FSImage Namenode会将HDFS的文件和目录元数据存储在一个叫fsimage的二进制文件中,每次保存fsimage之 ...
[原创]Hadoop默认设置导致NameNode启动失败一例
看到市面上很多书在讲解Hadoop的时候都轻描淡写的提到了HDFS的设置问题.大多采取的是默认设置,最多也就是设置一些副本数量之类. 笔者在工作中遇到了这样一种情况:每次重启系统之后,NameNode ...
HDFS中namenode启动失败
1.环境配置: -1.core-site.xml文件 <configuration> <property> <name>fs.defaultFS</name& ...
hadoop datanode启动失败（All directories in dfs.data.dir are invalid）
由于hadoop节点的磁盘满了,导致节点死掉,今天对其进行扩容.首先,将原节点的数据拷贝到目标节点下,从而避免数据的丢失,但是在执行hadoop_daemon.sh start datanode后没有 ...

随机推荐

Asp.Net进阶/管家模式+发布订阅模式：练习
现在需要实现一个需求:我需要在一个窗体中发送一个信息,其余几个窗体都能同时接收到发送的消息. 1.界面:一个管家窗体,1个主窗体,2个订阅者窗体.其中管家窗体为启动窗体. 2.订阅:2个订阅窗体订阅主 ...
C#委托，匿名方法，Lambda，泛型委托，表达式树代码示例
第一分钟:委托有些教材,博客说到委托都会提到事件,虽然事件是委托的一个实例,但是为了理解起来更简单,今天只谈委托不谈事件.先上一段代码: 下边的代码,完成了一个委托应用的演示.一个委托分三个步骤: ...
VBA嵌套if语句
一个If或ElseIf语句可以嵌套在另一个If或ElseIf语句中.内部的If语句是根据最外层的If语句执行的.这使得VBScript能够轻松处理复杂的条件. 语法以下是VBScript中嵌套的If ...
【转载】C#使用FirstOrDefault方法快速查找List集合中符合条件的第一个实体
在C#的List集合的操作中,有时候我们需要根据相关条件快速从List集合中获取到第一个符合条件的实体对象,例如有个全校班级的List集合,我们需要根据班级代码快速从List集合中查找出班级信息.可以 ...
How to delete SAP* from HANA Tenant database
How to delete SAP* from HANA Tenant database 1.如何登录HANA的多租户(TDC)数据库使用SAPS4端对应的SAP账户,比如S4D的账户为s4dadm ...
java - day012 - 异常 , throws, throw , IO ,RandomAccessFile
异常封装错误信息的对象错误信息类型例如: NullPointerExce 空指针提示消息出错的行号异常的继承结构 Throwable | - Error 系统级错误 | ...
Yum三方仓库——EPEL
参考:什么是EPEL 及 Centos上安装EPEL 参考:How to Enable EPEL Repository for RHEL/CentOS 7.x/6.x/5.x 前言 RHEL以及他的衍 ...
WindowsPE
什么是WindowsPE Windows Preinstallation Environment(Windows PE),Windows预引导环境,是带有有限服务的最小Win32子系统,基于以保护模式 ...
部署Nginx网站服务实现访问状态统计以及访问控制功能
原文:https://blog.51cto.com/11134648/2130987 Nginx专为性能优化而开发,最知名的优点是它的稳定性和低系统资源消耗,以及对HTTP并发连接的高处理能力,单个物 ...
随便写一个c++类
为了让代码更贴合实际项目需要,我们分别用xxx.h文件,xxx.cpp文件来包含类的定义,类的声明和类的调用部分,实验平台vs2010 mycoach.h文件 #pragma once #includ ...

hadoop namenode启动失败

hadoop namenode启动失败的更多相关文章

随机推荐

热门专题