问题背景

　　春节假期间，接连收到监控程序发出的数据异常问题，赶忙连接上跳板机检查各服务间的状态，发现Datanode在第二台、第三台从节点都掉线了，通过查看Datanode和Namenode运行日志，发现了问题所在，记录下这次惊心的处理过程，供参考。

问题描述

　　Namonode主节点运行时报出内存溢出的问题，截取运行日志如下：

java.lang.OutOfMemoryError: GC overhead limit exceeded

    at java.lang.Long.valueOf(Long.java:577)

    at org.apache.hadoop.hdfs.protocol.proto.DatanodeProtocolProtos$StorageBlockReportProto.<init>(DatanodeProtocolProtos.java:17327)

    at org.apache.hadoop.hdfs.protocol.proto.DatanodeProtocolProtos$StorageBlockReportProto.<init>(DatanodeProtocolProtos.java:17250)

    at org.apache.hadoop.hdfs.protocol.proto.DatanodeProtocolProtos$StorageBlockReportProto$1.parsePartialFrom(DatanodeProtocolProtos.java:17381)

    at org.apache.hadoop.hdfs.protocol.proto.DatanodeProtocolProtos$StorageBlockReportProto$1.parsePartialFrom(DatanodeProtocolProtos.java:17376)

    at com.google.protobuf.CodedInputStream.readMessage(CodedInputStream.java:309)

　　Datanode数据节点运行时报出Socket连接主节点Namenode超时异常，

INFO org.apache.hadoop.hdfs.server.datanode.DataNode: Got finalize command for block pool BP-029006-xxx

WARN org.apache.hadoop.hdfs.server.datanode.DataNode: IOException in offerService

java.net.SocketTimeoutException: Call From xxx/xxx to xxx:xxx failed on socket timeout exception: java.net.SocketTimeoutException: 60000 millis timeout while waiting for channel to be ready for read. ch : java.nio.channels.SocketChannel[connected local=/xxx:xxx remote=xxx/xxx]; For more details see:  http://wiki.apache.org/hadoop/SocketTimeout

    at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)

    at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:57)

    at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)

    at java.lang.reflect.Constructor.newInstance(Constructor.java:526)

    at org.apache.hadoop.net.NetUtils.wrapWithMessage(NetUtils.java:792)

    at org.apache.hadoop.net.NetUtils.wrapException(NetUtils.java:751)

    at org.apache.hadoop.ipc.Client.call(Client.java:1480)

    at org.apache.hadoop.ipc.Client.call(Client.java:1407)

    at org.apache.hadoop.ipc.ProtobufRpcEngine$Invoker.invoke(ProtobufRpcEngine.java:229)

    at com.sun.proxy.$Proxy13.sendHeartbeat(Unknown Source)

    at org.apache.hadoop.hdfs.protocolPB.DatanodeProtocolClientSideTranslatorPB.sendHeartbeat(DatanodeProtocolClientSideTranslatorPB.java:153)

    at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.sendHeartBeat(BPServiceActor.java:553)

    at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.offerService(BPServiceActor.java:653)

    at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.run(BPServiceActor.java:823)

    at java.lang.Thread.run(Thread.java:745)

Caused by: java.net.SocketTimeoutException: 60000 millis timeout while waiting for channel to be ready for read. ch : java.nio.channels.SocketChannel[connected local=/xxx:xxx remote=xxx/xxx]

解决方案

修改Hadoop集群服务中各服务组件的内存配置，更新hadoop-env.sh文件

　　其中hadoop-env.sh文件所在位置：

$HADOOP_HOME/etc/hadoop/hadoop-env.sh

　　Hadoop为各个守护进程（namenode、secondaryNamenode、jobtracker、datanode、tasktracker）统一分配的内存在hadoop-env.sh中设置，参数为HADOOP_HEAPSIZE，默认大小为1000MB。

　　大部分情况下，这个统一设置的值可能并不适合。例如对于NameNode节点，1000M的内存只能存储几百万个文件的数据块的引用。如果我想单独设置NameNode的内存，可以通HADOOP_NAMENODE_OPTS来设置。同样的，可以通过HADOOP_SECONDARYNAMENODE_OPTS来设置SecondaryNamenode的内存，使得它与NameNode保持一致。当然，还有HADOOP_DATANODE_OPTS、HADOOP_BALANCER_OPTS、HADOOP_JOBTRACKER_OPTS变量供你使用。

　　针对上面提到的问题，我们需要提高NameNode和SecondaryNamenode的内存，即修改HADOOP_NAMENODE_OPTS参数，添加配置 -Xmx2048m ，可设置为2048MB，供参考。同样通过设置HADOOP_SECONDARYNAMENODE_OPTS参数来提高SecondaryNamenode的使用内存，添加参数配置， -Xmx2048m ，也可以设置为2048MB，供参考。根据实际的数据量来调整，数据量越大可适当调高，另需注意服务器的实际内存大小。

# Command specific options appended to HADOOP_OPTS when specified

export HADOOP_NAMENODE_OPTS="-Dhadoop.security.logger=${HADOOP_SECURITY_LOGGER:-INFO,RFAS} -Dhdfs.audit.logger=${HDFS_AUDIT_LOGGER:-INFO,NullAppender} -Xmx2048m $HADOOP_NAMENODE_OPTS"

export HADOOP_DATANODE_OPTS="-Dhadoop.security.logger=ERROR,RFAS -Xmx2048m $HADOOP_DATANODE_OPTS"

export HADOOP_SECONDARYNAMENODE_OPTS="-Dhadoop.security.logger=${HADOOP_SECURITY_LOGGER:-INFO,RFAS} -Dhdfs.audit.logger=${HDFS_AUDIT_LOGGER:-INFO,NullAppender} -Xmx2048m $HADOOP_SECONDARYNAMENODE_OPTS"

Hadoop-env.sh Update

NameNode内存溢出和DataNode请求超时异常处理的更多相关文章

nodejs内存溢出 FATAL ERROR: CALL_AND_RETRY_0 Allocation failed – process out of memory
spa项目整体迁移转为ssr后,改动之后部署一切还好,就是突然有一天访问人数太多,node进程很容易就挂了自动重启. 最后经过压力测试,考虑到是堆内存溢出的问题,就报错误:FATAL ERROR: C ...
用http请求thrift服务端出现了内存溢出的情况
记一次内存溢出的分析经历 - Janti - 博客园 https://www.cnblogs.com/superfj/p/8474288.html 说在前面的话朋友,你经历过部署好的服务突然内存溢出 ...
精讲响应式WebClient第5篇-请求超时设置与异常处理
本文是精讲响应式WebClient第5篇,前篇的blog访问地址如下: 精讲响应式webclient第1篇-响应式非阻塞IO与基础用法精讲响应式WebClient第2篇-GET请求阻塞与非阻塞调用方 ...
java.lang.OutOfMemoryError: PermGen space异常处理（内存溢出）
楼主刚接触到这个问题,问度娘,直接查到的都是让在tomcat>bin>catalina.sh文件的“echo "Using CATALINA_BASE: $CATALINA_B ...
Hadoop：HDFS NameNode内存全景
原文转自:https://tech.meituan.com/namenode.html 感谢原作者一.概述从整个HDFS系统架构上看,NameNode是其中最重要.最复杂也是最容易出现问题的地方, ...
HDFS NameNode内存全景
一.概述从整个HDFS系统架构上看,NameNode是其中最重要.最复杂也是最容易出现问题的地方,而且一旦NameNode出现故障,整个Hadoop集群就将处于不可服务的状态,同时随着数据规模和集群 ...
Tomcat中JVM内存溢出及合理配置及maxThreads如何配置(转)
来源:http://www.tot.name/html/20150530/20150530102930.htm Tomcat本身不能直接在计算机上运行,需要依赖于硬件基础之上的操作系统和一个Java虚 ...
JVM基础知识（1）-JVM内存区域与内存溢出
JVM基础知识(1)-JVM内存区域与内存溢出 0. 目录什么是JVM 运行时数据区域 HotSpot虚拟机对象探秘 OutOfMemoryError异常 1. 什么是JVM 1.1. 什么是JVM ...
JVM自动内存管理-Java内存区域与内存溢出异常
摘要: JVM内存的划分,导致内存溢出异常的可能区域. 1. JVM运行时内存区域 JVM在执行Java程序的过程中会把它所管理的内存划分为以下几个区域: 1.1 程序计数器程序计数器是一块较小的内 ...

随机推荐

题解 P1120 【小木棍［数据加强版］】
题面乔治有一些同样长的小木棍,他把这些木棍随意砍成几段,直到每段的长都不超过50. 现在,他想把小木棍拼接成原来的样子,但是却忘记了自己开始时有多少根木棍和它们的长度. 给出每段小木棍的长度,编程帮 ...
Eclipse 插件安装报错问题（已解决）
错误信息提示: An error occurred while installing the items session context was:(profile=epp.package.jee, p ...
小程序报错数据传输长度为 xxx 已经超过最大长度 xxx
这个错误通常在通过base64给images赋值时发生,setData()微信设置的一次最大传输长度为1M,所有如果编码后的base64字符串长度超过了1M就会报这个错误. 如何解决? 我们可以采取曲 ...
Linux基础第一课——基础知识了解
前言发展历史 linus 林纳斯赫尔辛基大学在自己的笔记本上安上自己写的操作系统基于Linux内核 Linux内核也是基于unix内核开发出来 unix 不开源只能军方和大学使用 Linu ...
【转】1.2 CDN的基本工作过程
1.2 CDN的基本工作过程使用CDN会极大地简化网站的系统维护工作量,网站维护人员只需将网站内容注入CDN的系统,通过CDN部署在各个物理位置的服务器进行全网分发,就可以实现跨运营商.跨地域的用 ...
python json格式字符串转换为字典格式
不废话,看代码 #_*_ coding:utf- _*_ import os import json course=open('C:\\Users\\ly199\\Desktop\\list.txt' ...
python面试一:python2与python3的区别一
1.默认编码方式不同:py3用的是utf-8,变量名更为广泛.2.去除<>改用!=3加入as 和with关键字4./除法默认数据类型不同 py2 5/3=1 py3 5//3=15.去掉了 ...
Python2.7-tarfile
tarfile模块,读写 tar 压缩文件,包括用 gzip 或是 bz2 压缩的文件(如tar.bz2.tar.gz),一般使用 TarFile 类完成操作 1.模块方法 tarfile.is_ta ...
理解ASP.NET的IDataReader
理解ASP.NET的IDataReader ADO.NET DataReader对象可以从数据库中检索只读.只进的数据流.因为每次在内存中的数据只有一行,所以使用DataReader可提高应用程序的性 ...
x window的奥秘
阅读目录了解自己机器上的 X Window 理解 display 和虚拟控制台远程连接 X Server 理解 lightdm 和 X Window 桌面环境的启动过程搞定 xauth X Se ...

NameNode内存溢出和DataNode请求超时异常处理

问题背景

问题描述

解决方案

NameNode内存溢出和DataNode请求超时异常处理的更多相关文章

随机推荐

热门专题