记一次hadoop datanode进程问题分析
症状:datanode进程还在,但是在web ui接口发现该节点已经被置为dead节点。监测datanode进程日志,开始时一直狂刷很忙,后来停止刷新日志。
分析datanode进程日志,发现如下一些错误:
datanode.DataNode: PacketResponder java.io.IOException: Connection reset by peer
DataXceiver error processing WRITE_BLOCK operation java.io.IOException: Interrupted receiveBlock
java.io.EOFException: Premature EOF: no length prefix available
permanently terminating periodic scanner java.lang.OutOfMemoryError: Java heap space
Action: datanode process now is Xmx2048m 给datanode进程大一些 4G ? px集群现在是 xms3072m xmx8192m
transfering block BP-1538154135-172.17.254.17-1382076983184:blk_7146956383243812346_445834476 to mirror 172.17.254.102:50010: java.net.ConnectException: Connection timed out
DataXceiver error processing WRITE_BLOCK operation   java.net.ConnectException: Connection timed out
主要是网络相关,可以看到 读写block的时候超时之类的。有可能是网络带宽问题,之前听同事们反馈这批网卡带宽不行。
查看主配置文件hdfs-site.xml
<name>dfs.balance.bandwidthPerSec</name><value>104857600</value> 100M
dfs.socket.timeout --1800000  30min
 
dfs.namenode.handler.count  --20  
python -c 'import math ; print int(math.log(32) * 20)'  64
Action: 根据<hadoop operations>的计算公式,建议改为64 计算得出69.
可以减少datanode向namenode汇报心跳超时之类的问题
Action:
dfs.datanode.socket.write.timeout  480000   8m
建议增大时长至20分钟
Action:
dfs.datanode.max.xcievers  4096
建议修改为8192 可以打开的文件数量更多,减少读写块时出错的机率
记一次hadoop datanode进程问题分析的更多相关文章
- Hadoop问题:DataNode进程不见了
		DataNode进程不见了 问题描述 最近配置Hadoop的时候出现了这么一个现象,启动之后,使用jps命令之后是这样的: 看不到DataNode进程,但是能够正常的工作,是不是很神奇啊? 在一番 ... 
- hadoop在子节点上没有datanode进程
		经常会有这样的事情发生:在主节点上start-all.sh后,子节点有TaskTracker进程,而没有DataNode进程.环境:1NameNode 2DataNode三台机器,Hadoop为1 ... 
- 【Hadoop故障处理】全分布下,DataNode进程正常启动,但是网页上不显示,并且DataNode节点为空
		[故障背景] DataNode进程正常启动,但是网页上不显示,并且DataNode节点为空. /etc/hosts 的ip和hostname配置正常,各个机器之间能够ping通. [日志错误信息] ... 
- Hadoop完全分布式环境下,DataNode进程正常启动,但是网页上不显示DataNode节点
		Hadoop完全分布式环境下,上传文件到hdfs上时报错: // :: WARN hdfs.DFSClient: DataStreamer Exception org.apache.hadoop.ip ... 
- hadoop 关闭进程时报错no 进程 to stop
		前两天和朋友李天王吃饭的时候,聊到了一个hadoop的运维的很简单问题,感觉很有意思,以前也没有注意过,现在加以重现和整理. 感谢李天王的分享.... 翻看了yarn-deamon.sh st ... 
- hadoop datanode 和 tasktracker起不来
		本篇文章主要介绍了"hadoop datanode 和 tasktracker起不来.",主要涉及到hadoop datanode 和 tasktracker起不来.方面的内容,对 ... 
- 【Hadoop】Hadoop DataNode节点超时时间设置
		hadoop datanode节点超时时间设置 datanode进程死亡或者网络故障造成datanode无法与namenode通信,namenode不会立即把该节点判定为死亡,要经过一段时间,这段时间 ... 
- Nginx学习笔记(八) Nginx进程启动分析
		Nginx进程启动分析 worker子进程的执行循环的函数是ngx_worker_process_cycle (src/os/unix/ngx_process_cycle.c). 其中,捕获事件.分发 ... 
- MINIX3 进程通信分析
		MINIX3 进程通信分析 6.1MINIX3 进程通信概要 MINIX3 的进程通信是 MINIX3 内核部分最重要的一个部件,我个人认为其实这 是内核中的“内核”,怎么来理解这个概念呢?其实 MI ... 
随机推荐
- sns社区架构设计案例分享(二)
			源码下载地址:http://www.jinhusns.com/Products/Download/?type=xcj 五. 架构使用说明 > 缓存 > 使用说明 > (一)基础类库介 ... 
- sencha动态向容器里添加控件出现重叠问题
			sencha动态向容器里添加控件出现重叠问题原因是由于动态生成控件的id有重复导致的.(js取时间到毫秒来做id,放在for里面会出现几个控件id是相同的情况.).解决掉重复id的问题就好了. 版权声 ... 
- 【AngularJS学习笔记】02 小杂烩及学习总结
			表格示例 <div ng-app="myApp" ng-controller="customersCtrl"> <table> < ... 
- DP入门---饭卡
			HDU 2546 Description 电子科大本部食堂的饭卡有一种很诡异的设计,即在购买之前判断余额.如果购买一个商品之前,卡上的剩余金额大于或等于5元,就一定可以购买成功(即使购买后卡上余额 ... 
- 回文串--- Girls' research
			HDU 3294 Problem Description One day, sailormoon girls are so delighted that they intend to resear ... 
- yii2.0用户登录,退出判断(摘录)
			文章来源:http://blog.sina.com.cn/s/blog_88a65c1b0101ix13.html 判断用户是否登录 在 Yii2.0 里面,判断用户是否已经登录,我们用下面的代码即可 ... 
- Android5.0新特性——Material Design简介
			Material Design Material Design简介 Material Design是谷歌新的设计语言,谷歌希望寄由此来统一各种平台上的用户体验,Material Design的特点是干 ... 
- mongodb driver c#语法
			Definitions and BuildersThe driver has introduced a number of types related to the specification of ... 
- iScroll-js—“smooth scrolling for the web”
			原文地址: http://bigdots.github.io/2015/12/15/iScroll-js%E2%80%94%E2%80%94smooth%20scrolling%20for%20the ... 
- sqlserver 死锁原因及解决方法
			其实所有的死锁最深层的原因就是一个:资源竞争 表现一: 一个用户A 访问表A(锁住了表A),然后又访问表B,另一个用户B 访问表B(锁住了表B),然后企图访问表A,这时用户A由于用户B已经锁住表B,它 ... 
