Call From master/192.168.128.135 to master:8485 failed on connection exception: java.net.ConnectException: Connection refused

hadoop集群搭建了ha，初次启动正常，最近几天启动时偶尔发现，namenode1节点启动后一段时间（大约10几秒-半分钟左右），namenode1上namenode进程停掉，查看日志：

 -- ::, INFO org.apache.hadoop.ipc.Client: Retrying connect to server: slave1/192.168.128.136:. Already tried  time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=, sleepTime= MILLISECONDS)

 -- ::, WARN org.apache.hadoop.hdfs.server.namenode.FSEditLog: Unable to determine input streams from QJM to [192.168.128.135:, 192.168.128.136:, 192.168.128.137:]. Skipping.

 org.apache.hadoop.hdfs.qjournal.client.QuorumException: Got too many exceptions to achieve quorum size /.  successful responses:

 192.168.128.137:: [[,], [,], [,], [,], [,], [,], [,], [,], [,], [,], [,], [,], [,], [,], [,], [,], [,], [,]]

  exceptions thrown:

 192.168.128.136:: Call From master/192.168.128.135 to slave1: failed on connection exception: java.net.ConnectException: Connection refused; For more details see:  http://wiki.apache.org/hadoop/ConnectionRefused

 192.168.128.135:: Call From master/192.168.128.135 to master: failed on connection exception: java.net.ConnectException: Connection refused; For more details see:  http://wiki.apache.org/hadoop/ConnectionRefused

         at org.apache.hadoop.hdfs.qjournal.client.QuorumException.create(QuorumException.java:)

         at org.apache.hadoop.hdfs.qjournal.client.QuorumCall.rethrowException(QuorumCall.java:)

         at org.apache.hadoop.hdfs.qjournal.client.AsyncLoggerSet.waitForWriteQuorum(AsyncLoggerSet.java:)

         at org.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager.selectInputStreams(QuorumJournalManager.java:)

一、查阅资料后找到原因：

我是用start-al.sh启动的集群，journalnode（端口8485）是在namenode后启动的。默认情况下namenode启动10s(maxRetries=10, sleepTime=1000)后journalnode还没有启动，就会报上述错误。

二、解决方案：

1. 修改core-site.xml中的ipc参数

 <!--修改core-site.xml中的ipc参数,防止出现连接journalnode服务ConnectException-->

 <property>

     <name>ipc.client.connect.max.retries</name>

     <value>100</value>

     <description>Indicates the number of retries a client will make to establish a server connection.</description>

 </property>

 <property>

     <name>ipc.client.connect.retry.interval</name>

     <value>10000</value>

     <description>Indicates the number of milliseconds a client will wait for before retrying to establish a server connection.</description>

 </property>

注意：

　　1) 仅对于这种由于服务没有启动完成造成连接超时的问题，都可以调整core-site.xml中的ipc参数来解决。如果目标服务本身没有启动成功，这边调整ipc参数是无效的。

　　2) 该配置使namenode连接journalnode最大时间增加至1000s(maxRetries=100, sleepTime=10000),假如集群节点数过多，或者网络情况不稳定，造成连接时间超过1000s,仍会导致namenode挂掉。

2. 手动分步启动 (该方式不用修改配置文件)

 #启动hadfs,注意有的是在多个节点执行的。

 hadoop-daemons.sh start journalnode

 hadoop-daemon.sh start namenode  #每个namenode都要执行

 hadoop-daemon.sh start zkfc  #每个namenode都要执行

 hadoop-daemons.sh start datanode

 #启动yarn

 start-yarn.sh

分步启动集群的方式，因为journalnode是在namenode之前启动的，所以正常情况下一次就会连接成功，不会重试多次。

3. 先启动ha集群，报错后再单独启动namenode (该方式不用修改配置文件)

start-all.sh #启动ha集群

启动后等待一会，jps确认没有namenode,再重新单独启动namenode

hadoop-daemon.sh start namenode  #挂掉的namenode节点执行

PS: 该方式减少了输入量，又解决了异常。虽然是一种不够优雅的解决方式，但确是懒人的福音。

三、错误再次分析

　　由于部署好ha后，首次启动我是分步启动的，没有遇到该问题。之后都是start-all.sh启动，大约70%情况下会有该问题，30%左右的启动是正常的,究其原因，我想70%的时候journalnode启动比较慢，另有个别时候是启动比较快。实测中确实发现集群主机刚刚开机，就启动hadoop，会比较慢;等一段时间再启动或者首次启动hadoop后停止，然后再重新启动,这两种情况下hadoop启动会比较快。我是虚拟机，通常会第一时间启动hadoop，所以遇到这个坑的时候比较多。当然，找到了根本原因，无论hadoop启动快慢namenode都不会挂掉了。

　　另外namenode启动后有退出有多种原因，本文只针对启动的一种，具体情况需要查看日志并寻找合适解决方案。

致谢：http://www.linuxidc.com/Linux/2016-03/129437.htm

Call From master/192.168.128.135 to master:8485 failed on connection exception: java.net.ConnectException: Connection refused的更多相关文章

Caused by: java.net.ConnectException: Call From master/192.168.199.130 to master:9000 failed on connection exception: java.net.ConnectException: Connection refused; For more details see: http://wiki.
1:安装好hive,准备启动的时候出现下面的错误(由于hive是基于Hadoop的,所以必须先将你的集群启动起来,我就是没有启动集群,直接启动hive导致的错误): [root@master bin] ...
java.net.ConnectException: Call From slaver1/192.168.19.128 to slaver1:8020 failed on connection exception: java.net.ConnectException: Connection refused; For more details see: http://wiki.apache.org
1:练习spark的时候,操作大概如我读取hdfs上面的文件,然后spark懒加载以后,我读取详细信息出现如下所示的错误,错误虽然不大,我感觉有必要记录一下,因为错误的起因是对命令的不熟悉造成的,错误 ...
Bad connection to FS. command aborted. exception: Call to chaoren/192.168.80.100:9000 failed on connection exception: java.net.ConnectException: Connection refused
Bad connection to FS. command aborted. exception: Call to chaoren/192.168.80.100:9000 failed on conn ...
Hadoop格式化 From hu-hadoop1/192.168.11.11 to hu-hadoop2:8485 failed on connection exception: java.net.
192.168.11.12:8485: Call From hu-hadoop1/192.168.11.11 to hu-hadoop2:8485 failed on connection excep ...
ls: Call From hdoop2/192.168.18.87 to hdoop2:8020 failed on connection exception: java.net.ConnectException: 拒绝连接; For more details see
场景: 预发环境中,同事已经搭建了一套hadoop集群,由于版本与所需不符,所以需要替换版本问题描述: 在配置文件都准确的情况下,启动hadoop,出现以下报错: 启动之前初始化: 初始化目录 ...
格式化namenode时报错 No Route to Host from node1/192.168.1.111 to node3:8485 failed on socket timeout exception: java.net.NoRouteToHostException: No route to host
// :: FATAL namenode.NameNode: Failed to start namenode. org.apache.hadoop.hdfs.qjournal.client.Quor ...
No Route to Host from master/192.168.2.131 to master:9000 failed on socket t
host里边添加的ip地址与当前的ip地址(ifconfig可以查看)不一致,修改当前ip地址就可以了.
Error: java.net.ConnectException: Call From tuge1/192.168.40.100 to tuge2:8032 failed on connection exception
先看解决方案,再看唠嗑,唠嗑可以忽略. 解决方案: 使用start yarn.sh启动yarn就可以了. 唠嗑: 今天学习Spark基于Yarn部署.然后总以为Yarn是让Spark启动的,提交程序的 ...
INFO org.apache.hadoop.ipc.RPC: Server at master/192.168.200.128:9000 not available yet, Zzzzz...
hadoop 启动时namenode和datanode可以启动,使用jps命令也可以看到进程,但是在浏览器中输入master:50070却没有显示datanode 查看datanode的log日志: ...

随机推荐

Struts2第四篇【请求数据自动封装、Action得到域对象】
前言前三篇的Struts博文基本把Struts的配置信息讲解完了-..本博文主要讲解Struts对数据的处理一般地,我们使用Servlet的时候都是分为几个步骤的: 得到web层的数据.封装数据 ...
Maven搭建SpringMVC+MyBatis+Json项目（多模块项目）
一.开发环境 Eclipse:eclipse-jee-luna-SR1a-win32; JDK:jdk-8u121-windows-i586.exe; MySql:MySQL Server 5.5; ...
go-fasthttp源码分析
1.架构 listener->server->workerpool 1.1.workerpool中有两种缓存: a.wp.ready,缓存未退出worker, b.worker退出后用sy ...
MySQL数据库设计基础
为什么需要规范的数据库设计? 什么是数据库设计? 数据库设计就是将数据库中的数据实体及这些数据实体之间的关系,进行规划和结构化的过程. 数据库设计非常重要! 数据库中创建的数据结构的种类,以及在数据实 ...
Select的option事件问题
一开始看你们会觉得没问题,我也就是觉得没问题所以才找不到错误所在. 问题出在option本身是没有事件的说法的,只能在select里添加事件,再获取option的属性值这是我的写法 select设置 ...
libsvn_subr-1.so.0: undefined symbol: apr_atomic_xchgptr 故障解决
源码编译安装完成之后,查看svn的安装版本会报以下错误 svn: symbol lookup error: /usr/local/subversion/lib/libsvn_subr-.so.: un ...
python之控制台（console）颜色显示
#coding=utf-8 import ctypes,sys STD_INPUT_HANDLE = -10 STD_OUTPUT_HANDLE = -11 STD_ERROR_HANDLE = -1 ...
使用dropload.js插件进行下拉刷新
移动端的下拉刷新是一个比较常见的功能了,网上也有很多框架,插件都有这种功能,所以直接拿来用就好了. html代码: <div class="tab&qu ...
zookeeper curator选主(Leader)
在分布式系统设计中,选主是一个常见的场景.选主是一个这样的过程,通过选主,主节点被选择出来控制其他节点或者是分配任务. 选主算法要满足的几个特征: 1)各个节点均衡的获得成为主节点的权利,一旦主节点被 ...
JavaScript实现模糊推荐的input框(类似百度搜索框)
如何用JS实现一个类似百度搜索框的输入框呢,再填充完失去焦点时,自动填充配置项,最终效果如下图: 实现很简单,但是易用性会上升一大截,需要用到的有jquery-ui的autocomplete,jque ...

Call From master/192.168.128.135 to master:8485 failed on connection exception: java.net.ConnectException: Connection refused

Call From master/192.168.128.135 to master:8485 failed on connection exception: java.net.ConnectException: Connection refused的更多相关文章

随机推荐

热门专题