hadoop balance均衡datanode存储不起作用问题分析

　　前段时间因为hadoop集群各datanode空间使用率很不均衡，需要重新balance（主要是有后加入集群的2台机器磁盘空间比较大引起的），在执行如下语句：

bin/start-balancer.sh -threshold 10

　　后，日志输出如下：

Time Stamp               Iteration#  Bytes Already Moved  Bytes Left To Move  Bytes Being Moved

Mar ,  :: AM                            KB            614.5 GB               GB

Mar ,  :: AM                            KB            614.5 GB               GB

Mar ,  :: AM                          KB            614.5 GB               GB

Mar ,  :: AM                          KB            614.5 GB               GB

Mar ,  :: AM                      891.85 KB            614.5 GB               GB

Mar ,  :: AM                      891.85 KB            614.5 GB               GB

Mar ,  :: AM                      891.85 KB            614.5 GB               GB

Mar ,  :: AM                      891.85 KB           614.49 GB               GB

Mar ,  :: AM                      891.85 KB           614.49 GB               GB

No block has been moved for  iterations. Exiting...

Balancing took 10.023 seconds

很明显，balancer已经计算出要移动的数据量，但是就是没有移动，这是为什么呢？

查看hadoop-mysql-balancer-master.log并没有发现Error或者Warning，那只能去看源码了。

原来hadoop balancer在进行转移block的时候是会判断的，具体要求见下面的代码：

 /* Decide if it is OK to move the given block from source to target

   * A block is a good candidate if

   * 1. the block is not in the process of being moved/has not been moved;

   * 2. the block does not have a replica on the target;

   * 3. doing the move does not reduce the number of racks that the block has

   */

private boolean isGoodBlockCandidate(Source source,

      BalancerDatanode target, BalancerBlock block) {

    // check if the block is moved or not

    if (movedBlocks.contains(block)) {

        return false;

    }

    if (block.isLocatedOnDatanode(target)) {

      return false;

    }

    boolean goodBlock = false;

    if (cluster.isOnSameRack(source.getDatanode(), target.getDatanode())) {

      // good if source and target are on the same rack

      goodBlock = true;

    } else {

      boolean notOnSameRack = true;

      synchronized (block) {

        for (BalancerDatanode loc : block.locations) {

          if (cluster.isOnSameRack(loc.datanode, target.datanode)) {

            notOnSameRack = false;

            break;

          }

        }

      }

      if (notOnSameRack) {

        // good if target is target is not on the same rack as any replica

        goodBlock = true;

      } else {

        // good if source is on the same rack as on of the replicas

        for (BalancerDatanode loc : block.locations) {

          if (loc != source &&

              cluster.isOnSameRack(loc.datanode, source.datanode)) {

            goodBlock = true;

            break;

          }

        }

      }

    }

    return goodBlock;

  }

对照上面的3个要求，逐一排查未移动block的原因：

（1）需要移动的block在本次balance的过程中没有被移动过------这条满足；

（2）需要移动的block在目标机器上不存在------这条待验证；

（3）需要移动的block，在移动后不改变每个机架上block的数量（注意，这是的数量不是总数量，是去重以后的block数量，例如，block的备份数是2，其实是算一个唯一的block）------由于集群在配置的时候没有添加机架感知脚本，所以默认情况下，都在1个机架上，这条满足。

那现在就去集群上验证第二条，果不其然，发现很多block在后面加入的2台机器上都已经存在，这还移动个屁啊，那边都已经存在了，所以balancer移动进程就退出了。

解决方法：

1.使用如下命令

bin/hadoop fs -setRep -R / 2

将集群中的block备份数同一设置成你在hdfs-site.xml中

<property>

<name>dfs.replication</name>

<value>2</value>

</property>

配置的备份数，然后重启hadoop集群，等hadoop完成校验blcok以后再balance即可解决问题。

hadoop balance均衡datanode存储不起作用问题分析的更多相关文章

在HDInsight中从Hadoop的兼容BLOB存储查询大数据的分析
在HDInsight中从Hadoop的兼容BLOB存储查询大数据的分析低成本的Blob存储是一个强大的.通用的Hadoop兼容Azure存储解决方式无缝集成HDInsight.通过Hadoop分布式 ...
hadoop balance工具平衡集群dfs存储及遇到异常Got error, status message Not able to receive block 1073959989 from /192.168.1.37:3004 because threads quota is exceeded
hadoop集群某个节点dfs存储比其他节点存储高时,一般会使用hadoop提供的balance(start-balancer.sh -threshold 10 )工具来移动高存储节点上的块到低存储节 ...
hadoop源代码解读namenode高可靠：HA;web方式查看namenode下信息；dfs/data决定datanode存储位置
点击browserFilesystem,和命令查看结果一样当我们查看hadoop源代码时,我们看到hdfs下的hdfs-default.xml文件信息我们查找${hadoop.tmp.dir}这是 ...
Hadoop Balance
一.hadoop balance工具的用法: 启动balance: bin/start-balancer.sh -threshold 5 停止balance: bin/stop-balancer.sh ...
Hadoop添加节点datanode(生产环境)
Hadoop添加节点datanode 博客分类: hadoop HadoopSSHJDKXML工作 1.部署hadoop 和普通的datanode一样.安装jdk,ssh 2.修改host ...
升级版:深入浅出Hadoop实战开发(云存储、MapReduce、HBase实战微博、Hive应用、Storm应用)
Hadoop是一个分布式系统基础架构,由Apache基金会开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力高速运算和存储.Hadoop实现了一个分布式文件系 ...
Hadoop问题：DataNode进程不见了
DataNode进程不见了问题描述最近配置Hadoop的时候出现了这么一个现象,启动之后,使用jps命令之后是这样的: 看不到DataNode进程,但是能够正常的工作,是不是很神奇啊? 在一番 ...
FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block pool <registering> (Datanode Uuid unassigned) service to controller/192.168.1.183:9000. Exiting. java.io.IOExcep
2018-01-09 09:47:38,297 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed ...
org.apache.hadoop.hdfs.server.datanode.DataNode: Exception in receiveBlock for block
Hbase依赖的datanode日志中如果出现如下报错信息:DataXceiverjava.io.EOFException: INFO org.apache.hadoop.hdfs.server.da ...

随机推荐

【Java】NIO中Selector的创建源码分析
在使用Selector时首先需要通过静态方法open创建Selector对象 public static Selector open() throws IOException { return Sel ...
2018杭电多校第六场1009（DFS，思维）
#include<bits/stdc++.h>using namespace std;int a[100010];char s[20];int zhiren[100010];vector& ...
sass（scss）10大常用重要特性
用sass用了好久,期初看中的是他的嵌套功能,因为刚开始的时候是用jquery,电脑安装Ruby,全局安装sass,将scss编译为css,不得不说真的很方面,节点套节点,和html的很类似.但是后来 ...
AT2657 Mole and Abandoned Mine
传送门好神的状压dp啊首先考虑一个性质,删掉之后的图一定是个联通图并且每个点最多只与保留下来的那条路径上的一个点有边相连然后设状态:$f[s][t]$代表当前联通块的点的状态为$s$和 ...
跳坑小程序swiper组件轮播图片右边空白问题
swiper 组件设置轮播图片时,右侧会出现空白的情况:是因为 swiper组件有默认的高度和宽度,所以我们在设置图片高度和宽度的同时, 也要为设置高度和宽度,和高度和宽度样式一样的就可以.
实现网上大神的asp.net mvc + ef +easyui
大神开源博客: http://www.cnblogs.com/ymnets/p/3424309.html 系统更换UI:本人喜欢基于bootstrap的adminlteUI,所以后面会将UI更换为ad ...
oracle数据库的导入导出命令
说明:将以下命令复制到cmd命令行中运行即可,file代表文件名数据导入imp zzbweb/zzbweb@orcl file=e:\zzbweb.dmp fromuser=zzbweb touser ...
springMvc json 参数
以前,一直以为在SpringMVC环境中,@RequestBody接收的是一个Json对象,一直在调试代码都没有成功,后来发现,其实 @RequestBody接收的是一个Json对象的字符串,而不是一 ...
spring框架详细课程视频
https://ke.qq.com/course/27346#term_id=100012852
sleuth使用说明（入门）
出发点: 微服务架构上通过业务来划分服务的,通过REST调用,对外暴露的一个接口,可能需要很多个服务协同才能完成这个接口功能,如果链路上任何一个服务出现问题或者网络超时,都会形成导致接口调用失败.随着 ...

hadoop balance均衡datanode存储不起作用问题分析

hadoop balance均衡datanode存储不起作用问题分析的更多相关文章

随机推荐

热门专题