HDFS副本存放策略

　　在client向DataNode写入block之前，会与NameNode有一次通信，由NameNode来选择指定数目的DataNode来存放副本。具体的副本选择策略在BlockPlacementPolicy接口中，其子类实现是BlockPlacementPolicyDefault。该类中会有多个chooseTarget()方法重载，但最终调用了下面的方法：

 /**

    * This is not part of the public API but is used by the unit tests.

    */

   DatanodeDescriptor[] chooseTarget(int numOfReplicas,

                                     DatanodeDescriptor writer,

                                     List<DatanodeDescriptor> chosenNodes,

                                     HashMap<Node, Node> excludedNodes,

                                     long blocksize) {

       //numOfReplicas：要选择的副本个数

       //clusterMap.getNumOfLeaves()：整个集群的DN个数

     if (numOfReplicas == 0 || clusterMap.getNumOfLeaves()==0) {

       return new DatanodeDescriptor[0];

     }

     //excludedNodes：排除的DN(因为有些DN已经被选中，所以不再选择他们)

     if (excludedNodes == null) {

       excludedNodes = new HashMap<Node, Node>();

     }

     int clusterSize = clusterMap.getNumOfLeaves();

     //总的副本个数=已选择的个数 + 指定的副本个数

     int totalNumOfReplicas = chosenNodes.size()+numOfReplicas;

     if (totalNumOfReplicas > clusterSize) {    //若总副本个数 > 整个集群的DN个数

       numOfReplicas -= (totalNumOfReplicas-clusterSize);

       totalNumOfReplicas = clusterSize;

     }

     //计算每个一个rack能有多少个DN被选中

     int maxNodesPerRack =

       (totalNumOfReplicas-1)/clusterMap.getNumOfRacks()+2;

     List<DatanodeDescriptor> results =

       new ArrayList<DatanodeDescriptor>(chosenNodes);

     for (DatanodeDescriptor node:chosenNodes) {

       // add localMachine and related nodes to excludedNodes

       addToExcludedNodes(node, excludedNodes);

       adjustExcludedNodes(excludedNodes, node);

     }

     //客户端不是DN

     if (!clusterMap.contains(writer)) {

       writer=null;

     }

     boolean avoidStaleNodes = (stats != null && stats

         .shouldAvoidStaleDataNodesForWrite());

     //选择numOfReplicas个DN，并返回本地DN

     DatanodeDescriptor localNode = chooseTarget(numOfReplicas, writer,

         excludedNodes, blocksize, maxNodesPerRack, results, avoidStaleNodes);

     results.removeAll(chosenNodes);

     // sorting nodes to form a pipeline

     //将选中的DN(result中的元素)组织成pipe

     return getPipeline((writer==null)?localNode:writer,

                        results.toArray(new DatanodeDescriptor[results.size()]));

   }

　　方法含义大概就如注释中写的，不过要注意其中的变量含义。在第48行，又调用chooseTarget()方法来选择指定数目的DN(选中的DN存放在result中)，并返回一个DN作为本地DN。下面分析这个方法。

 /* choose <i>numOfReplicas</i> from all data nodes */

   private DatanodeDescriptor chooseTarget(int numOfReplicas,

       DatanodeDescriptor writer, HashMap<Node, Node> excludedNodes,

       long blocksize, int maxNodesPerRack, List<DatanodeDescriptor> results,

       boolean avoidStaleNodes) {

     if (numOfReplicas == 0 || clusterMap.getNumOfLeaves()==0) {

       return writer;

     }

     int totalReplicasExpected = numOfReplicas + results.size();

     int numOfResults = results.size();

     boolean newBlock = (numOfResults==0);

     if (writer == null && !newBlock) {

       writer = results.get(0);

     }

     // Keep a copy of original excludedNodes

     final HashMap<Node, Node> oldExcludedNodes = avoidStaleNodes ?

         new HashMap<Node, Node>(excludedNodes) : null;

     try {

       if (numOfResults == 0) {    //选择本地DN

         writer = chooseLocalNode(writer, excludedNodes, blocksize,

             maxNodesPerRack, results, avoidStaleNodes);

         if (--numOfReplicas == 0) {

           return writer;

         }

       }

       if (numOfResults <= 1) {    //选择远程rack上的DN

         chooseRemoteRack(1, results.get(0), excludedNodes, blocksize,

             maxNodesPerRack, results, avoidStaleNodes);

         if (--numOfReplicas == 0) {

           return writer;

         }

       }

       if (numOfResults <= 2) {

         if (clusterMap.isOnSameRack(results.get(0), results.get(1))) {  //若前两个DN在同一个rack上

             //已选择的前两个DN在同一个rack上，则选择与第1个DN不在同一个rack上的DN

           chooseRemoteRack(1, results.get(0), excludedNodes, blocksize,

               maxNodesPerRack, results, avoidStaleNodes);

         } else if (newBlock){

             //选择与第2个DN在同一个rack上的DN

           chooseLocalRack(results.get(1), excludedNodes, blocksize,

               maxNodesPerRack, results, avoidStaleNodes);

         } else {

             //选择与write在同一个rack上的DN

           chooseLocalRack(writer, excludedNodes, blocksize, maxNodesPerRack,

               results, avoidStaleNodes);

         }

         if (--numOfReplicas == 0) {

           return writer;

         }

       }

       //在整个集群中随机选择剩余的DN

       chooseRandom(numOfReplicas, NodeBase.ROOT, excludedNodes, blocksize,

           maxNodesPerRack, results, avoidStaleNodes);

     } catch (NotEnoughReplicasException e) {

       FSNamesystem.LOG.warn("Not able to place enough replicas, still in need of "

                + (totalReplicasExpected - results.size()) + " to reach "

                + totalReplicasExpected + "\n"

                + e.getMessage());

       if (avoidStaleNodes) {

         // Retry chooseTarget again, this time not avoiding stale nodes.

         // excludedNodes contains the initial excludedNodes and nodes that were

         // not chosen because they were stale, decommissioned, etc.

         // We need to additionally exclude the nodes that were added to the

         // result list in the successful calls to choose*() above.

         for (Node node : results) {

           oldExcludedNodes.put(node, node);

         }

         // Set numOfReplicas, since it can get out of sync with the result list

         // if the NotEnoughReplicasException was thrown in chooseRandom().

         numOfReplicas = totalReplicasExpected - results.size();

         return chooseTarget(numOfReplicas, writer, oldExcludedNodes, blocksize,

             maxNodesPerRack, results, false);

       }

     }

     return writer;

   }

　　下面依次分析这3个DN的选择过程。

1、选择本地DN：chooseLocalNode()

  /* choose <i>localMachine</i> as the target.

    * if <i>localMachine</i> is not available,

    * choose a node on the same rack

    * @return the chosen node

    */

   protected DatanodeDescriptor chooseLocalNode(DatanodeDescriptor localMachine,

       HashMap<Node, Node> excludedNodes, long blocksize, int maxNodesPerRack,

       List<DatanodeDescriptor> results, boolean avoidStaleNodes)

     throws NotEnoughReplicasException {

     // if no local machine, randomly choose one node

     if (localMachine == null)    //client端上没有DN

         //从整个集群中随机选择一个DN作为本地DN

       return chooseRandom(NodeBase.ROOT, excludedNodes, blocksize,

           maxNodesPerRack, results, avoidStaleNodes);

     // otherwise try local machine first

     Node oldNode = excludedNodes.put(localMachine, localMachine);

     if (oldNode == null) { // was not in the excluded list

         //该client端的DN还没有被选中时，判断这个DN是否负载过重

       if (isGoodTarget(localMachine, blocksize, maxNodesPerRack, false,

           results, avoidStaleNodes)) {

         results.add(localMachine);

         // add localMachine and related nodes to excludedNode

         addToExcludedNodes(localMachine, excludedNodes);

         return localMachine;

       }

     } 

     // try a node on local rack

     //选择与该client同rack的DN

     return chooseLocalRack(localMachine, excludedNodes, blocksize,

         maxNodesPerRack, results, avoidStaleNodes);

   }

　　本地DN的选择分三步：

　　1.1）如果client上没有DN，则从整个集群中随机选择一个DN(chooseRandom()方法)，并判断是否该DN是否负载过重(步骤如1.2)；如果负载过重则重新随机选择一个。以此类推.....

　　1.2）如果该client有DN，则判断该DN是否负载过重(isGoodTarget()方法)，步骤如下：结点是否可用、结点是否在“stale”状态、结点容量是否足够、结点流量情况、该节点所在的机架中存放当前数据的DN是否过多；

　　1.3）如果前两个条件都不满足，则选择与client同rack的DN(chooseLocalRack()方法)作为本地结点，步骤如下：

　　a）随机选择一个与client同rack的DN(步骤同1.1)；

　　b）否则从整个集群中随机选择一个DN(步骤同1.1)。

　　这两步需要解释一下，他们的步骤与1.1都是相同的，那么怎么会得出不同的结果。原因在于传给chooseRandom()方法的第一个参数。如果参数是“NodeBase.ROOT”，实质上就是"/"，表示的是整个集群；如果是“localMachine.getNetworkLocation()”，则表示localMachine所在的rack。这样，通过第一个参数就可以表示要进行选择的范围。在NetworkTopology接口中定义了DN与rack的关系，机架感知也是借此来实现。

2、选择远程rack上的DN：chooseRemoteRack()

 /* choose <i>numOfReplicas</i> nodes from the racks

    * that <i>localMachine</i> is NOT on.

    * if not enough nodes are available, choose the remaining ones

    * from the local rack

    */

   protected void chooseRemoteRack(int numOfReplicas,

                                 DatanodeDescriptor localMachine,

                                 HashMap<Node, Node> excludedNodes,

                                 long blocksize,

                                 int maxReplicasPerRack,

                                 List<DatanodeDescriptor> results,

                                 boolean avoidStaleNodes)

     throws NotEnoughReplicasException {

     int oldNumOfReplicas = results.size();

     // randomly choose one node from remote racks

     try {

         //选择与localMachine不在同一个rack上的DN

       chooseRandom(numOfReplicas, "~" + localMachine.getNetworkLocation(),

           excludedNodes, blocksize, maxReplicasPerRack, results,

           avoidStaleNodes);

     } catch (NotEnoughReplicasException e) {

         //选择与localMachine在同一个rack上的DN

       chooseRandom(numOfReplicas-(results.size()-oldNumOfReplicas),

                    localMachine.getNetworkLocation(), excludedNodes, blocksize,

                    maxReplicasPerRack, results, avoidStaleNodes);

     }

   }

　　远程DN的选择分两步：

　　2.1）从非本地rack上选择一个DN(步骤同1.1)；

　　2.2）否则从本地rack上选择一个DN(步骤同1.1)；

　　同样，这两步还是复用了chooseRandom()方法。2.1）的参数为"~" + localMachine.getNetworkLocation()，即在集群中除了localMachine所在的rack中选择一个DN(“~”表示排除)；2.2）的参数为“localMachine.getNetworkLocation()”，表示从localMachine所在的rack中选择一个DN。这里很重要，可以看到，选择的第二个DN与第一个DN并不一定就在不同的rack。

3、选择第3个DN

　　代码在上面第二段代码分析的第37~50行中，具体步骤如下：　　

　　3.1）如果前两个DN在同一个rack上，则选择一个与他们不在同一个rack上的DN，同步骤2；

　　3.2）否则，如果newBlock为true，则选择与第二个DN同rack的DN，步骤同1.3；

　　3.3）否则，选择与第一个DN同rack的DN，步骤同1.3；

4、从整个集群中选择剩余副本个数的DN，步骤同1.1。(代码在上面第二段代码分析的第56行)

　　最后返回到上面第一段代码的最后部分，将这些选中的DN组织成pipeline。

　　通过上面的分析也就明白一个问题：网上经常会看到，有人说第三个DN是与第二个DN是同rack的，也有人说第三个DN是与第一个DN同rack的。那么到底哪个说法对呢？关键就看第二个DN的选择，我在上面写了，第二个DN可能是与第一个DN不在同一个rack，但也可能在同一个rack中，具体要根据当时集群中的情况来分析。所以不能简单的认死理。

　　本文基于hadoop1.2.1

　　如有错误，还请指正

　　参考文章：http://blog.csdn.net/xhh198781/article/details/7109764

　　转载请注明出处：http://www.cnblogs.com/gwgyk/p/4137060.html

HDFS副本存放策略的更多相关文章

HDFS的副本存放策略（全）
HDFS的副本存放策略 HDFS作为Hadoop中的一个分布式文件系统,而且是专门为它的MapReduce设计,所以HDFS除了必须满足自己作为分布式文件系统的高可靠性外,还必须为MapReduc ...
大数据：Hadoop（HDFS 的设计思路、设计目标、架构、副本机制、副本存放策略）
一.HDFS 的设计思路 1)思路切分数据,并进行多副本存储: 2)如果文件只以多副本进行存储,而不进行切分,会有什么问题缺点不管文件多大,都存储在一个节点上,在进行数据处理的时候很难进行并行处 ...
hadoop 集群中数据块的副本存放策略
HDFS采用一种称为机架感知(rack-aware)的策略来改进数据的可靠性.可用性和网络带宽的利用率.目前实现的副本存放策略只是在这个方向上的第一步.实现这个策略的短期目标是验证它在生产环境下的有效 ...
HDFS副本存放读取
HDFS作为Hadoop中的一个分布式文件系统,而且是专门为它的MapReduce设计,所以HDFS除了必须满足自己作为分布式文件系统的高可靠性外,还必须为 MapReduce提供高效的读写性能,那 ...
HDFS副本放置策略和机架感知
副本放置策略的副本放置策略的基本思想是: 第一block在复制和client哪里node于(假设client它不是群集的范围内,则这第一个node是随机选取的.当然系统会尝试不选择哪些太满或者太忙的 ...
hadoop2.0的数据副本存放策略
在hadoop2.0中,datanode数据副本存放磁盘选择策略有两种方式: 第一种是沿用hadoop1.0的磁盘目录轮询方式,实现类:RoundRobinVolumeChoosingPolicy.j ...
HDFS副本放置策略
1.第一个副本放置在上传文件的DataNode上,如果是集群外提交,则随机挑选一个磁盘不太满,CPU不太忙的节点. 2.第二个副本放置在与第一个副本不同的机架上. 3.第三个副本放置在与第二个副本同机 ...
Hadoop_HDFS文件读写代码流程解析和副本存放机制
Hadoop学习笔记总结 01.RPC(远程过程调用) 1. RPC概念远程过程指的不是同一个进程的调用.它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议. 不能直接拿到远 ...
HDFS副本机制&负载均衡&机架感知&访问方式&健壮性&删除恢复机制&HDFS缺点
副本机制 1.副本摆放策略第一副本:放置在上传文件的DataNode上:如果是集群外提交,则随机挑选一台磁盘不太慢.CPU不太忙的节点上:第二副本:放置在于第一个副本不同的机架的节点上:第三副本:与 ...

随机推荐

上传图片shell绕过过滤的几种方法
一般网站图片上传功能都对文件进行过滤,防止webshelll写入.但不同的程序对过滤也不一样,如何突破过滤继续上传? 本文总结了七种方法,可以突破! 1.文件头+GIF89a法.(php)//这个很好 ...
准备阶段-maven项目构建
依据我现阶段对maven的了解,具使用POM管理项目和强大的repository资源管理库支持. 在项目建立初期,对网站的可拓展.高并发.易于管理做了评估.最终使用Maven 管理该项目 . 如下是m ...
移动端web开发基础概念
最近在了解移动端web开发的相关知识,有些概念总是模糊不清,这次花费了一些时间整体的梳理了一遍. 分辨率分辨率可以从显示分辨率与图像分辨率两个方向来分类.显示分辨率(屏幕分辨率)是屏幕图像的精密度, ...
hibernate的session对象核心方法注意的问题
1.session.save()方法 1).session.save()方法会使一个对象从临时状态转变为持久化状态. 2).session.save()方法会赋予持久化对象的OID属性一个ID值,以对 ...
Javascript中的栈
栈是一种遵从后进先出(LIFO)原则的有序集合.就像一摞盘子. push 添加一个元素到栈顶 pop 移除并返回栈顶的元素 peek 返回栈顶元素 isEmpty 如果栈里没有任何元素,返回tru ...
Linux新建用户并添加到sudo组
原文参考链接:https://www.douban.com/note/338488349/ 以在kali 下添加一个test用户为例: Step1#:添加新用户useradd -r -m -s /bi ...
Redis setNX 实现分布式锁（重复数据插入可用其来实现排他锁）
使用Redis的 SETNX 命令可以实现分布式锁,下文介绍其实现方法. SETNX命令简介命令格式 SETNX key value 将 key 的值设为 value,当且仅当 key 不存在. 若 ...
jquery TypeError: $(...).live is not a functio,动态添加class的点击事件处理
jq版本更新后无live函数的处理.TypeError: $(...).live is not a function jquery live函数语法 jquery版本更新, 发现一个问题: jq自带的 ...
【转】如何使用Valgrind memcheck工具进行C/C++的内存泄漏检测
系统编程中一个重要的方面就是有效地处理与内存相关的问题.你的工作越接近系统,你就需要面对越多的内存问题.有时这些问题非常琐碎,而更多时候它会演变成一个调试内存问题的恶梦.所以,在实践中会用到很多工具来 ...
在Spring里进行单元测试Junit
搭建Spring环境(自行搭建): @RunWith注解指定使用springJunit的测试运行器 @ContextConfiguration注解指定测试用的spring配置文件的位置 import ...

HDFS副本存放策略

HDFS副本存放策略的更多相关文章

随机推荐

热门专题