HDFS Federation客户端(viewfs)配置攻略

转自：http://dongxicheng.org/hadoop-hdfs/hdfs-federation-viewfs/

1. HDFS Federation产生背景

在Hadoop 1.0中，HDFS的单NameNode设计带来诸多问题，包括单点故障、内存受限制约集群扩展性和缺乏隔离机制（不同业务使用同一个NameNode导致业务相互影响）等，为了解决这些问题，Hadoop 2.0引入了基于共享存储的HA解决方案和HDFS Federation，本文重点介绍HDFS Federation。

HDFS Federation是指HDFS集群可同时存在多个NameNode，这些NameNode分别管理一部分数据，且共享所有DataNode的存储资源。这种设计可解决单NameNode存在的以下几个问题：

（1）HDFS集群扩展性。多个NameNode分管一部分目录，使得一个集群可以扩展到更多节点，不再像1.0中那样由于内存的限制制约文件存储数目。

（2）性能更高效。多个NameNode管理不同的数据，且同时对外提供服务，将为用户提供更高的读写吞吐率。

（3）良好的隔离性。用户可根据需要将不同业务数据交由不同NameNode管理，这样不同业务之间影响很小。

需要注意的，HDFS Federation并不能解决单点故障问题，也就是说，每个NameNode都存在在单点故障问题，你需要为每个namenode部署一个backup namenode以应对NameNode挂掉对业务产生的影响。

2. HDFS Federation架构

HDFS Federation的架构我已经在文章“HDFS 设计动机与基本原理”一文中进行了介绍，有兴趣的读者可阅读该文章。

3. HDFS Federation配置介绍

本节不会介绍具体的namenode和datanode的配置方法（如果想了解配置方法，可参考文章：“Hadoop升级方案（二）：从Hadoop 1.0升级到2.0（1）”和“Hadoop升级方案（二）：从Hadoop 1.0升级到2.0（2）”），而是重点介绍HDFS客户端配置方法，并通过对客户端配置的讲解让大家深入理解HDFS Federation引入的“client-side mount table”（viewfs）这一概念，这是通过新的文件系统viewfs实现的。

（1） Hadoop 1.0中的配置

在Hadoop 1.0中，只存在一个NameNode，所以，客户端设置NameNode的方式很简单，只需在core-site.xml中进行以下配置：

<property>

<name>fs.default.name</name>

<value>hdfs://host0001:9000</value>

</property>

设置该参数后，当用户使用以下命令访问hdfs时，目录或者文件路径前面会自动补上“hdfs://host0001:9000”：

bin/hadoop fs –ls /home/dongxicheng/data

其中“/home/dongxicheng/data”将被自动替换为“hdfs://host0001:9000/home/dongxicheng/data”

当然，你也可以不在core-site.xml文件中配置fs.default.name参数，这样当你读写一个文件或目录时，需要使用全URI地址，即在前面添加“hdfs://host0001:9000”，比如：

bin/hadoop fs –ls hdfs://host0001:9000/home/dongxicheng/data

（2）Hadoop 2.0中的配置

在Hadoop 2.0中，由于引入了HDFS Federation，当你启用该功能时，会同时存在多个可用的namenode，为了便于配置“fs.default.name”，你可以规划这些namenode的使用方式，比如图片组使用namenode1，爬虫组使用namenode2等等，这样，爬虫组员工使用的HDFS client端的core-site.xml文件可进行如下配置：

<property>

<name>fs.default.name</name>

<value>hdfs://namenode1:9000</value>

</property>

图片组员工使用的HDFS client端的core-site.xml文件可进行如下配置：

<property>

<name>fs.default.name</name>

<value>hdfs://namenode2:9000</value>

</property>

从HDFS和HBase使用者角度看，当仅仅使用单NameNode上管理的数据时，是没有问题的。但是，当考虑HDFS之上的计算类应用，比如YARN/MapReduce应用程序，则可能出现问题。因为这类应用可能涉及到跨NameNode数据读写，这样必须显式的指定全URI，即输入输出目录中必须显式的提供类似“hdfs://namenode2:9000”的前缀，以注明目录管理者NameNode的访问地址。比如：

distcp hdfs://nnClusterY:port/pathSrc hdfs://nnCLusterZ:port/pathDest

为了解决这种麻烦，为用户提供统一的全局HDFS访问入口，HDFS Federation借鉴Linux提供了client-side mount table，这是通过一层新的文件系统viewfs实现的，它实际上提供了一种映射关系，将一个全局（逻辑）目录映射到某个具体的namenode（物理）目录上，采用这种方式后，core-site.xml配置如下：

<configuration xmlns:xi="http://www.w3.org/2001/XInclude">

<xi:include href="mountTable.xml"/>

<property>

<name>fs.default.name</name>

<value>viewfs://ClusterName/</value>

</property>

</configuration>

其中，“ClusterName”是HDFS整个集群的名称，你可以自己定义一个。mountTable.xml配置了全局（逻辑）目录与具体namenode（物理）目录的映射关系，你可以类比linux挂载点来理解。
假设你的集群中有三个namenode，分别是namenode1，namenode2和namenode3，其中，namenode1管理/usr和/tmp两个目录，namenode2管理/projects/foo目录，namenode3管理/projects/bar目录，则可以创建一个名为“cmt”的client-side mount table，并在mountTable.xml中进行如下配置：

<configuration>

<property>

<name>fs.viewfs.mounttable.cmt.link./user</name>

<value> hdfs://namenode1:9000/user </value>

</property>

<property>

<name>fs.viewfs.mounttable.cmt.link./tmp</name>

<value> hdfs:/ namenode1:9000/tmp </value>

</property>

<property>

<name>fs.viewfs.mounttable.cmt.link./projects/foo</name>

<value> hdfs://namenode2:9000/projects/foo </value>

</property>

<property>

<name>fs.viewfs.mounttable.cmt.link./projects/bar</name>

<value> hdfs://namenode3:9000/projects/bar</value>

</property>

</configuration>

经过以上配置后，你可以像1.0那样，访问HDFS上的文件，比如：

bin/hadoop fs –ls /usr/dongxicheng/data

中的“/usr/dongxicheng/data”将被映射成“hdfs://namenode1:9000/user/dongxicheng/data”。

Client-side mount table的引入为用户使用HDFS带来极大的方便，尤其是跨namenode的数据访问。

4. 参考资料

（1） User Guide for how to use viewfs with federation

（2）Hadoop 23 – dotNext

（3）Hadoop 2.0 NameNode HA和Federation实践

HDFS Federation客户端(viewfs)配置攻略的更多相关文章

linux下安装apache与php;Apache+PHP+MySQL配置攻略
1.apache 在如下页面下载apache的for Linux 的源码包 http://www.apache.org/dist/httpd/; 存至/home/xx目录,xx是自建文件 ...
DNS 和 IPv6 配置攻略
Windows 2003 DNS配置攻略 http://lgzeng2360.blog.51cto.com/275998/161908/ http://ask.zol.com.cn/q/21861.h ...
Opencv 完美配置攻略 2014 (Win8.1 + Opencv 2.4.8 + VS 2013)
http://my.phirobot.com/blog/2014-02-opencv_configuration_in_vs.html 2012年4月给同学写了篇傻瓜式的 VS2010+Opencv- ...
(转)linux服务器安全配置攻略
引言: 最小的权限+最少的服务=最大的安全所以,无论是配置任何服务器,我们都必须把不用的服务关闭.把系统权限设置到最小话,这样才能保证服务器最大的安全.下面是CentOS服务器安全设置,供大家参考. ...
hadoop1.2.1+hbase0.94.11+nutch2.2.1+elasticsearch0.90.5安装配置攻略
一.背景最近由于项目和论文的需要,需要搭建一个垂直搜索的环境,查阅了很多资料,决定使用Apache的一套解决方案hadoop+hbase+nutch+es.这几样神器的作用就不多作介绍了,自行参考各 ...
linux服务器安全配置攻略
引言: 最小的权限+最少的服务=最大的安全所以,无论是配置任何服务器,我们都必须把不用的服务关闭.把系统权限设置到最小话,这样才能保证服务器最大的安全.下面是CentOS服务器安全设置,供大家参考. ...
Intelligencia.UrlRewriter在IIS 7.0下的完全配置攻略
在项目中,之前公司是使用IIS 7.0官方的URL重写模块,官方的使用说明请参见官方URLRewrite ,添加伪静态支持,后来经理问我有没有涉及伪静态,我说之前项目中我一直是用Intelligen ...
cloudstack4.2+xenserver6.0.2 详细配置攻略
搭建一台安装了XenServer的服务器搭建一台安装了CloudStack的服务器用以管理云平台可以使用CloudStack云平台进行虚拟机管理使用远程桌面访问windows虚拟机由于最近实验 ...
java+eclipse+tomcat+mysql+jdbc——完美配置攻略
说明: 软件均采用最新版本,请大家详细阅读,注意每个细节,无需分门别类的百度各种教程,配置java环境这一篇就够了. 所需软件及版本(参考): java8; - jdk1.8.0_60; - jre1 ...

随机推荐

【UNIX网络编程】FIFO
管道作为进程间通信的最古老方式,它的缺点是没有名字,因此仅仅能用在有亲缘关系的父子进程之间.对于无亲缘关系的进程间.无法用管道进行通信.FIFO能够完毕无亲缘关系的进程间的通信.FIFO也被称为命名管 ...
knockoutjs -- all built-in buildings
所有可用的binding值文字和显示:visible, text, html, css, style, attr 流程控制:foreach, if, ifnot, with form字段:click ...
centos 6.5安装docker报错（查看报错详细信息--推荐）
(1)yum安装docker [root@namenode ~]# yum install docker-io (2)启动docker [root@namenode ~]# /etc/init.d/d ...
微信小程序弹窗组件
概述自己封装的一个比较简单微信弹窗小组件,主要就是教会大家对微信小组件的用法和理解,因为微信小程序对组件介绍特别少,所以我就把自己的理解分享给大家详细代码下载:http://www.demoda ...
C++设计模式实现--职责链(Chain of Responsibility)模式
一. 概述职责链模式: 使多个对象都有机会处理请求.从而避免请求的发送者和接收者之间的耦合关系.将这些对象连成一条链,并沿着这条链传递该请求,直到有一个对象处理它为止. 二. 举个样例员工要求加薪 ...
Git 修改用户名以及提交邮箱
问题背景: 在已毕业师兄的电脑上提交自己的 Github 代码,(尽管有重新设置了自己的SSH),但是 Github网站提交结果却显示师兄提交的: 验证当前本地属性: 怎么知道本地有设置?git c ...
无法启动此程序因为计算机中丢失 xxx.dll
“无法启动此程序因为计算机中丢失 XXX.dll” 这类问题在 visual studio 中很常见… 许久不和VS打交道,一碰各种坑… 这是在 VS 2015 Community 出现的问题: (1 ...
Php开发工具：PhpStorm=webstorm+php+db/SQL
下载地址:https://www.jetbrains.com/zh/phpstorm/specials/phpstorm/phpstorm.html?utm_source=baidu&utm_ ...
USES_CONVERSION的使用和注意
USES_CONVERSION是用来转换类型的,比如我们很常见的问题: 在Socket编程时候,我们的IP地址从界面上输进去一般都使用CString类型的,可是在SOCKADDR_IN中的inet_a ...
Apach 配置虚拟机时候DocumentRoot参数最后不要加斜杠
DocumentRoot "D:\baiduyun\webroot\jedi\app\static" 这样是可以的 DocumentRoot "D:\baiduyun\w ...

HDFS Federation客户端(viewfs)配置攻略

HDFS Federation客户端(viewfs)配置攻略的更多相关文章

随机推荐

热门专题