一.HDFS出现的背景

　　随着社会的进步，需要处理数据量越来越多，在一个操作系统管辖的范围存不下了，那么就分配到更多的操作系统管理的磁盘中，但是却不方便管理和维护—>因此，迫切需要一种系统来管理多台机器上的文件，于是就产生了分布式文件管理系统，英文名成为DFS（Distributed File System）。

　　那么，什么是分布式文件系统？简而言之，就是一种允许文件通过网络在多台主机上分享的文件系统，可以让多个机器上的多个用户分享文件和存储空间。它最大的特点是“通透性”，DFS让实际上是通过网络来访问文件的动作，由用户和程序看来，就像是访问本地的磁盘一般（In other words,使用DFS访问数据，你感觉不到是访问远程不同机器上的数据）。

图1.一个典型的DFS示例

二.深入了解HDFS原理

　　作为Hadoop的核心技术之一，HDFS（Hadoop Distributed File System，Hadoop分布式文件系统）是分布式计算中数据存储管理的基础。它所具有的高容错、高可靠、高可扩展性、高吞吐率等特性为海量数据提供了不怕故障的存储，也为超大规模数据集（Large Data Set）的应用处理带来了很多便利。

　　图2.Hadoop HDFS的LOGO

　　提到HDFS，不得不说Google的GFS。正是Google发表了关于GFS的论文，才有了HDFS这个关于GFS的开源实现。

2.1 设计前提与目标

　　（1）硬件错误是常态而不是异常；（最核心的设计目标—>HDFS被设计为运行在众多的普通硬件上，所以硬件故障是很正常的。因此，错误检测并快速恢复是HDFS最核心的设计目标）

　　（2）流式数据访问；（HDFS更关注数据访问的高吞吐量）

　　（3）大规模数据集；（HDFS的典型文件大小大多都在GB甚至TB级别）

　　（4）简单一致性模型；（一次写入，多次读取的访问模式）

　　（5）移动计算比移动数据更为划算；（对于大文件来说，移动计算比移动数据的代价要低）

2.2 HDFS的体系结构

　　HDFS是一个主/从（Master/Slave）式的结构，如下图所示。

　　图3.HDFS的基本架构

　　从最终用户的角度来看，它就像传统的文件系统一样，可以通过目录路径对文件执行CRUD（增删查改）操作。但由于分布式存储的性质，HDFS拥有一个NameNode和一些DataNodes。NameNode管理文件系统的元数据，DataNode存储实际的数据。客户端通过同NameNode和DataNode的交互访问文件系统→客户端联系NameNode以获取文件的元数据，而真正的I/O操作是直接和DataNode进行交互的。

　　下面我们再来看看HDFS的读操作和写操作的流程：

　　①读操作

　　图4.HDFS的读操作

　　客户端要访问一个文件，首先，客户端从NameNode中获得组成该文件数据块位置列表，即知道数据块被存储在哪几个DataNode上；然后，客户端直接从DataNode上读取文件数据。在此过程中，NameNode不参与文件的传输。

　　②写操作

图5.HDFS的写操作

　　客户端首先需要向NameNode发起写请求，NameNode会根据文件大小和文件块配置情况，返回给Client它所管理部分DataNode的信息。最后，Client（开发库）将文件划分为多个文件块，根据DataNode的地址信息，按顺序写入到每一个DataNode块中。

　　下面我们看看NameNode和DataNode扮演什么角色，有什么具体的作用：

　　（1）NameNode

　　NameNode的作用是管理文件目录结构，是管理数据节点的。NameNode维护两套数据：一套是文件目录与数据块之间的关系，另一套是数据块与节点间的关系。前一套是静态的，是存放在磁盘上的，通过fsimage和edits文件来维护；后一套数据时动态的，不持久化到磁盘，每当集群启动的时候，会自动建立这些信息。

　　（2）DataNode

　　毫无疑问，DataNode是HDFS中真正存储数据的。这里要提到一点，就是Block（数据块）。假设文件大小是100GB，从字节位置0开始，每64MB字节划分为一个Block，以此类推，可以划分出很多的Block。每个Block就是64MB（也可以自定义设置Block大小）。

　　（3）典型部署

　　HDFS的一个典型部署是在一个专门的机器上运行NameNode，集群中的其他机器各运行一个DataNode。（当然，也可以在运行NameNode的机器上同时运行DataNode，或者一个机器上运行多个DataNode）一个集群中只有一个NameNode（但是单NameNode存在单点问题，在Hadoop 2.x版本之后解决了这个问题）的设计大大简化了系统架构。

2.3 保障HDFS的可靠性措施

　　HDFS具备了较为完善的冗余备份和故障恢复机制，可以实现在集群中可靠地存储海量文件。

　　（1）冗余备份：HDFS将每个文件存储成一系列的数据块（Block），默认块大小为64MB（可以自定义配置）。为了容错，文件的所有数据块都可以有副本（默认为3个，可以自定义配置）。当DataNode启动的时候，它会遍历本地文件系统，产生一份HDFS数据块和本地文件对应关系的列表，并把这个报告发送给NameNode，这就是报告块（BlockReport），报告块上包含了DataNode上所有块的列表。

　　（2）副本存放：HDFS集群一般运行在多个机架上，不同机架上机器的通信需要通过交换机。通常情况下，副本的存放策略很关键，机架内节点之间的带宽比跨机架节点之间的带宽要大，它能影响HDFS的可靠性和性能。HDFS采用一种称为机架感知（Rack-aware）的策略来改进数据的可靠性、可用性和网络带宽的利用率。在大多数情况下，HDFS副本系数是默认为3，HDFS的存放策略是将一个副本存放在本地机架节点上，一个副本存放在同一个机架的另一个节点上，最后一个副本放在不同机架的节点上。这种策略减少了机架间的数据传输，提高了写操作的效率。机架的错误远远比节点的错误少，所以这种策略不会影响到数据的可靠性和可用性。

　　图6.副本存放的策略

　　（3）心跳检测：NameNode周期性地从集群中的每个DataNode接受心跳包和块报告，NameNode可以根据这个报告验证映射和其他文件系统元数据。收到心跳包，说明该DataNode工作正常。如果DataNode不能发送心跳信息，NameNode会标记最近没有心跳的DataNode为宕机，并且不会给他们发送任何I/O请求。

　　（4）安全模式

　　（5）数据完整性检测

　　（6）空间回收

　　（7）元数据磁盘失效

　　（8）快照（HDFS目前还不支持）

三.HDFS常用Shell操作

　　（1）列出文件目录：hadoop fs -ls 目录路径

　　　　查看HDFS根目录下的目录：hadoop fs -ls /

　　　　递归查看HDFS根目录下的目录：hadoop fs -lsr /

　　（2）在HDFS中创建文件夹：hadoop fs -mkdir 文件夹名称

　　　　在根目录下创建一个名称为di的文件夹：

　　（3）上传文件到HDFS中：hadoop fs -put 本地源路径目标存放路径

　　　　将本地系统中的一个log文件上传到di文件夹中：hadoop fs -put test.log /di

*PS:我们通过Hadoop Shell上传的文件是存放在DataNode的Block（数据块）中的，通过Linux Shell是看不到文件的，只能看到Block。因此，可以用一句话来描述HDFS：把客户端的大文件存放在很多节点的数据块中。

　　（4）从HDFS中下载文件：hadoop fs -get HDFS文件路径本地存放路径

　　　　将刚刚上传的test.log下载到本地的Desktop文件夹中：hadoop fs -get /di/test.log /home/hadoop/Desktop

　　（5）直接在HDFS中查看某个文件：hadoop fs -text(-cat) 文件存放路径

　　　　在HDFS查看刚刚上传的test.log文件：hadoop fs -text /di/test.log

　　（6）删除在HDFS中的某个文件(夹)：hadoop fs -rm(r) 文件存放路径

　　　　删除刚刚上传的test.log文件：hadoop fs -rm /di/test.log

　　　　删除HDFS中的di文件夹：hadoop fs -rmr /di

　　（7）善用help命令求帮助：hadoop fs -help 命令

　　　　查看ls命令的帮助：hadoop fs -help ls

每天收获一点点------Hadoop之HDFS基础入门的更多相关文章

每天收获一点点------Hadoop基本介绍与安装配置
一.Hadoop的发展历史说到Hadoop的起源,不得不说到一个传奇的IT公司—全球IT技术的引领者Google.Google(自称)为云计算概念的提出者,在自身多年的搜索引擎业务中构建了突破性的G ...
Hadoop系列-HDFS基础
基本原理 HDFS(Hadoop Distributed File System)是Hadoop的一个基础的分布式文件系统,这个分布式的概念主要体现在两个地方: 数据分块存储在多台主机数据块采取冗余 ...
Hadoop学习笔记—2.不怕故障的海量存储：HDFS基础入门
一.HDFS出现的背景随着社会的进步,需要处理数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是却不方便管理和维护—>因此,迫切需要一种系统来管理多 ...
每天收获一点点------Hadoop RPC机制的使用
一.RPC基础概念 1.1 RPC的基础概念 RPC,即Remote Procdure Call,中文名:远程过程调用: (1)它允许一台计算机程序远程调用另外一台计算机的子程序,而不用去关心底层的网 ...
每天收获一点点------Hadoop之初始MapReduce
一.神马是高大上的MapReduce MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算.对于大数据量的计算,通常采用的处理手法就是并行计算.但对许多开发者来 ...
每天收获一点点------Hadoop概述
一.Hadoop来历 Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明了倒排索引算法,通过加入了Map ...
Hadoop(1): HDFS基础架构
1. What's HDFS? Hadoop Distributed File System is a block-structured file system where each file is ...
每天收获一点点------Hadoop Eclipse插件的使用
本文所用软件版本:myeclipe2014 hadoop1.2.1 1.安装Hadoop开发插件下载hadoop-eclipse-plugin-1.2.1.jar,拷贝到myeclipse根目 ...
HDFS基础入门
HDFS简介 HDFS(全称:Hadoop Distribute File System)分布式文件系统,是Hadoop核心组成. HDFS中的重要概念分块存储 HDFS中的文件在物理上是分块存储的 ...

随机推荐

Phoenix Framework对于Tree该方法节点设置不同的图标，每个
在包Javax Swing的Tree对象.我们需要设置不同的图标为每个节点.它封装了一个通用的方法: 用法: jTree1.setCellRenderer(new TreeNodeRender(cas ...
C语言static 具体分析
google在最后三页C语言static内容,可找到的资料非常少.无论是长篇大论不知所云的话,在关键位置或跳过,习的人来说參考性不是非常大.所以.我这篇博文博採众家之长,把互联网上的资料整合归类,并亲 ...
NYOJ710 外星人的供给站【贪心】
外星人的供给站时间限制:1000 ms | 内存限制:65535 KB 难度: 描写叙述外星人指的是地球以外的智慧生命.外星人长的是不是与地球上的人一样并不重要,但起码应该符合我们眼下对生命基 ...
sql server 远程
资讯 | 安全 | 论坛 | 下载 | 读书 | 程序开发 | 数据库 | 系统 | 网络 | 电子书 | 站长学院 | 源码 | QQ | 专栏 | 考试 | 手册 | ...
C# Windows Phone 8 WP8 开发，取得手机萤幕大小两种方法。
原文:C# Windows Phone 8 WP8 开发,取得手机萤幕大小两种方法. 一般我们在开发Windows Phone App时,需要取得萤幕的大小来自定义最佳化控制项的大小,但是开如何取得萤 ...
Sqlserver中Over函数
Over函数不能单独使用,要和分析函数:rank(),dense_rank(),row_number()等一起使用. 其参数:over(partition by columnname1 order ...
简单的反射把datatable 转换成list对象
/// <summary> /// 把datatable 转换成list对象 /// </summary> /// <typeparam name="T&quo ...
[LeetCode235]Lowest Common Ancestor of a Binary Search Tree
题目: Given a binary search tree (BST), find the lowest common ancestor (LCA) of two given nodes in th ...
Android－管理Activity生命周期－重新创建Activity
按照正常的app行为,很少情况下activity会销毁,只有当用户点击了返回按钮或者activity通过调用finish()发出销毁信号.系统也有可能销毁activity如果它是停止状态并且很久没有使 ...
Sublime Text 3 搭建Go开发环境(Windows)
一.安装GO 如果已经环境已经配置好,这一步省略.... 1.下载并安装go sdk 2.配置环境变量 (1). 新建变量名:GOBIN 变量值 :F:\Go\bin (2). 新建变量名:GOA ...

每天收获一点点------Hadoop之HDFS基础入门