一、HDFS的由来:

本地系统:一个节点作为系统,以前数据是存放在本地文件系统上的,但本地文件系统存在两个问题:1、本地节点存储容量不够大;2、本地节点会坏,数据不够安全。这时,人们开始利用闲置的计算机组成了分布式系统,分布式系统是用计算机网络将多个节点联系起来组成一个逻辑上统一的系统。

分布式系统的三大特点:

1、物理分布性,可靠性好;

2、逻辑整体性:对内可以是零散的,但对外必须是一个整体;

3、节点自治性:可靠性高。

现在数据是存放在分布式文件系统上的,分布式文件系统的好处:1、理论上存储容量无穷大,只要服务器数量足够多,解决了硬盘容量不够大的问题;2、通过水平复制实现数据备份功能,解决了硬盘会坏,数据不够安全的问题,因此Google的GFS论文就这样诞生了,Google公司大量使用普通PC机作为服务器,PC机上去掉机箱、外设和硬盘,Doug Cutting则借鉴了GFS论文, 实现了HDFS并贡献了apache基金会。

二、HDFS的体系结构:

(1)Namenode:名称节点

1、管理HDFS

2、接收客户端的请求:上传文件、下载文件等

3、创建日志(edits文件),记录所有针对HDFS的操作,保存HDFS的最近操作

注:edits文件记录自最后一次检查点之后所有针对HDFS的操作,比如:增加文件、删除文件等。

保存目录:$HADOOP_HOME/tmp/dfs/name/current

HDFS提供了离线日志查看器(oev)查看edits文件,默认将edits文件转化成xml文件:

hdfs oev -i edits文件 -o xml文件路径

4、保存文件元信息,将内存中不常用的(采用LRU算法:最近最少使用算法)文件元信息保存到磁盘中形成fsimage文件。

注:文件元信息包含文件名、文件大小、文件存放路径、数据块个数、数据块位置。

fsimage文件记录自最后一次检查点之前HDFS中所有文件的元信息(序列化信息),序列化的作用:进程间通信和永久存储。

保存目录:$HADOOP_HOME/tmp/dfs/name/current

HDFS提供了离线镜像查看器(oiv)查看fsimage文件,默认将fsimage文件转化成txt文件

hdfs oiv -i fsimage文件 -o txt文件路径

(2)Datanode:数据节点

1、以数据块为单位保存数据

hadoop1.x数据块大小:64M

hadoop2.x数据块大小:128M

hadoop3.x数据块大小:256M

保存目录:$HADOOP_HOME/tmp/dfs/data/current

(3)SecondaryNamenode:第二名称节点

1、定期进行edits文件和fsimage文件的合并,更新fsimage文件

发生的时机:当HDFS发出检查的时候:1、检查周期:每隔一小时 2、检查大小:edits文件是否达到64M

三、HDFS存在的问题:

1、Namenode单点故障

hadoop1.x:没有解决方案

hadoop2.x:借助zookeeper实现hadoop的HA功能

2、Namenode压力过大且内存有限,影响HDFS存储效率

hadoop1.x:没有解决方案

hadoop2.x:使用HDFS的联盟实现Namenode的水平扩展

四、HDFS的高级特性:

1、HDFS的回收站(Recycle bin):默认是关闭的,可以通过修改core-site.xml文件打开回收站

<property>

<name>fs.trash.interval</name>

<value>1440</value>

</property>

注:一天后自动清空回收站,百度网盘十天后自动清空回收站

2、HDFS的快照(Snapshot):默认是禁用的,快照是某个目录在某一时刻的镜像。

快照的作用:

1、防止用户错误操作

2、备份

3、试验

4、灾难恢复

启用某个目录的快照:hdfs dfsadmin -allowSnapshot /mydir

禁用某个目录的快照:hdfs dfsadmin -disallowSnapshot /mydir

创建这个目录的快照:hdfs dfs -createSnapshot mydir1_backup_01

删除这个目录的快照:hdfs dfs -deleteSnapshot mydir1_backup_01

重命名这个目录的快照:hdfs dfs -reanameSnapshot mydir1_bakcup_01

(创建快照的本质:将目录复制到当前目录中的.snapshot隐藏目录下)

3、HDFS的配额(quota):

1、名称配额:规定某个目录下存放文件的个数,实际个数n-1个

2、空间配额:规定某个目录下存放文件的大小,最小配置128M

4、HDFS的安全模式:只读模式

作用:保护数据块的安全性

过程:当集群启动时首先进入安全模式,检查数据块的副本率(默认副本率:0.999),当副本率不满足要求时,少了:水平复制,多了:删除冗余,副本率=实际副本数/设置副本数。

5、HDFS的权限管理:默认是开启的,可以通过修改hdfs-site.xml文件关闭权限管理

<property>

<name>dfs.permissions</name>

<value>false</value>

</property>

作者:李金泽AllenLi,清华大学硕士研究生,研究方向:大数据和人工智能

带您详细解读分布式文件系统HDFS的更多相关文章

  1. 大数据技术原理与应用——分布式文件系统HDFS

    分布式文件系统概述 相对于传统的本地文件系统而言,分布式文件系统(Distribute File System)是一种通过网络实现文件在多台主机上进行分布式存储的文件系统.分布式文件系统的设计一般采用 ...

  2. 你想了解的分布式文件系统HDFS,看这一篇就够了

    1.分布式文件系统 计算机集群结构 分布式文件系统把文件分布存储到多个节点(计算机)上,成千上万的计算机节点构成计算机集群. 分布式文件系统使用的计算机集群,其配置都是由普通硬件构成的,与用多个处理器 ...

  3. 大数据 --> 分布式文件系统HDFS的工作原理

    分布式文件系统HDFS的工作原理 Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统.HDFS是一个高度容错性的系统,适合部署在廉价的机器上.它能提供高吞吐量的数 ...

  4. Hadoop分布式文件系统--HDFS结构分析

    转自:http://blog.csdn.net/androidlushangderen/article/details/47377543 HDFS系列:http://blog.csdn.net/And ...

  5. 【转载】Hadoop分布式文件系统HDFS的工作原理详述

    转载请注明来自36大数据(36dsj.com):36大数据 » Hadoop分布式文件系统HDFS的工作原理详述 转注:读了这篇文章以后,觉得内容比较易懂,所以分享过来支持一下. Hadoop分布式文 ...

  6. 大数据技术 - 分布式文件系统 HDFS 的设计

    本章内容介绍下 Hadoop 自带的分布式文件系统,HDFS 即 Hadoop Distributed Filesystem.HDFS 能够存储超大文件,可以部署在廉价的服务器上,适合一次写入多次读取 ...

  7. 06_Hadoop分布式文件系统HDFS架构讲解

    mr  计算框架 假如有三台机器 统领者master 01  02  03  每台机器都有过滤的应用程序 移动数据 01机== 300M  >mr 移动计算  java程序传递给各个机器(mr) ...

  8. Hadoop分布式文件系统HDFS

    HDFS的探究: HDFS HDFS是 Hadoop Distribute File System的缩写,是谷歌GFS分布式文件系统的开源实现,Apache Hadoop的一个子项目,HDFS基于流数 ...

  9. 对Hadoop分布式文件系统HDFS的操作实践

    原文地址:https://dblab.xmu.edu.cn/blog/290-2/ Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)是Hadoop核 ...

随机推荐

  1. 分布式Session一致性解决方案有哪些?

    1.使用cookie代替session(不安全,不推荐使用) 2.使用数据库存储session(效率低,不推荐使用) 3.使用nginx反向代理ip绑定方法,同一个ip只能在同一台服务器上进行访问(不 ...

  2. [可能不知道]什么是PeopleSoft的JOLT以及相关进程

    PeopleSoft applecation server依赖于Jolt,Jolt是与Tuxedo配套的产品,可以处理所有web请求.换句话说,Jolt是application server与web ...

  3. IT的2017,面临数字生态系统新挑战,该怎么办?

    所谓数字生态系统,就是包含一系列基于标准,规模可变的硬件.软件.数字设备和服务,可系统地实现企业信息数字化,数据流通,以帮助企业提高运营效率. 随着越来越多的中国企业加入数字生态系统,中国CIO在技术 ...

  4. Nginx的性能优化

    1.优化worker进程个数: 在高并发.高访问量的WEB服务场景,需要事先启动更多的nginx进程,以保证快速响应并处理大量并发用户的请求,优化nginx进程个数的配置项就是,在nginx.conf ...

  5. Windows安装PostgreSQL数据库 无法初始化数据库问题

    背景 由于项目的需要,使用PostgreSQL数据库,因此在Windows上安装PostgreSQL数据库.但是在安装后,无法访问本地数据库,这个时候查看/data目录,没有任何文件.而且安装过程中, ...

  6. python基础一数据类型之元祖

    摘要: python基础一中写到数据类型元祖,那么这篇主要讲元祖. 1,元祖定义 tuple1 = (1,2,'a','b') 元祖是不可变数据,所以又名只读列表.那么如何让是元祖可变呢?可以在元祖中 ...

  7. 免安装PostgreSQL启动服务及创建数据库

    安装环境windows7 64位系统 免安装版本postgresql-10.3-1-windows-x64-binaries ===================================== ...

  8. python基础知识回顾之元组

    元组与列表的方法基本一样,只不过创建元组是用小括号()把元素括起来,两者的区别在于,元组的元素不可被修改. 元组被称为只读列表,即数据可以被查询,但不能被修改,列表的切片操作适用于元组. 元组写在小括 ...

  9. Operating System Error Codes

    How To Fix Windows Errors Click here follow the steps to fix Windows and related errors. Instruction ...

  10. sha256sum和 md5sum 命令之间的区别

    Short answer: For verifying ISOs, there is no practical difference, use whichever you want, as long ...