Hadoop核心组件之HDFS

HDFS：分布式文件系统

一句话总结

一个文件先被拆分为多个Block块（会有Block-ID：方便读取数据），以及每个Block是有几个副本的形式存储

1个文件会被拆分成多个Block

blocksize：128M（Hadoop2.0以后默认的块大小，可以自定义配置）

130M ==> 2个Block： 128M 和 2M

HDFS设计目标

巨大的分布式文件系统
满足大数据场景基本数据存储的要求
廉价的机器上
当你的存储空间不够，你可以水平横向扩展机器方式提高

HDFS架构

NameNode + N个DataNode

典型的主从架构，即：

1 Master(NameNode/NN) 带 N个Slaves(DataNode/DN)

建议：NN和DN是部署在不同的节点上

PS：

常见的主从架构还有：HDFS/YARN/HBase

主从架构一个难题就是：如何保证HA的问题，很多时候会使用Zookeeper来配置使用

NameNode/NN:主节点Master

1）负责客户端请求的响应

2）负责元数据（文件的名称、副本系数、Block存放的DN）的管理

DataNode/DN：从节点Slaves

1）存储用户的文件对应的数据块(Block)

2）要定期向NN发送心跳信息，汇报本身及其所有的block信息，健康状况

HDFS副本机制

replication factor：副本系数、副本因子
一个大的文件会被拆分为许多块，最终以多副本的方式存储在多个节点上
一个文件，除了最后一个，其余所有块的大小都是一致的

问题：那么如何为每个Block选择存储在哪些节点上呢？

Rack代表的是机架：一般三份副本分别是这样存储的

第一份副本：存储在当前提交存储的机架中当前节点上

第二份副本：存储在非当前机架上的某一节点上

第三份副本：和第二副本统一机架的不同节点之上

建议：生产只能够，起码划分两个及其以上的机架

HDFS Shell

Usage: hdfs dfs [COMMAND [COMMAND_OPTIONS]]

hadoop fs -ls / 等价 hdfs dfs -ls /

[root@hadoop000 data]# ls

hadoop-tmp  hello.txt

上传：

 [root@hadoop000 data]# hadoop fs -put hello.txt /

下载：

[root@hadoop000 data]# hadoop fs -get /test/a/b/h.txt

查看内容：

[root@hadoop000 data]# hadoop fs -text /hello.txt

[root@hadoop000 data]# hadoop fs -cat /hello.txt

建立目录;

[root@hadoop000 data]# hadoop fs -mkdir /test

创建递归的目录

[root@hadoop000 data]# hadoop fs -mkdir -p /test/a/b

递归展示目录文件：

[root@hadoop000 data]# hadoop fs -ls -R /

本地拷贝到hdfs:

[root@hadoop000 data]# hadoop fs -copyFromLocal hello.txt /test/a/b/h.txt

删除文件：

[root@hadoop000 data]# hadoop fs -rm /hello.txt

递归删除文件夹：

[root@hadoop000 data]# hadoop fs -rm -R /test

HSFS的读写流程，工作原理（面试）

漫画图解

https://blog.csdn.net/eric_sunah/article/details/41546863

Client：客户端，通过HDFS Shell或Java API发起读写请求

1个NameNode：全局把控

N 个DataNode: 数据存储

写数据流程：

1.客户端把文件拆分为多个Block

2.NameNode:提供刚才拆分出来的Block块的具体datanode存储位置

3.DataNode:存储Block块的数据，把3个副本数据写完

读数据流程：

1.用户提供文件名就可以给客户端

2.客户端发起请求给NameNode

3.NameNode就会告诉客户端具体的存储位置和块

4.发起最近距离节点请求给DataNode下载数据

HDFS的优缺点

优点：

数据冗余,硬件容错

一次写入，多次读取数据

适合存储大文件

构建在廉价机器上

缺点：

延时性高

不适合小文件存储