1 背景

在我们实际的开发过程中，我们的某些数据可能经常使用，但是过了一段时间，这个数据就不怎么使用了，即我们的数据存在一个热、温、冷等这些特性。那么针对数据的热度，我们可以采用不同的策略，存储到不同的存储介质上。

比如：

针对经常访问的数据，我们可以存储在SSD上。
针对访问频率不高的，我们可以存储在DISK，即普通的硬盘上。
针对几乎不会访问的数据，保存在归档介质上。

注意：那么hdfs自己知道哪些数据是热数据，哪些数据是冷数据吗，貌似是不知道的，需要我们自己去判断。

2 hdfs异构存储类型和存储策略

2.1 hdfs支持的存储类型

hdfs支持如下4中存储类型

ARCHIVE： 它具有高存储密度（PB级存储）但计算能力弱，一般用于归档文件的存储。
DISK ： 普通磁盘，默认的存储类型
SSD ： SSD固态硬盘
RAM_DISK： 支持在内存中写入单个副本文件

2.2 hdfs如何知道数据存储目录是那种存储类型

hdfs是不会自动检测我们指定的数据存储目录是何种存储类型的，需要我们在配置的时候告诉hdfs。

指定目录的存储类型

vim hdfs-site.xml

<property>

    <name>dfs.datanode.data.dir</name>

    <value>[SSD]file:///var/hadoop/dfs/data1,[DISK]file:///var/hadoop/dfs/data2</value>

</property>

从上面的配置中可以 /var/hadoop/dfs/data1前面指定了[SSD]，则说明data1 这个目录是一个 SSD的存储介质，但是具体是不是真的SSD类型，这个是不会去校验的。

2.3 存储策略

2.3.1 在hdfs中支持如下存储策略

Hot： 用于存储和计算。当我们的数据是热数据时，可以使用这种存储策略，所有的副本都在DISK中。
Warm： 仅适用于计算有限的存储。不再使用的数据或需要归档的数据从热存储移动到冷存储。当一个块冷时，所有副本都存储在ARCHIVE中。
Cold：部分热和部分冷。当一个块是热的时，它的一些副本存储在DISK中，其余的副本存储在ARCHIVE中。
All_SSD：用于将所有副本存储在SSD中。
One_SSD：用于将其中一个副本存储在SSD中。其余副本存储在DISK中。
Lazy_Persist：用于在内存中写入具有单个副本的块。副本首先用RAM_DISK写入，然后懒惰地保存在DISK中。
Provided：用于在HDFS之外存储数据

2.3.2 存储策略表

2.3.4 Storage Policy Resolution

创建文件或目录时，未指定其存储策略。可以使用storagePolicy -setStoragePolicy命令指定存储策略。文件或目录的有效存储策略由以下规则解析。

如果文件或目录指定了存储策略，则返回它。
对于未指定的文件或目录，如果是根目录，则返回默认存储策略。否则，返回其父级的有效存储策略。

有效的存储策略可以通过storagePolicy -getStoragePolicy命令检索。

2.3.5 配置存储策略

dfs.storage.policy.enabled 用于启用或禁止存储策略特性，默认值是true
dfs.datanode.data.dir 在每个数据节点上，逗号分隔的存储位置应标记其存储类型。这允许存储策略根据策略将块放置在不同的存储类型上。

举例说明

如果一个datanode 上的存储位置 /grid/dn/disk0是 DISK类型，应该配置为[DISK]file:///grid/dn/disk0
如果一个datanode 上的存储位置 /grid/dn/disk0是 SSD类型，应该配置为[SSD]file:///grid/dn/disk0
如果一个datanode 上的存储位置 /grid/dn/disk0是 ARCHIVE类型，应该配置为[ARCHIVE]file:///grid/dn/disk0

如果没有显式标记的存储类型，则datanode存储位置的默认存储类型将是DISK。

2.3.6 基于存储策略的数据移动

在已经存在的文件/目录上设置新的存储策略将改变命名空间中的策略，但它不会在存储介质之间物理移动块。

此处介绍基于Mover来解决这个问题，具体的细节需要看官方文档。

2.3.7 存储策略命令

2.3.7.1 列出所有存储策略

hdfs storagepolicies -listPolicies

2.3.7.2 为文件或目录设置存储策略

hdfs storagepolicies -setStoragePolicy -path <path> -policy <policy>

<path>：需要设置存储策略的文件或目录

<policy>：存储策略的名字

2.3.7.3 取消存储策略

hdfs storagepolicies -unsetStoragePolicy -path <path>

取消对文件或目录的存储策略设置。在unset命令之后，将应用最近祖先的存储策略，如果没有任何祖先的策略，则将应用默认存储策略。

2.3.7.4 获取文件或目录的存储策略。

hdfs storagepolicies -getStoragePolicy -path <path>

2.3.7.5 查看文件块分布

hdfs fsck xxx -files -blocks -locations

3 hdfs异构存储案例

3.1 环境准备

ip地址	节点名	存储类型
192.168.121.140	hadoop01	DISK,ARCHIVE
192.168.121.141	hadoop02	DISK,SSD
192.168.121.142	hadoop03	SSD,ARCHIVE

3.2 节点 hdfs-site.xml配置文件

3.2.1 hadoop01

<property>

	<name>dfs.replication</name>

	<value>2</value>

</property>

<!-- 开启hdfs异构存储策略 -->

<property>

	<name>dfs.storage.policy.enabled</name>

	<value>true</value>

</property>

<!-- 配置block块的存储目录，配置hdfds数据的存储目录 -->

<property>

	<name>dfs.datanode.data.dir</name>

	<value>[DISK]file:///opt/bigdata/hadoop-3.3.4/data/disk,[ARCHIVE]file:///opt/bigdata/hadoop-3.3.4/data/archive</value>

</property>

3.2.2 hadoop02

<property>

	<name>dfs.replication</name>

	<value>2</value>

</property>

<!-- 开启hdfs异构存储策略 -->

<property>

	<name>dfs.storage.policy.enabled</name>

	<value>true</value>

</property>

<!-- 配置block块的存储目录，配置hdfds数据的存储目录 -->

<property>

	<name>dfs.datanode.data.dir</name>

	<value>[DISK]file:///opt/bigdata/hadoop-3.3.4/data/disk,[SSD]file:///opt/bigdata/hadoop-3.3.4/data/ssd</value>

</property>

3.2.3 hadoop03

<property>

	<name>dfs.replication</name>

	<value>2</value>

</property>

<!-- 开启hdfs异构存储策略 -->

<property>

	<name>dfs.storage.policy.enabled</name>

	<value>true</value>

</property>

<!-- 配置block块的存储目录，配置hdfds数据的存储目录 -->

<property>

	<name>dfs.datanode.data.dir</name>

	<value>[SSD]file:///opt/bigdata/hadoop-3.3.4/data/ssd,[ARCHIVE]file:///opt/bigdata/hadoop-3.3.4/data/archive</value>

</property>

3.3 重启hdfs集群，并看数据目录存储类型是否正确

3.4 案例演示

此处仅仅只是演示 Warm类型。

由之前的存储策略表(2.3.2)可知，Warm类型的策略，只有一个块存储在DISK存储上，其余的全部存储在ARCHIVE存储上。

# hdfs 上创建目录

[hadoopdeploy@hadoop01 hadoop]$ hadoop fs -mkdir -p /var/data/storage

# 上传文件到 hdfs 目录中

[hadoopdeploy@hadoop01 hadoop]$ hadoop fs -put /etc/profile /var/data/storage/profile

# 设置 /var/data/storage 目录的存储策略为 warm

[hadoopdeploy@hadoop01 hadoop]$ hdfs storagepolicies -setStoragePolicy -path /var/data/storage -policy WARM

Set storage policy WARM on /var/data/storage

# 查看 /var/data/storage 目录的文件块分布，发现还是 2个 DISK，说明历史数据需要迁移，使用 mover 命令

[hadoopdeploy@hadoop01 hadoop]$ hdfs fsck /var/data/storage -files -blocks -locations

Connecting to namenode via http://hadoop01:9870/fsck?ugi=hadoopdeploy&files=1&blocks=1&locations=1&path=%2Fvar%2Fdata%2Fstorage

FSCK started by hadoopdeploy (auth:SIMPLE) from /192.168.121.140 for path /var/data/storage at Sat Mar 18 17:49:48 CST 2023

/var/data/storage <dir>

/var/data/storage/profile 2098 bytes, replicated: replication=2, 1 block(s):  OK

0. BP-1760725553-192.168.121.140-1676791226380:blk_1073741858_1036 len=2098 Live_repl=2  [DatanodeInfoWithStorage[192.168.121.141:9866,DS-e86f80ba-6f04-4074-ab96-f58212c3c0e2,DISK], DatanodeInfoWithStorage[192.168.121.140:9866,DS-ca40e8cf-4d38-4a42-bfcb-e636087e9025,DISK]]

......

# 将 /var/data/storage 按照存储策略移动数据块

[hadoopdeploy@hadoop01 hadoop]$ hdfs mover /var/data/storage

2023-03-18 17:52:04,620 INFO mover.Mover: namenodes = {hdfs://hadoop01:8020=null}

2023-03-18 17:52:04,630 INFO balancer.NameNodeConnector: getBlocks calls for hdfs://hadoop01:8020 will be rate-limited to 20 per second

2023-03-18 17:52:05,368 INFO net.NetworkTopology: Adding a new node: /default-rack/192.168.121.142:9866

2023-03-18 17:52:05,368 INFO net.NetworkTopology: Adding a new node: /default-rack/192.168.121.140:9866

2023-03-18 17:52:05,368 INFO net.NetworkTopology: Adding a new node: /default-rack/192.168.121.141:9866

2023-03-18 17:52:05,402 INFO balancer.Dispatcher: Start moving blk_1073741858_1036 with size=2098 from 192.168.121.140:9866:DISK to 192.168.121.140:9866:ARCHIVE through 192.168.121.140:9866

2023-03-18 17:52:05,412 INFO balancer.Dispatcher: Successfully moved blk_1073741858_1036 with size=2098 from 192.168.121.140:9866:DISK to 192.168.121.140:9866:ARCHIVE through 192.168.121.140:9866

Mover Successful: all blocks satisfy the specified storage policy. Exiting...

2023-3-18 17:52:15       Mover took 10sec

# 重新查看 /var/data/storage 目录的文件块分布，发现还是 一个是 DISK 另外一个 ARCHIVE，说明存储策略生效了

pdeploy@hadoop01 hadoop]$ hdfs fsck /var/data/storage -files -blocks -locations

Connecting to namenode via http://hadoop01:9870/fsck?ugi=hadoopdeploy&files=1&blocks=1&locations=1&path=%2Fvar%2Fdata%2Fstorage

FSCK started by hadoopdeploy (auth:SIMPLE) from /192.168.121.140 for path /var/data/storage at Sat Mar 18 17:53:23 CST 2023

/var/data/storage <dir>

/var/data/storage/profile 2098 bytes, replicated: replication=2, 1 block(s):  OK

0. BP-1760725553-192.168.121.140-1676791226380:blk_1073741858_1036 len=2098 Live_repl=2  [DatanodeInfoWithStorage[192.168.121.141:9866,DS-e86f80ba-6f04-4074-ab96-f58212c3c0e2,DISK], DatanodeInfoWithStorage[192.168.121.140:9866,DS-cf50253c-ea3f-46f6-bdd9-4ac1ad3907d2,ARCHIVE]]

4 参考文档

1、https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/ArchivalStorage.html

2、https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml

hdfs的异构存储的更多相关文章

HDFS & MapReduce异构存储性能测试白皮书
HDFS 的内存存储是什么？
引言 HDFS 的定位就是一个文件系统,用于存储文件,而 HDFS 对于文件的存储方式有两种: 内存存储异构存储内存存储什么是内存存储? 首先,我们来了解一下到底什么是 "内存存储&q ...
Hadoop第三天---分布式文件系统HDFS(大数据存储实战)
1.开机启动Hadoop,输入命令: 检查相关进程的启动情况: 2.对Hadoop集群做一个测试: 可以看到新建的test1.txt和test2.txt已经成功地拷贝到节点上(伪分布式只有一个节 ...
hive表中字段显示为NULL时，HDFS文件中存储为\N
hive数据落地到hdfs,null会默认用'\N'存储解决方式1:利用命令(这个我没起效果) alter table adl_cici_test_fdt set serdeproperties(' ...
搭建基于 HDFS 碎片文件存储服务
安装 JDK HDFS 依赖 Java 环境,这里我们使用 yum 安装 JDK 8,在终端中键入如下命令: yum -y install java-1.8.0-openjdk* 使用如下命令查看下 ...
HDFS各个进程存储在磁盘上的数据含义和注意事项
本文地址:http://www.cnblogs.com/qiaoyihang/p/6293402.html (一)Namenode的目录结构 HDFS进行初次格式化之后将会在$dfs.namenode ...
Hive查看table在HDFS上的存储路径
hive>show databases;hive>use databasename;hive>show create table tablename; --查看table的存储路径h ...
4.1-4.2 基于HDFS云盘存储系统分析及hadoop发行版本
一.基于HDFS云盘存储系统如:某度网盘优点: *普通的商用机器内存磁盘 *数据的安全性操作: *put get *rm mv *java api *filesystem 核心: *H ...
Hdfs的列存储和行存储
列可以分开存储,对于重复性高的数据压缩比会高,但是在元组(行shi)恢复会比较消耗性能于传统列存储不同是行组会存储于同一节点中,列扫描会比较快(因为只需扫描一个行组)
hdfs冷热数据分层存储
hdfs如何让某些数据查询快,某些数据查询慢? hdfs冷热数据分层存储本质: 不同路径制定不同的存储策略. hdfs存储策略 hdfs的存储策略依赖于底层的存储介质. hdfs支持的存储介质: ...

随机推荐

各种相机以及图片-SLAM14CP5
--2020.10.20 开始学习SLAM.想着从SLAM开始然后做三维重建.前面的李群李代数以及旋转四元数有点复杂.都看过了一遍.但不太理解就先放放.希望接下去能够顺利进行.数学基础可能不是很好,公 ...
杭电OJ--1014
问题描述: 计算机模拟通常需要随机数.生成伪随机数的一种方法是通过窗体的函数seed(x+1) = [种子 (x) + STEP]% MOD其中 "%" 是模量运算符.这样的函数将 ...
pycharm的安装与使用
官网下载最新版本,然后用激活码,激活,注意是专业版. 方法找到后更新在这里. 进入软件之后创建新的文件夹,可以自定义,建议自定义在系统盘以外, 1.新建文件略过 2.ctrl + 鼠标中键, 调节字体 ...
impdp,depdp 常用参数
转载于:https://www.cnblogs.com/halberd-lee/p/7807032.html 1 导数据注意事项检查数据库版本(用于决定导出时生成为哪个版本的dmp头文件) sele ...
【UE4】GameplayTag的妙用（ActorTag）
我不会抛下这个残破的世界在现代游戏引擎中,有一个"Tag"的概念,无论是在Unreal还是Unity中,他们都有大同小异的tag实现. 此篇随笔以Actor Tag举例,简单讲解 ...
torch直接更改参数
使用model.layer1.weight.data.copy_(w1) 其中model是自定义的参数名字,layer1是某个具体的层,使用某个具体的w1来修改
CentOS切换gcc
centos默认的gcc版本太老了,有时候需要用新版本的gcc,编译gcc太麻烦可以使用centos提供的scl功能快速切换gcc版本 yum install centos-release-scl y ...
SSD目标检测网络解读（含网络结构和内容解读）
SSD实现思路 SSD具有如下主要特点: 从YOLO中继承了将detection转化为regression的思路,一次完成目标定位与分类基于Faster RCNN中的Anchor,提出了相似的Pri ...
django_ORM基础字段和选项
一.修改ORM 1.任何关于表结构的修改,务必在对应模型类上修改. 2.在上一篇博文中,创建了bookstore_book表,如果需要再添加一个名为info(varchar 100)的字段,则需要如下 ...
c++ProgrammingConcept
本文做为总章简单介绍自己的c++学习过程(学习书籍:c++编程思想) 第三章:c++中的c(part1) 第三章:c++中的c(part2)

hdfs的异构存储