引言

HDFS 的定位就是一个文件系统,用于存储文件,而 HDFS 对于文件的存储方式有两种:

  • 内存存储

  • 异构存储

内存存储

什么是内存存储?

首先,我们来了解一下到底什么是 “内存存储”?

那还用说嘛,当然就是使用内存来存储数据的方式咯!是的,在 HDFS 中,“内存存储” 就是我们常听到的 " LAZY_PERSIST "。

我们可以在 HDFS 上创建某个文件时设定它的存储模式为 "LAZY_PERSIST" 模式,如此一来,后续在这个文件上所追加的所有数据都会被直接保存在对应数据节点的内存上。而使用内存来作为数据的存储介质的好处想必就不用我多说了,但同时在内存上保存数据的坏处也很让人头疼啊。内存的容量小、掉电数据尽数丢失,无论哪一个问题都能让相关人员头皮炸裂。但又不能为了避免这些风险而完全放弃内存存储,毕竟它的好处也实在是太诱人了。

那怎么办呢?尽可能地去解决它的缺点呗!最合适的解决方案就是 “异步持久化” 了。

什么是 “异步持久化”?

说白了就是对于使用内存存储模式的那些文件数据,再另外开一个线程,在后台将一些老旧的数据持久化到磁盘上去,在系统正常停服时,可能只需要很短的时间就能将剩余的在内存中的数据全部持久化到磁盘中去了,而对于服务器掉电、宕机等情况,可能也只是损失一小部分数据而已,工程师们是能够容忍一小部分数据丢失的情况的 。而这个 “异步持久化” 过程对于终端用户而言是透明的。也正是由于这种延时落地数据到磁盘的机制,才使得内存存储得到一个 "LAZY_PERSIST" 的英文名称。

如何使用内存存储模式?

那前面我们了解了内存存储的基本概念以后,在日常开发过程中又要如何来使用内存存储模式呢?

其实可以有两种方式来设置使用内存存储模式:

命令行设置

使用命令行设置的方式,可以使用如下命令

hdfs storagepolicies -setStoragePolicy -path <path> -policy <policy>

但是一定要注意,只能给目录设置。下面是一条使用命令设置内存存储模式的实例

[root@hdp-01 ~]$ hdfs storagepolicies -setStoragePolicy -path lemontea2 -policy LAZY_PERSIST
Set storage policy LAZY_PERSIST on lemontea2

上面的命令表示我在 . 目录下创建了一个 lemontea2 目录,并将这个目录设置成 LAZY_PERSIST 模式,后续所有在这个目录下创建的文件都会以内存存储模式来保存。

Java 代码设置

使用 Java 代码来设置的方式也是发生在文件创建时。我们可以发现在 org.apache.hadoop.fs.FileSystem 抽象类中有这样一个方法

public FSDataOutputStream create(Path f,
FsPermission permission,
EnumSet<CreateFlag> flags,
int bufferSize,
short replication,
long blockSize,
Progressable progress) throws IOException {
return create(f, permission, flags, bufferSize, replication,
blockSize, progress, null);
}

这个方法中的参数 flags 就是用于设置存储模式的,这个 flags 所支持的所有模式有如下所示

CreateFlag specifies the file create semantic. Users can combine flags like:
EnumSet.of(CreateFlag.CREATE, CreateFlag.APPEND) Use the CreateFlag as follows:
1. CREATE - to create a file if it does not exist,else throw FileAlreadyExists.
2. APPEND - to append to a file if it exists,else throw FileNotFoundException.
3. OVERWRITE - to truncate a file if it exists,else throw FileNotFoundException.
4. CREATE|APPEND - to create a file if it does not exist,else append to an existing file.
5. CREATE|OVERWRITE - to create a file if it does not exist,else overwrite an existing file.
6. SYNC_BLOCK - to force closed blocks to the disk device.In addition Syncable.hsync() should be called after each write,if true synchronous behavior is required.
7. LAZY_PERSIST - Create the block on transient storage (RAM) ifavailable.
8. APPEND_NEWBLOCK - Append data to a new block instead of end of the lastpartial block.

我们在 Java 代码中创建某个文件时使用这个方法来创建就可以设置了。

内存存储模式在 DataNode 中如何运转?

在 DataNode 中有三种角色共同参与到内存存储模式的 “日常运维” 过程中去。

  • RamDiskReplicaLruTracker:它是一个大管家,负责整理整个内存中所有的数据信息。

  • LazyWriter:它是一个监督员,它的任务就是不断地从数据块列表中取出数据,好将它扔给第三个角色来将数据持久化到磁盘中去。

  • RamDiskAsyncLazyPersistService:它本质上是一个线程池,但是专门负责将数据持久化到磁盘中去。

开发过程中如何使用内存存储模式?

我们知道,内存存储模式是将数据保存在内存上的,但我们的 HDFS 的数据文件说白了还是在我们的物理机器的本地文件系统上。HDFS 的数据不能真的在接收到以后直接就缓存在电脑内存中。

那有什么办法可以让 HDFS 在做了这种写出数据到本地文件系统,实际上又还是在内存上保存的方法呢?

答案就是 Linux 的虚拟硬盘。

虚拟硬盘其实就是将内存映射成硬盘,像访问硬盘一样来访问内存。那关于 Linux 虚拟硬盘的设置这里也不详说了,总之就是将 /dev/shm 节点以 tmpfs 的模式挂载到某个目录下,然后再将这个目录填到 hdfs-site.xml 中去。

总的来说,要想使用内存存储模式,得满足以下三个条件:

  1. 确保本地文件系统中有虚拟硬盘的存在,并将它填写在 hdfs-site.xml 中的 dfs.datanode.data.dir 配置项中,以逗号分隔开。虚拟硬盘的前面要加上标识符 [RAM_DISK]。
<property>
  <name>dfs.datanode.data.dir</name>
  <value>/var/data/1,/var/data/2,[RAM_DISK]/mnt/mytmpfs/0</value>
</property>
  1. 确保 HDFS 的异构存储策略是打开状态的,即配置项 dfs.storage.policy.enabled

  2. 确保内存值设置的正确性,即配置项 dfs.datanode.max.locked.memory

HDFS 的内存存储是什么?的更多相关文章

  1. Hadoop:HDFS NameNode内存全景

    原文转自:https://tech.meituan.com/namenode.html 感谢原作者 一.概述 从整个HDFS系统架构上看,NameNode是其中最重要.最复杂也是最容易出现问题的地方, ...

  2. HDFS NameNode内存详解

    前言 <HDFS NameNode内存全景>中,我们从NameNode内部数据结构的视角,对它的内存全景及几个关键数据结构进行了简单解读,并结合实际场景介绍了NameNode可能遇到的问题 ...

  3. HDFS NameNode内存全景

    一.概述 从整个HDFS系统架构上看,NameNode是其中最重要.最复杂也是最容易出现问题的地方,而且一旦NameNode出现故障,整个Hadoop集群就将处于不可服务的状态,同时随着数据规模和集群 ...

  4. Redis内存存储结构分析

    1 Redis 内存存储结构 本文是基于 Redis-v2.2.4 版本进行分析. 1.1 Redis 内存存储总体结构 Redis 是支持多key-value数据库(表)的,并用 RedisDb 来 ...

  5. C/C++内存存储

    #include <stdio.h> #include "string.h" #include "malloc.h" void Swap(int a ...

  6. memcached全面剖析–2. 理解memcached的内存存储

    Slab Allocation机制:整理内存以便重复使用 最近的memcached默认情况下采用了名为Slab Allocator的机制分配.管理内存. 在该机制出现以前,内存的分配是通过对所有记录简 ...

  7. C/C++内存存储问题

    #include <stdio.h> #include "string.h" #include "malloc.h" void Swap(int a ...

  8. 1.C#基础学习笔记3---C#字符串(转义符和内存存储无关)

    技术qq交流群:JavaDream:251572072  教程下载,在线交流:创梦IT社区:www.credream.com ------------------------------------- ...

  9. 【解惑】剖析float型的内存存储和精度丢失问题

    问题提出:12.0f-11.9f=0.10000038,"减不尽"为什么? 现在我们就详细剖析一下浮点型运算为什么会造成精度丢失? 1.小数的二进制表示问题 首先我们要搞清楚下面两 ...

随机推荐

  1. Redhat 安装gitlab

    以下为8月23日左右记录的,没有发布.今日整理大概记录下. 安装依赖包 yum install -y curl policycoreutils-python openssh-server openss ...

  2. LAMP架构上线动态网站WordPress

    第一步,一键安装LAMP架构所需要的程序 yum install -y httpd mariadb-server php php-mysql 第二步,配置httpd,修改主配置文件/etc/httpd ...

  3. 善用k8s describe

    使用 kubectl describe 来查看某个东西的详细例如 kubectl describe deployment my-nginx kubectl describe svc my-nginx

  4. 案例分析–Note-taking Management Softwares

    项目 内容 这个作业属于那个课程 2021春季学期软件工程(罗杰.任健) 这个作业的要求在哪里 案例分析 我在这个课程的目标是 团队协作,利用软件工程的思维和方法开发出一款具有实用价值的软件 这个作业 ...

  5. 2021S软件工程——个人阅读作业1

    2021S软件工程--个人阅读作业1 项目 内容 这个作业属于哪个课程 2021春季软件工程(罗杰 任建) 这个作业的要求在哪里 2021年软工-热身阅读作业 我在这个课程的目标是 了解并熟悉软件开发 ...

  6. 逻辑引擎、工作流、CMDB小感

    工作流是啥? 在界面上画画点点就能生成代码,这是很吸引人的事情,也是很多自动化工具追求的目标.工作流就是这么一个东西,通过定义流程和输入,就能实现你想要的东西,不需要编写代码. 工作流的实现 通过解析 ...

  7. 05- 移动端APP的分类 与对比webApp hybridApp nativeApp

    随着智能手机的普及,移动端应用几乎成为每个互联网产品的标配.在快速迭代的互联网战场中高效开发.低成本上线产品,是每个应用开发团队追求的目标.此时,选择合适的应用类型和开发模式便至关重要.移动应用可以粗 ...

  8. php swoole 和 websocket的初次碰撞

    php swoole 扩展仿佛为php开发打开了一扇窗户 阅读文档 https://wiki.swoole.com php workman和swoole原来是两个东东 swoole的使用范围更广,能做 ...

  9. 【vue环境】vue : 无法加载文件 C:\Users\1111111\AppData\Roaming\npm\vue.ps1,因为在此系统禁止运行脚本

    在用脚手架搭建vue项目时,提示:无法加载文件 C:\Users\1111111\AppData\Roaming\npm\vue.ps1,因为在此系统禁止运行脚本 这是你笔记本禁止运行脚本,解决办法 ...

  10. 使用SSH端口做端口转发以及反向隧道

    目录 SSH做本地端口转发 SSH做反向隧道(远程端口转发) 用autossh建立稳定隧道 SSH开启端口转发需要修改 /etc/ssh/sshd_config配置文件,将 GatewayPorts修 ...