GFS分布式文件系统

一、文件系统简介
1.文件系统的组成
接口：文件系统接口
功能模块（管理、存储的工具）：对对象管理里的软件集合
对象及属性：（使用此文件系统的消费者）
2.文件系统的作用
从系统角度来看，文件系统时对文件存储设备的空间进行组织和分配，负责文件存储并对存入的文件进行保护和检索的系统
主要负责为用户建立文件、存入、读出、修改、转储文件，控制文件的存取
3.文件系统的挂载使用
除跟文件系统以外的文件系统创建后要使用需要先挂载至挂载点后才可以被访问
挂载点即分区设备文件关联的某个目录文件
类比NFS（外部的文件系统），使用挂载的方式才可以让本地系统来使用外部的文件系统的功能
例如：配置永久挂载时，我们会写入挂载点与挂载目录，还有文件系统的名称（xfs），文件类型格式等。我们在远程跨服务器使用GFS分布式文件系统，挂载时也需要指定其文件格式（GlusterFS）

二、GFS分布式文件系统
1. GFS简介
GFS是一个可扩展、开源的分布式文件系统（可以很好的体现出弹性伸缩的特点），用于大型的、分布式的、对大量数据进行访问的应用，在传统的解决方案中，GFS 能够灵活的结合物理的，虚拟的和云资源去体现高可用和企业级的性能存储

GFS由三个组件组成
①存储服务器（Brick Server）
② 客户端（不在本地）（且，有客户端，也会有服务端，这点类似于 NFS，但是更为复杂）
③ 存储网关（NFS/Samaba）

无元数据服务器：
元数据是核心，描述对象的信息，影响其属性；
例如NFS，存放数据本身，是一个典型的元数据服务器可能存在单点故障，故要求服务器性能较高，服务器一旦出现故障就会导致数据丢失；
反过来看，所以无元数据服务不会有单点故障。
那么数据存放在哪里呢？会借用分布式的原则，分散存储，不会有一个统一的数据服务器

2. GFS的特点
扩展性和高性能：可扩展性，扩展节点，通过多节点提高性能
高可用性：不存在单点故障，有备份机制，类似Raid的容灾机制
全局同意命名空间：类比 API 的性质/概念，系统里根据他命名所定义的隔离区域，是一个独立空间；统一的名称空间，与客户端交互，把请求存放至后端的块数据服务器
弹性卷管理：方便扩容及对后端存储集群的管理与维护，较为复杂
基于标准协议：基于标准化的文件使用协议，让 CentOS 兼容 GFS

3. GFS专业术语
Brick 存储服务器：实际存储用户数据的服务器

Volume：本地文件系统的"分区”

FUSE：用户空间的文件系统(类比EXT4)，“这是一个伪文件系统”;以本地文件系统为例，用户想要读写一个文件，会借助于EXT4文件系统，然后把数据写在磁盘上；而如果是远端的GFS，客户端的请求则应该交给FUSE(为文件系统)，就可以实现跨界点存储在GFS上

VFS(虚拟端口) ：内核态的虚拟文件系统，用户是先提交请求交给VFS然后VFS交给FUSE，再交给GFS客户端，最后由客户端交给远端的存储

Glusterd(服务)：是允许在存储节点的进程

4.GFS 工作流程
① 客户端或应用程序通过 GlusterFS 的挂载点访问数据；
② linux系统内核**通过 VFS API 虚拟接口收到请求并处理；
③ VFS 将数据递交给 FUSE 内核文件系统，这是一个伪文件系统，这个伪文件系统主要用来转存，它提供一个虚拟接口，映射出来/dev/fuse这样一个虚拟路径，而 FUSE 文件系统则是将数据通过 /dev/fuse 设备文件递交给了 GlusterFS client 端。可以将 FUSE 文件系统理解为一个代理
④ GlusterFS client 会实时监听/dev/fuse下的数据，一旦数据更新，会把数据拿过来，client 根据配置文件的配置对数据进行处理
⑤ 经过 GlusterFS client 处理后，通过网络将数据传递至远端的 GlusterFS Server，server会先转存到本地的vfs虚拟文件系统中**，然后再通过vfs转存到EXT3上。EXT3指的是各个block块中的EXT3文件系统中。

GFS-server 端功能模块的划分：
① 卷的类型（使用分布式、复制、条带)
② 存储管理(卷的创建、启用、关闭)
③ I/O调用(存储后，读取数据，如何读取)
④ 与GFS-client 端对接

GFS-client 端
① 用户通过用户态模式下，存储数据(写入数据)
② 写入的数据，使用GFS挂载的形式完成（网络挂载samba/NFS)
③数据的写入会由GFS-client转存到GFS-server端(对应的卷中)

网络通讯
① Infinlband ——— IB
② RDMA——— 面向连接传输协议—— 数据完整性(丢包率低)
③ TCP/IP
④ RDMA———》以后的服务中可以做为跨节点共享内存资源的协议

5.服务器详解
Application：客户端或应用程序通过GlusterFSync的挂载点访问数据

VFS：linux系统内核通过VFS的API 收到请求并处理

FUSE：VFS将数据递交给FUSE内核文件系统，fuse文件系统则是将数据通过/dev/fuse设备文件递交给了GlusterFS

GlusterFS Client ：通过网络将数据传递至远端的GlusterFS Server，并且写入到服务器存储设备上

三、GFS卷类型
分布式卷（Distribute volume）
简单来说，就是如果有10个文件，如果不用分布式卷，这是个文件会放在一台服务器上，对于分布式而言，这是个文件是会分布在不同的服务器节点上进行保存。

①特点
文件分布在不同的服务器，不具备冗余性更容易和廉价地扩展卷的大小单点故障会造成数据丢失以来低层的数据保护

②原理
File1 和 File2 存放在 Server1，而 File3 存放在 Server2，文件都是随机存储，一个文件（如 File1）要么在 Server1 上，要么在 Server2 上，不能分块同时存放在 Server1和 Server2 上

③创建分布式卷
创建一个名为dis-volume的分布式卷，文件将根据HASH分布在server1:/dir1、server2:/dir2和server3:/dir3中gluster volume create dis-volume server1:/dir1 server2:/dir2 server3:/dir3

条带卷（Stripe volume）
类似 RAID0，文件被分成数据块并**以轮询的方式分布到多个 Brick Server 上**，文件存储以数据块为单位，支持大文件存储，文件越大，读取效率越高，但是不具备冗余性

①原理
File 被分割为 6 段，1、3、5 放在 Server1，2、4、6 放在 Server2

②特点
根据偏移量将文件分成N块（N个条带点），轮询的存储在每个Brick Serve 节点.分布减少了负载,在存储大文件时，性能尤为突出.没有数据冗余,类似于Raid 0

③创建条带卷
创建了一个名为stripe-volume的条带卷，文件将被分块轮询的存储在Server1:/dir1和Server2:/dir2两个Brick中gluster volume create stripe-volume stripe 2 transport tcp server1:/dir1 server2:/dir2

复制卷（Replica volume）
将文件同步到多个 Brick 上，比如说我有五个文件，这5个文件是一个整体，放在服务器A上，复制卷会帮我们复制一份复制在服务器B上。属于文件级 RAID 1，具有容错能力。因为数据分散在多个 Brick 中，所以读性能得到很大提升，但写性能下降。复制卷具备冗余性，即使一个节点损坏，也不影响数据的正常使用。但因为要保存副本，所以磁盘利用率较低

①原理
File1 同时存在 Server1 和 Server2，File2 也是如此，相当于 Server2 中的文件是 Server1 中文件的副本

②特点
卷中所有的服务器均保存一个完整的副本。具备冗余性.卷的副本数量可由客户创建的时候决定，但复制数必须等于卷中 Brick 所包含的存储服务器数。至少由两个块服务器或更多服务器。若多个节点上的存储空间不一致，将按照木桶效应取最低节点的容量作为改卷的总容量

③创建复制卷
创建名为rep-volume的复制卷，文件将同时存储两个副本，分别在Server1:/dir1和Server2:/dir2两个Brick中gluster volume create rep-volume replica 2 transport tcp server1:/dir1 server2:/dir2

分布式条带卷（Distribute Stripe volume）
Brick Server 数量是条带数（数据块分布的 Brick 数量）的倍数，兼具分布式卷和条带卷的特点。主要用于大文件访问处理，创建一个分布式条带卷最少需要 4 台服务器

①原理
File1 和 File2 通过分布式卷的功能分别定位到Server1和 Server2。在 Server1 中，File1 被分割成 4 段，其中 1、3 在 Server1 中的 exp1 目录中，2、4 在 Server1 中的 exp2 目录中。在 Server2 中，File2 也被分割成 4 段，其中 1、3 在 Server2 中的 exp3 目录中，2、4 在 Server2 中的 exp4 目录中

②创建分布式条带卷
创建一个名为dis-stripe的分布式条带卷，配置分布式的条带卷时，卷中Brick所包含的存储服务器数必须是条带数的倍数（>=2倍）。

Brick 的数量是 4（Server1:/dir1、Server2:/dir2、Server3:/dir3 和 Server4:/dir4），条带数为 2（stripe 2）gluster volume create dis-stripe stripe 2 transport tcp server1:/dir1 server2:/dir2 server3:/dir3 server4:/dir4
创建卷时，存储服务器的数量如果等于条带或复制数，那么创建的是条带卷或者复制卷；如果存储服务器的数量是条带或复制数的 2 倍甚至更多，那么将创建的是分布式条带卷或分布式复制卷

分布式复制卷（Distribute Replica volume）
分布式复制卷（Distribute Replica volume）：Brick Server 数量是镜像数（数据副本数量）的倍数，兼具分布式卷和复制卷的特点，主要用于需要冗余的情况下

①原理
File1 和 File2 通过分布式卷的功能分别定位到 Server1 和 Server2。在存放 File1 时，File1 根据复制卷的特性，将存在两个相同的副本，分别是 Server1 中的exp1 目录和 Server2 中的 exp2 目录。在存放 File2 时，File2 根据复制卷的特性，也将存在两个相同的副本，分别是 Server3 中的 exp3 目录和 Server4 中的 exp4 目录

②创建分布式复制卷
建一个名为dis-rep的分布式复制卷，配置分布式的复制卷时，卷中Brick所包含的存储服务器数必须是复制数的倍数（>=2倍）。Brick 的数量是 4（Server1:/dir1、Server2:/dir2、Server3:/dir3 和 Server4:/dir4），复制数为 2（replica 2）gluster volume create dis-rep replica 2 transport tcp server1:/dir1 server2:/dir2 server3:/dir3 server4:/dir4

6.条带复制卷（Stripe Replica volume）和分布式条带复制卷（Distribute Stripe Replicavolume）
条带复制卷（Stripe Replica volume）类似 RAID 1 0，同时具有条带卷和复制卷的特点。
分布式条带复制卷（Distribute Stripe Replicavolume）三种基本卷的复合卷，通常用于类 Map Reduce 应用

总结
GFS数据流向
①mysql服务器——>存储数据到挂载目录中/data

②mysql数据会优先交给内核的文件系统处理——>GFS客户端处理（本地）

③GFS客户端会和GFS服务端进行交互，GFS服务端接收到数据，然后再通过挂载的卷的类型，对应保存在后端block块节点服务器上

分布式条带复制卷（Distribute Stripe Replicavolume）三种基本卷的复合卷，通常用于类 Map Reduce 应用
器——>存储数据到挂载目录中/data

②mysql数据会优先交给内核的文件系统处理——>GFS客户端处理（本地）

③GFS客户端会和GFS服务端进行交互，GFS服务端接收到数据，然后再通过挂载的卷的类型，对应保存在后端block块节点服务器上

分布式条带复制卷（Distribute Stripe Replicavolume）三种基本卷的复合卷，通常用于类 Map Reduce 应用

GFS分布式文件系统的更多相关文章

GFS 分布式文件系统
GFS 分布式文件系统 1.GlusterFS概述 : GlusterFS简介 a) GlusterFS是一-个开源的分布式文件系统. 由存储服务器.客户端以及NFS/Samba存储网关(可选,根据 ...
GFS分布式文件系统脚本
#!/bin/bashfor i in $(fdisk -l | grep -wo "/dev/sd[b-z]" | sort)dodd if=/dev/zero of=$i bs ...
Hadoop分布式文件系统HDFS
HDFS的探究: HDFS HDFS是 Hadoop Distribute File System的缩写,是谷歌GFS分布式文件系统的开源实现,Apache Hadoop的一个子项目,HDFS基于流数 ...
分布式文件系统--GFS
分布式文件系统分布式文件系统:当数据集的大小超过一台独立物理计算机的存储能力时,就有必要对它进行分区(partition)并存储到若干台单独的计算机上.管理网络中夸多台计算机存储的文件系统.这种系统 ...
分布式文件系统比较出名的有HDFS 和 GFS
分布式文件系统比较出名的有HDFS 和 GFS,其中HDFS比较简单一点.本文是一篇描述非常简洁易懂的漫画形式讲解HDFS的原理.比一般PPT要通俗易懂很多.不难得的学习资料. 1.三个部分: 客户 ...
网站文件系统发展&&分布式文件系统fastDFS
网站文件系统发展 1.单机时代的图片服务器架构初创时期由于时间紧迫,开发人员水平也很有限等原因.所以通常就直接在website文件所在的目录下,建立1个upload子目录,用于保存用户上传的图片文件 ...
分布式文件系统FastDFS原理介绍
在生产中我们一般希望文件系统能帮我们解决以下问题,如:1.超大数据存储:2.数据高可用(冗余备份):3.读/写高性能:4.海量数据计算.最好还得支持多平台多语言,支持高并发. 由于单台服务器无法满足以 ...
Hadoop概念学习系列之常见的分布式文件系统（二十六）
常见的分布式文件系统有,GFS.HDFS.Lustre .Ceph .GridFS .mogileFS.TFS.FastDFS等.各自适用于不同的领域.它们都不是系统级的分布式文件系统,而是应用级的分 ...
KASS分布式文件系统(Kass File System)
KASS分布式文件系统(Kass File System),简称KFS,是开始公司自主研发的分布式文件存储服务平台.KFS系统架构及功能服务类似Hadoop/GFS/DFS,它通过HTTP-WEB为上 ...

随机推荐

「BUAA OO Unit 2 HW8」第二单元总结
「BUAA OO Unit 2 HW8」第二单元总结目录「BUAA OO Unit 2 HW8」第二单元总结 Part 0 前言 Part 1 第五次作业 1.1 作业要求 1.2 架构设计 1. ...
离谱的 CSS！从表盘刻度到艺术剪纸
某日,群里有这样一个问题,如何实现这样的表盘刻度: 这其实是个挺有意思的问题,方法也有很多. 单标签,使用 conic-gradient 实现表盘刻度最简单便捷的方式,就是利用角向渐变的方式 con ...
NLP教程(7) - 问答系统
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/36 本文地址:http://www.showmeai.tech/article-det ...
[源码解析] TensorFlow 分布式之 ParameterServerStrategy V2
[源码解析] TensorFlow 分布式之 ParameterServerStrategy V2 目录 [源码解析] TensorFlow 分布式之 ParameterServerStrategy ...
896.Montonic Array - LeetCode
Question 896. Monotonic Array Solution 题目大意: 类似于数学中的减函数,增函数和物理中的加速度为正或为负思路: 先比较前两个是大于0还是小于0,如果等于0就比 ...
python常用标准库（时间模块 time和datetime）
常用的标准库 time时间模块 import time time -- 获取本地时间戳时间戳又被称之为是Unix时间戳,原本是在Unix系统中的计时工具. 它的含义是从1970年1月1日(UTC/G ...
salesforce零基础学习（一百一十五）记一个有趣的bug
本篇参考:https://help.salesforce.com/s/articleView?language=en_US&type=1&id=000319486 page layou ...
IDEA找不到类但实际存在的问题解决
不知道某天开始Idea就开始抽风了. 现象: 一个service的接口类,就在同一个包下,但总是找不到,编辑器一直标红编译可以通过说明类本身应该是没什么问题的.问题是怎么重新编译重新reload ...
Spring IOC源码研究笔记（2）——ApplicationContext系列
1. Spring IOC源码研究笔记(2)--ApplicationContext系列 1.1. 继承关系非web环境下,一般来说常用的就两类ApplicationContext: 配置形式为XM ...
无鼠标打开Windows设备管理
转载:https://blog.csdn.net/weixin_39946767/article/details/118644619

GFS分布式文件系统

GFS分布式文件系统的更多相关文章

随机推荐

热门专题