HDFS RAID实现方案（转）

原文链接：http://blog.chinaunix.net/uid-20196318-id-3213700.html

分布式文件系统主要用于解决海量数据存储的问题，如Goolge、Facebook等大型互联网企业都使用分布式文件系统作为数据存储的基础设施，并在其上构建很多服务，分布式文件系统通常采用三副本的策略来保证数据的可靠性，但随着应用数据量的不断膨胀，三副本策略为可靠性牺牲的存储空间也越来越大，如何在不降低数据可靠性的基础上，进一步降低存储空间成本？ Facebook将erasure code应用到内部HDFS集群中，该方案使用erasure code代替传统的三副本策略，在保持集群可用性不变的情况下，节省了数PB的存储空间，Facebook的实现方案(HDFS RAID)目前已贡献给开源社区。

Erasure code

如下图所示，HDFS要想容忍2个block的丢失，则需要为每个block创建3个副本，存储空间成本为数据量大小的3倍。而采用RS编码，只需要1.4倍（10个数据块、4个校验块）的存储开销，能容忍4个block的丢失。（RS的原理请自行google）

HDFS中的文件通常很大，文件有多个固定大小（64M）的block组成，block一旦写满就不会再更改，HDFS RAID以文件为单位计算校验，并将计算出来的校验block存储为一个HDFS文件。HDFS-RAID目前支持Raid5和RS（Raid6可用RS实现）两种编码方式，下图为副本、Raid5、RS三种方案编码的对比，其中副本方式存储空间成本最高、但能获得较高的读写效率（多副本并行服务）；RS方案存储成本最低，但数据存储、恢复时计算开销较大。

DRFS总体架构(Distributed Raid File System)

DRFS: 应用了RAID方案后的HDFS。
RaidNode：对需要存储在DRFS中的文件，从HDFS DataNode中读取文件（source file）对应的数据块，并计算出校验块文件（parity file，所有的校验块组成一个HDFS文件），并将parity file存储在HDFS中）；RaidNode周期性的检查所有文件对应的block数据是否丢失，如果丢失，则需重新计算以恢复丢失的block。
DRFS client：提供访问DRFS中文件的接口，其在HDFS client接口上进行封装，当读取到已丢失的block时，透明的计算恢复的block数据并返回给应用。
RaidShell：DRFS管理工具，可人工触发文件block检查、丢失block的恢复等。

RaidNode

为了不影响现有的服务逻辑，DRFS采用渐进式的部署方案，可逐步的将编码应用到HDFS中的文件，用户可配置需要编码的文件的模式（如指定后缀名为 mkv、指定某个目录下的所有文件等），RaidNode根据用户的配置，从NameNode获取符合要求的文件(满足用户配置的模式，且超过指定时间没有更新)分布信息，并从DataNode上读取文件数据块，计算出校验文件，并存储到HDFS中（用户可配置校验文件的存储位置）。

DRFS以文件为单位计算校验，将文件划分成多个Stripe，每个Stripe包含一或多个block（stripe length可配置），stripe length越小，计算出的校验数据量越小，数据恢复时的成本越高；反之，，stripe length越大，存储空间成本越高，但当block丢失，恢复时的计算和传输成本越低。如下图所示，6个block组成的文件，当stripe length为1和2时，校验块的情况；两者都可以容忍两个block丢失，但前者的存储开销为1.33倍，而后者的存储1.67倍；但当block丢失时，前者需要读取6个block来恢复，而后者只需要读取3个block。

当校验数据块计算完成，且校验文件存储到HDFS后，HDFS将降低文件的副本数，以节省存储空间。另外，对于一些小的文件（block数较少），RaidNode并不会为其计算校验块，而是什么也不做，因为当文件较小时，副本方案与RS方案的存储成本开销相差不大，并不能起到节省存储空间的作用，反而降低了文件并行服务的能力，增加了block丢失时的恢复开销。

RaidNode还负责丢失块的恢复工作，它定期的检查已经应用erasue code的文件状态，确定其是否有block已经丢失（source file、parity file都需要检查），如果有block已经丢失，则其先从各个DS上获取恢复该block需要的数据，并重新计算该block。

HDFS RAID主要问题在于，parity file的数据块可能分布到跟source file数据块相同的DataNode上，这样实际上降低了系统的整体可靠性；为解决该问题，HDFS RAID提出了新的数据放置方案，已将source和parity的block数据分散到不同的DataNode，但要应用新的放置方案，需要重启NameNode的服务。

DRFS Client

用户需要读取已经应用erasue code的方案的文件时，需要使用DRFS Client，其对HDFS Client进行了封装，并透明处理block丢失的情况；当出现Block丢失或检验错误时，DRFS Client透明的计算出丢失block的数据，并返回给用户；当用户请求完成后，DRFS Client会丢弃block的数据，该block的恢复会由RaidNode完成，或由管理员通过RaidShell手动触发恢复。

参考资料：

HDFS RAID实现方案（转）的更多相关文章

MySQL数据库Raid存储方案
作为一名DBA,选择自己的数据存储在什么上面,应该是最基本的事情了.但是很多DBA却容易忽略了这一点,我就是其中一个.之前对raid了解的并不多,本文就记录下学习的raid相关知识. 一.RAID的基 ...
HDFS ErasureCode方案对比
HDFS目前存储文件的方案是将一个文件切分成多个Block进行存储,通常一个Block 64MB或者128MB,每个Block有多个副本(replica),每个副本作为一个整体存储在一个DataNod ...
hadoop2.x通过Zookeeper来实现namenode的HA方案以及ResourceManager单点故障的解决方案
我们知道hadoop1.x之前的namenode存在两个主要的问题:1.namenode内存瓶颈的问题,2.namenode的单点故障的问题.针对这两个问题,hadoop2.x都对它进行改进和解决.其 ...
简单描述RAID级别：
简单描述RAID级别: RAID 0 是俩盘一起读写,如果一个坏了那么数据全丢失: RAID 1是一块写,一块用来备份,坏一块无所谓: RAID 2 ,3 ,4 不常用: 最常用的就是RAID 5和R ...
Hadoop HA方案调研
原文成文于去年(2012.7.30),已然过去了一年,很多信息也许已经过时,不保证正确,与Hadoop学习笔记系列一样仅为留做提醒. ----- 针对现有的所有Hadoop HA方案进行调研,以时间为 ...
RAID和LVM磁盘阵列
RAID磁盘冗余阵列 CPU的处理性能保持着高速增长,Intel公司在2017年最新发布的i9-7980XE处理器芯片更是达到了18核心36线程.但与此同时,硬盘设备的性能提升却不是很大,因此逐渐成为 ...
RAID与LVM磁盘阵列技术
RAID(Redundant Array of Independent Disks,独立冗余磁盘阵列) RAID概念: RAID技术通过把多个硬盘设备组合成一个容量更大.安全性更好的磁盘阵列,并把数据 ...
Raid分类说明（from mongodb权威指南）
RAID(Redundant Array of Independent Disk,独立磁盘冗余阵列,旧称Redundant Array of InexpensiveDisk,廉价磁盘冗余阵列) 是一种 ...
Linux RAID 磁盘管理
Linux RAID 磁盘管理 RAID工作模式介绍:https://www.cnblogs.com/xiangsikai/p/8441440.html 本章主要讲解 Linux下 RAID5 与 R ...

随机推荐

【题解】NOIP2017时间复杂度
对大模拟抱有深深的恐惧……不过这次写好像还好?拿个栈维护一下循环的嵌套,然后重定义一下读入即可.记得去年在考场上面死活调不粗来,代码也奇丑无比……希望今年能好一点吧! #include <bit ...
pthread的pthread_join()函数理解实验
一.使用方式 pthread_t tid;pthread_create(&tid, NULL, thread_run,NULL);pthread_join(tid,NULL);创建线程之后直接 ...
洛谷 P1233 木棍加工解题报告
P1233 木棍加工题目描述一堆木头棍子共有n根,每根棍子的长度和宽度都是已知的.棍子可以被一台机器一个接一个地加工.机器处理一根棍子之前需要准备时间.准备时间是这样定义的: 第一根棍子的准备时间 ...
apue.3e 的安装（基于ubuntu12.0.4）
本菜刚刚学习UNIX下高级编程,无奈搭建本书编程环境时遇到不少问题.幸好网上有各种大神的解决办法让我最终解决了问题.在这里感谢为LINUX开源操作系统奋斗的大神. 不过话说回来,网上大都是针对UNIX ...
bzoj4753: [Jsoi2016]最佳团体（分数规划+树形依赖背包）
菜菜推荐的“水题”虐了我一天T T...(菜菜好强强qwq~ 显然是个分数规划题,二分答案算出p[i]-mid*s[i]之后在树上跑依赖背包,选k个最大值如果>0说明还有更优解. 第一次接触树形 ...
相同内容 yaml 与 json 格式对比
关联数组: yaml person: name: 张三 age: 24 json { "person": { "name": "张三", . ...
laravel5.5 不能正常自动回复的问题
虽然开启了APP_DEBUG 但是 log 却没有记录任何错误信息,后来经过测试发现原来是路由问题,因为微信服务器发送消息是使用 post 方法,但是我的路由定义只定义了 get (tp 用多了习惯了 ...
手脱nSPack 2.2
1.PEID查壳深度扫描下:nSPack 2.2 -> North Star/Liu Xing Ping 2.载入OD,上来就是一个大跳转,F8单步跟下去 0040101B >- E9 ...
libuv移植到android
编译环境是linux + ndk,你要先添加好NDK路径的环境变量,然后进入libuv目录执行以下两句完成编译. $ source ./android-configure $NDK gyp $ mak ...
codeforces 872E. Points, Lines and Ready-made Titles
http://codeforces.com/contest/872/problem/E E. Points, Lines and Ready-made Titles time limit per te ...

HDFS RAID实现方案（转）

HDFS RAID实现方案（转）的更多相关文章

随机推荐

热门专题