原文：《Erasure Coding in Windows Azure Storage.pdf》，地址：https://www.usenix.org/system/files/conference/atc12/atc12-final181_0.pdf

WAS: (LRC, Local Reconstruction Codes)

1 概述

（1） Extent

当extent的大小达到一定值，extent就被sealed. Sealed的extent不能再被修改，作为编码的候选。WAS 在后台lazily地编码这个extent，一旦extent被编码成功，extent原始的3备份要被删除。

（2） LRU

A (k, l, r), k个数据段（data fragments），分成l个组，每个组生成一个本地编码块（local parity fragments），所有数据段，生成r个全局编码块。（6, 2, 2）

（3） Checking Decodability

swap local parity and data fragment , 然后检查删除的数据段和全局编码段的个数是不是小于全局编码段的个数，如果是，表明可解码。

（4） RS (10, 4) is used in HDFS-RAID in Facebook and RS (6, 3) in GFS II in Google.

（5）其它编码技术：Weaver codes, Hover codes and Stepped Combination codes

（6） LRC和其他编码方案在重建读成本和存储复制两个维度的比较

（7） LRC为了提供客户端读过程的重建需求，优化数据段重建，而非编码段。在编码段重建，modern codes更有效。在（12，6）的情况下，Stepped Combination code只需要3个数据段就可以重建编码段，LRC则需要12个数据段。

（8） WAS为了避免关联错误，将同一个编码组的数据段放在不同的fault domain

（9） WAS从架构上分为三层：前端层、分区对象层、流复制（replication）层

编码存储放在流复制层

2 实现

（1）流层的架构：基于paxos的流管理器（Stream Managers, SM）, Extent Nodes（EN）

（2） Extent, block, EN

每一个extent含有一系列的block（最大5M），每个block是CRC校验的，block是分区对象层读写数据的最小粒度。

每个extent在多个EN上复制。每个写操作在回复消息给客户端时，以菊花链的方式提交到一个复制集合的多个EN上

（3） Sealed

对应一个流的写操作持续追加到一个extent上，除非extent达到最大的大小（1G-3G），或者在复制集合中出现错误。无论哪种情况，一个新的extent会被创建，之前的extent被sealed。当extent被sealed（标记），数据就不能改变（immutable），并且成为编码存储的备选。

2.1 编码过程

编码存储是完全的异步和脱离客户端的写路径的。SM周期性扫描标记的extent，根据流策略和系统负载，安排一个子集用于编码。

We configure the system to automatically erasure code extents storing Blob data, but also have the option to erasure code Table extents too

过程：

（1） SM根据编码的参数（12，2，2），在一个集合的EN上创建fragment。SM从EN中选择一个协调者（coordinator），并且向它发生复制集合的元数据，从这开始，协调者负责编码的完成。

（2） coordinator EN选择编码的extent: 所有fragments的边界都在extent上。EN根据追加block的界限划分extent到fragment，而不是随意的划分。这确认读一个block不会跨越多个fragments

（3） coordinator EN开始编码过程，持续发送编码fragment给指定的EN。所有EN跟踪进度，并存储相应信息到新的fragment。当有错误发生，另外一个EN根据fragment中的进度信息，接手剩余工作

（4）当整个extent都被编码了，协调者EN通知SM用fragment的界限和完成标记更新extent元数据。然后SM安排全备份的EN删除不需要的extent.

2.2 重建

（1）读过程的重建

客户端进行读的时候，如果对应的EN不存活，或是一个热点，可以联系任何一个拥有extent的fragment的EN，开始一个重建读，EN完成重建读后会缓存相应的fragment.

（2） EN或磁盘丢失重建

由SM启动在另外一个EN进行重建，过程同上

2.3 Fragment存放

存放位置考虑的因素：

（1）负载，倾向于更空闲、更小负载的EN;

（2）可靠性，避免将同一个编码组的两个fragments放在相关联的域中。Fault domain(rack)、upgrade domain.

示例：

一个典型的WAS有20个机架，10个升级域（每次升级，有10%的存储资源不在线）。

LRU（10，2，2），分成2个本地组，然后每组选一个，一起放入一个升级域，一共要6个升级域。2个本地编码块，放入一个升级域，然后2个全局编码块放入2个升级域。一共需要9个升级域。这样在任何一个域的升级，每个数据fragment都可以获取到，或直接读取，或通过重建。

2.4 IO安排

每一个EN监控网络、每个独立磁盘的负载，决定接受、拒绝、delay IO

类似的，SM监控EN上的复制负载，来决定启动复制、编码、删除extent和其它系统维护操作，为了对其它IO操作的公平的性能。同时，也是为了确保编码的速度能赶上从用户进来的数据速率。

重建预读和cache:

重建fragment时以unit大小（大于block的大小）进行，减少磁盘和网络的IO数。预读的数据缓存在内存中（最大256M）。

2.5 数据一致性

Checksum和parity。每个block的同步都有一个crc，读写的时候检查。

在每一个编码操作后，很多解码的集合都在coordinator EN的内存中被尝试，以检查是否能成功的恢复。这样做的目的是为了确保编码的算法本身没有引入数据不一致。

LRC（12，2，2）在允许编码完成前，将尝试下列的解码验证：

（1）随机选择一个数据fragment，local group内重建；

（2）随机选择一个数据fragment，用其中一个全局parity重建；

（3）随机选择一个数据fragment，用另外一个全局parity重建；

（4）随机选择两个数据fragment,重建；

（5）随机选择3个数据fragment，重建；

（6）随机选择4个数据段（只是一个本地组要有一个），重建。

对于每种情况解码出来的数据，和实际的数据比较CRC

最后coordinator EN执行一个所有数据段的CRC，和extent的原始的CRC进行比较。如果这些检查都通过了，编码段才会被持久化到存储磁盘中。如果在这个过程，任何一个错误发生了，编码操作会被终止，保留extent的数据不变。SM过段时间在另一EN再开始调度编码。

2.6 编码算法优化

Galois Field arithmetic。使用预计算、加法、乘法表，根据编解码矩阵的形式来排序XOR操作，这样可以减少冗余的操作和限制实际编码过程中对编码矩阵的重复检查

3 Performance

4 Related Work

Erasure Coding in WAS简单译文的更多相关文章

Hadoop hdfs副本存储和纠删码(Erasure Coding)存储优缺点
body { margin: 0 auto; font: 13px / 1 Helvetica, Arial, sans-serif; color: rgba(68, 68, 68, 1); padd ...
Erasure Coding（纠删码）深入分析
http://blog.sina.com.cn/s/blog_57f61b490102viq9.html 1.前言 Swift升级到2.0大版本后宣称开始支持纠删码,这其实是一个很有意义的特性,主要是 ...
Erasure Coding（纠删码）深入分析转
1.前言 Swift升级到2.0大版本后宣称开始支持纠删码,这其实是一个很有意义的特性,主要是能够在一定程度上解决3副本空间浪费太多的问题.因为3副本这一点是swift推广的最大障碍之一,成本的增加吓 ...
Kcptun 是一个非常简单和快速的，基于KCP 协议的UDP 隧道，它可以将TCP 流转换为KCP+UDP 流
本博客曾经发布了通过 Finalspeed 加速 Shadowsocks 的教程,大家普遍反映能达到一个非常不错的速度.Finalspeed 虽好,就是内存占用稍高,不适合服务器内存本来就小的用户:而 ...
[转载] HDFS and Erasure Codes (HDFS-RAID)
The Hadoop Distributed File System has been great in providing a cloud-type file system. It is robus ...
前端神器之Sublime Text2/3简单明了使用总结
为什么叫神器呢? 我总结如下: 第一:也是最重要的,它占内存很小(就如同notepad++那般迅速打开,所以那款其实也不错~).一般IDE比如WebStorm(它也是一款神器来着),Aptana(也比 ...
python - 实现文本分类[简单使用第三方库完成]
第三方库 pandas sklearn 数据集来自于达观杯训练:train.txt 测试:test.txt 概述 TF-IDF 模型提取特征值建立逻辑回归模型代码 # _*_ coding:ut ...
python入门：模拟简单用户登录（自写）
#!/usr/bin/env python # -*- coding: utf-8 -*- #模拟简单用户登录(自写) import getpass a = raw_input("Pleas ...
Hadoop集群简单入门
Hadoop集群搭建自己配置Hadoop的话太过复杂了,因为自己着急学习,就使用了黑马的快照.如果小伙伴们也想的话可以直接看黑马的课程,快照的话关注黑马程序员公众号,输入Hadoop就能获取资料,到 ...

随机推荐

出现localStorage错误Link解决方案（组态）
属性-链接-进入-附加依赖-加入sqlite3.lib cocos2d-x-2.2.2\Debug.win32添加的文件夹sqlite3.dll.sqlite3.lib 版权声明:本文博客原创文章.博 ...
Swift语言指南(八)--语言基础之元组
原文:Swift语言指南(八)--语言基础之元组元组元组(Tuples)将多个值组合为一个复合值.元组内的值可以是任何类型,各个元素不需要为相同类型(各个元素之间类型独立,互不干扰--Joe.Hu ...
java 集装箱 arraylist 用法
1. ArrayList概述: ArrayList 是一个数组队列.相当于动态数组. 与Java中的数组相比.它的容量能动态增长.它继承于AbstractList.实现了List, RandomAc ...
HBase数据同步ElasticSearch该程序
ElasticSearch的River机械 ElasticSearch本身就提供了River机械,对于同步数据. 在这里,现在能找到的官方推荐River: http://www.elasticsear ...
CII-原子
<atom.h> #ifndef ATOM_INCLUDED #define ATOM_INCLUDED extern int Atom_length(const char *str); ...
Linq to Sql：N层应用中的查询(下) : 根据条件进行动态查询
原文:Linq to Sql:N层应用中的查询(下) : 根据条件进行动态查询如果允许在UI层直接访问Linq to Sql的DataContext,可以省去很多问题,譬如在处理多表join的时候, ...
bluetooth发展（五岁以下儿童）------蓝牙功能测试（一个）
newton板已出版.下面再组织我调试的一小方面,,蓝牙功能的实现和测试: 转载请注明出处:http://blog.csdn.net/wang_zheng_kai 以下是我写的newton开发板中bl ...
CentOS上安装WordPress搭建博客平台
前两天在服务器上搭建了AMP,今天试着在上面安装了一个WordPress(中文:http://cn.wordpress.org/,英文:http://wordpress.org/),我安装的是英文最新 ...
Redis源代码分析（二十四）--- tool工具类（2）
在上篇文章中初步的分析了一下,Redis工具类文件里的一些使用方法,包含2个随机算法和循环冗余校验算法,今天,继续学习Redis中的其它的一些辅助工具类的使用方法.包含里面的大小端转换算法,sha算法 ...
dos下的cd指令
进入同根目录下的目录: 1.进入同根目录的下一级目录:cd 目录名 2.返回同根目录的上一级目录:cd .. 3.返回目录的根目录:cd \ 进入不同根目录下的目录: 1.进入另外一个根目录(的默认目 ...

Erasure Coding in WAS简单译文