漫谈未来的HDFS

前面我们提到的HDFS，了解了HDFS的特性和架构。HDFS能够存储TB甚至PB规模的数据是有前提的，首先数据要以大文件为主，其次NameNode的内存要足够大。对HDFS有所了解的同学肯定都知道，NameNode是HDFS的存储着整个集群的元数据信息，比如所有文件和目录信息等等。而且当元数据信息较多时，NameNode的启动会变得很慢，也比较容易触发GC操作。显然当数据到了一定的量级，元数据管理会成为HDFS的一个瓶颈，其实这也是为什么说它适合存储大文件的原因。如果解决了元数据管理的问题，其实HDFS是可以支撑海量小文件的。

终于到了本篇文章的重头戏：Ozone，Ozone是Hortonworks基于HDFS实现的一个对象存储服务，旨在基于HDFS的DataNode存储，支持更大规模的数据对象存储，支持各种对象大小并且拥有HDFS的可靠性，一致性和可用性，详情请看Hadoop的Jira HDFS-7240。经过这么长时间的发展和激烈的名称讨论之后最终会命名为HDDS（Hadoop Distributed Data Store）详见Jira HDFS-10419。

那么Ozone是如何解决HDFS的现有问题的呢？

Ozone的主旨就是 Scaling HDFS（缩放HDFS）。缩放HDFS即针对HDFS当前存在的问题：NameNode元数据管理瓶颈进行处理，一方面减轻NameNode的压力，一方面抽象另外一层映射保证数据的快速读取和写入。

HDFS目前的分层如下：

A namespace layer（命名空间层）在NameNode服务中实现
A block layer（Block块层）主要在DataNode服务中实现，并且NameNode也会提供一个block management服务。

Ozone的设计就是针对于HDFS目前的分层去缩放相关的功能模块。

命名空间层：

Scaling NameSpace(缩放命名空间)
Scaling client/rpc load on NN（缩放NameNode支撑的请求）
NN startup time（缩短NameNode的启动时间）

Block块层：

Scaling block namespace（缩放block块的命名空间）
Scaling block reports（缩放block块向NN的报告请求）
Scaling Datanode‘s block management（缩放Block块管理层）

解决HDFS现有的问题需要同时从上面两个维度对HDFS进行优化，在其设计论文中简要描述了如何实现命名空间和Block块的缩放工作，比如参考了Ceph的分布式命名空间，或者针对于频繁操作的数据保存到内存的workingSet中，其他数据进行持久化等等。同时抽象一个大小约为2G～16G的block group层叫做container，解决Block块的缩放问题，这里我们可以脑补一下Ceph的PG。

而Ozone最终实现了两个服务来实现上面的解决方案：KSM（Key Space Manager）和 SCM（Storage Container Manager）

KSM：负责管理的是Ozone命名空间。所有的volume，bucket、key的记录信息都保存在了KSM中。此角色类似于HDFS的NameNode。

SCM：负责管理"Container"对象，Container在逻辑上存储的是block块对象集合。DataNode是以Container的形式来提供存储能力。SCM只负责维护这些Container信息。原先的block report就会变成container report

同时Ozone也实现了一套文件系统接口，Ozone FS，它完全兼容现有的HDFS读写方式，支持Spark，Hive等程序。可以支持方便的将数据从老的HDFS转移到Ozone中。

而最终我们期待的更加完美的HDFS应该是这样的。

参考资料：
聊聊HDFS和Ozone的融合
 HDFS+Scalability-v2

欢迎关注我：叁金大数据（不稳定持续更新~~~）

漫谈未来的HDFS的更多相关文章

【转载】漫谈HADOOP HDFS BALANCER
Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点.当HDFS出现不平衡状况的时候,将引发很多问题,比如MR程序无法很好地利用本地计算的优势,机器之 ...
一篇文看懂Hadoop：风雨十年，未来何去何从
本文分为技术篇.产业篇.应用篇.展望篇四部分技术篇 2006年项目成立的一开始,“Hadoop”这个单词只代表了两个组件——HDFS和MapReduce.到现在的10个年头,这个单词代表的是“核心” ...
Hadoop 2.x HDFS新特性
Hadoop 2.x HDFS新特性 1.HDFS联邦 2. HDFS HA(要用到zookeeper等,留在后面再讲) 3.HDFS快照回顾: HDFS两层模型 Namespa ...
HDFS简介【全面讲解】
http://www.cnblogs.com/chinacloud/archive/2010/12/03/1895369.html [一]HDFS简介HDFS的基本概念1.1.数据块(block)HD ...
【Hadoop学习】HDFS中的集中化缓存管理
Hadoop版本:2.6.0 本文系从官方文档翻译而来,转载请尊重译者的工作,注明以下链接: http://www.cnblogs.com/zhangningbo/p/4146398.html 概述 ...
PLAN ：昔日未来
<昔日未来> 1. C语言: 必须要看的书:<C程序设计语言><C标准库> 像<C和指针>,<C专家编程>,<C陷阱>这种书虽很 ...
漫谈格兰杰因果关系（Granger Causality）——第一章野火烧不尽，春风吹又生
2017年7月9日上午6点10分,先师胡三清同志--新因果关系的提出者.植入式脑部电极癫痫治疗法的提出者.IEEE高级会员,因肺癌医治无效于杭州肿瘤医院去世,享年50岁.余蒙先师厚恩数载,一朝忽闻先师 ...
HDFS 分布式写入问题 AlreadyBeingCreatedException
进行追加文件时出现AlreadyBeingCreatedException错误堆栈信息大致如下: org.apache.hadoop.ipc.RemoteException(org.apache.h ...
漫谈 SLAM 技术（上）
欢迎大家前往腾讯云社区,获取更多腾讯海量技术实践干货哦~ 作者:解洪文导语随着最近几年机器人.无人机.无人驾驶.VR/AR的火爆,SLAM技术也为大家熟知,被认为是这些领域的关键技术之一.本文对S ...

随机推荐

[bzoj2738]矩阵乘法_整体二分_树状数组
矩阵乘法 bzoj-2738 题目大意:给定一个$n*n$的矩阵.每次给定一个矩阵求矩阵$k$小值. 注释:$1\le n\le 500$,$1\le q\le 6\cdot 10^4$. 想法: 新 ...
XJTUOJ13 （数论+FFT）
http://oj.xjtuacm.com/problem/13/ 题意:wmq如今开始学习乘法了!他为了训练自己的乘法计算能力,写出了n个整数, 并且对每两个数a,b都求出了它们的乘积a×b.现在他 ...
zabbix学习系列之配置邮件告警
整体思路是:添加监控项-->配置触发器(达到设定的阈值就触发)-->配置动作(将某个触发器绑定到某个动作,达到某个阈值,触发器触发的时候,通过邮件发送告警信息给某个用户) 配置触发器创建 ...
NYOJ 298-点的变换(经典矩阵解决点平移、缩放、翻转和旋转)
题目地址:NYOJ 298 思路:该题假设用对每一个点模拟的操作.时间复杂度为O(n+m),结果肯定超时.然而利用矩阵乘法能够在O(m)的时间内把全部的操作合并为一个矩阵,然后每一个点与该矩阵相乘能够 ...
重构——Martin Fowler 阅读笔记
重构的第一步: 为即将修改的代码建立一组可靠的测试环境. 和任何重构手法一样,当提炼一个函数时,我们必须知道可能出什么错. 安全步骤: 首先在一个函数内找到局部变量和参数.任何不会被修改的变量都可以被 ...
Android处理日期
近期做一个项目,后台返回的日期是RFC3339格式的.之前没有看到过,当中遇到了几个问题以及解决 1.2015-11-18T14:49:55Z转换在SimpleDateFormat中给出了几种格式 ...
【bzoj2464】中山市选[2009]小明的游戏
直接转换成最短路 #include<algorithm> #include<iostream> #include<cstdlib> #include<cstr ...
HDU5806 NanoApe Loves Sequence Ⅱ
NanoApe Loves Sequence Ⅱ Time Limit: 4000/2000 MS (Java/Others) Memory Limit: 262144/131072 K (Ja ...
POJ1751 Tree 树分治
分析:每次找重心可以发现最多n层,每层复杂度是O(nlogn) 总体时间复杂度是O(nlog^2n) #include <cstdio> #include <cstring> ...
hive时间
Hive中日期函数总结:1.时间戳函数日期转时间戳:从1970-01-01 00:00:00 UTC到指定时间的秒数select unix_timestamp(); --获得当前时区的UNIX时间戳s ...

漫谈未来的HDFS

漫谈未来的HDFS的更多相关文章

随机推荐

热门专题