分布式文件系统之数据块（Block）

众所周知，HDFS中以数据块（block）为单位进行存储管理。本文简单介绍一下HDFS中数据块（block）的概念，以及众多分布式存储系统（不止是HDFS）使用block作为存储管理基本单位的意义。

数据块

数据块的概念并不陌生，在磁盘中，每个磁盘都有默认的数据块大小，这是磁盘进行数据读/写的最小单位，磁盘块一般为512字节。在分布式文件系统中，数据块一般远大于磁盘块的大小，并且为磁盘块大小的整数倍，例如，HDFS block size默认为64MB。

分布式存储系统中选择大block size的主要原因是为了最小化寻址开销，使得磁盘传输数据的时间可以明显大于定位这个块所需的时间。然而，在HDFS中block size也不好设置的过大，这是因为MapReduce中的map任务通常一次处理一个块中的数据，因此如果block太大，则map数就会减少，作业运行的并行度就会受到影响，速度就会较慢。

Why block

在很多分布式文件系统中我们都可以看到block的存在，这种设计的好处主要有以下几点：

存储的文件大小可以大于集群中任意一个磁盘的容量。这很好理解，文件被划分到多个block中存储，对磁盘透明；
使用block抽象而非整个文件作为存储单元，可以极大简化存储子系统的设计。因为block size是统一的，因此一个节点上可以存储多少block就是可以推算的；
Block 非常适合用于数据备份，进而提供数据容错能力和可用性。

Why bigger block

在普通文件系统中，使用较大的磁盘块：

可以减少管理数据块需要的开销。如在Linux中可以减少保存在i-node中磁盘地址表中的信息链的长度；
在对文件进行读写时，可以减少寻址开销，即磁盘定位数据块的次数。

在HDFS中，使用大数据块：

可以减少名字节点上管理文件和数据块关系的开销；
对数据块进行读写时，可以有效减少建立网络连接需要的成本。

Block VS. Chunk

由于我也是最近才开始比较仔细的接触Hadoop，GFS中的DataNode又被称为ChuckServer，因此经常会被HDFS中的block和chunk搞得confused掉。今天看到了一个比较好的解释，在这里记录一下：

block：如上文，是HDFS中的存储管理单元，类似磁盘的block。

chuck：HDFS中存储的文件被划分为多个块（chuck），每个chuck的大小与block的大小相同（除了最后一个chuck），这些文件chuck就被存储到block中。

好啦，记录的很简单。以前很喜欢一篇文章记录的很详尽，因此很久都憋不出一篇博文，就算准备充分可以开写了，但是又会觉得好长，懒得写。所以呢，为了让自己学习得更有节奏吧，现在决定有点感悟就记录下来，方便以后查看。当然，也可以一段时间merge 整理一下相关的短文啦！

YUKI，干巴爹哈哈

参考

《Hadoop权威指南》（第二版）P43

《Hadoop技术内幕：深入解析Hadoop Common和HDFS架构设计与实现原理》 P218

分布式文件系统之数据块（Block）的更多相关文章

HDFS源码分析之数据块Block、副本Replica
我们知道,HDFS中的文件是由数据块Block组成的,并且为了提高容错性,每个数据块Block都会在不同数据节点DataNode上有若干副本Replica.那么,什么是Block?什么又是Replic ...
HDFS中的数据块(Block)
我们在分布式存储原理总结中了解了分布式存储的三大特点: 数据分块,分布式的存储在多台机器上数据块冗余存储在多台机器以提高数据块的高可用性遵从主/从(master/slave)结构的分布式存储集群 ...
Hadoop（八）Java程序访问HDFS集群中数据块与查看文件系统
前言我们知道HDFS集群中,所有的文件都是存放在DN的数据块中的.那我们该怎么去查看数据块的相关属性的呢?这就是我今天分享的内容了一.HDFS中数据块概述 1.1.HDFS集群中数据块存放位置我 ...
oracle --(一)数据块（data Block）
基本关系:数据库---表空间---数据段---分区---数据块数据块(data Block)一.数据块Block是Oracle存储数据信息的最小单位.这里说的是Oracle环境下的最小单位.Orac ...
HDFS（Hadoop Distributed File System ）hadoop分布式文件系统。
HDFS(Hadoop Distributed File System )hadoop分布式文件系统.HDFS有如下特点:保存多个副本,且提供容错机制,副本丢失或宕机自动恢复.默认存3份.运行在廉价的 ...
HDFS中数据节点数据块存储示例
数据块在数据节点上是按照如下方式存储的. 首先是一个存储的根目录/Hadoop/data/dfs/dn,如下图所示: 接着进入current目录,如下图所示: 再进入后续的BP-433072574-1 ...
Linux 文件系统(一)---虚拟文件系统VFS----超级块、inode、dentry、file
转自:http://blog.csdn.net/shanshanpt/article/details/38943731 http://elixir.free-electrons.com/linux/v ...
Hadoop分布式文件系统使用指南
原文地址:http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_user_guide.html 目的概述先决条件 Web接口 Shell命令 DFSAdmin命 ...
HDFS源码分析之数据块及副本状态BlockUCState、ReplicaState
关于数据块.副本的介绍,请参考文章<HDFS源码分析之数据块Block.副本Replica>. 一.数据块状态BlockUCState 数据块状态用枚举类BlockUCState来表示,代 ...

随机推荐

Nuxeo 认证绕过和RCE漏洞分析（CVE-2018-16341)
简介 Nuxeo Platform是一款跨平台开源的企业级内容管理系统(CMS).nuxeo-jsf-ui组件处理facelet模板不当,当访问的facelet模板不存在时,相关的文件名会输出到错误页 ...
C++ 多态Polymorphism 介绍+动态绑定、静态绑定
什么是多态? 多态(polymorphism)一词最初来源于希腊语polumorphos,含义是一种物质的多种形态. 在专业术语中,多态是一种运行时绑定机制(run-time binding) ,通过 ...
将搬家至CSDN
emmm,感觉没利用好博客,自己也弄了一个github上面的hexo博客https://clarkkun.github.io/,但是死活传不上去内容,尴尬￣□￣||,三个博客齐头并进吧
js实现进度条效果
需求分析: 最近学习javascript客户端脚本语言,学到了两个定时器函数setInterval()和setTimeout(),回想起以前在网页上看到的进度条效果可以使用定时器来实现,所以完成了进度 ...
Linux 基础一(系统分区、格式化与挂载)
1.Linux 基础之系统分区与格式化讲分区之前,先说一下硬盘结构:硬盘(机械)的横截面是一个圆,并且被分成等大小的扇区,每个扇区的大小是 512Byte,其中有 446Byte 被用来存储启动信息 ...
DOM父节点、子节点例子
父节点 <body> <ul id="oUl"> <li><a href="#">隐藏1</a>&l ...
php环境搭建及入门
在php文件里,写入header('content-type:text/html;charset = uft-8'); <?php header('content-type:text/html; ...
三星a9上测试egret与pixi.js的渲染性能
for (let i = 0; i < 500; i++) { let shape = new egret.Shape(); shape.graphics.beginFill(0xff0000) ...
5G的作业- 云计算
作业命题:5G对于保险行业的影响,技术层面和业务模式层面一.5G网络的特点: 5G网络主要有三大特点,极高的速率 enhanced mobile broadband (eMBB),极大的容量 Mas ...
LOJ#6118 鬼牌
\(\rm upd\):是我假了...这题没有爆精...大家要记得这道题是相对误差\(10^{-6}\)...感谢@foreverlasting的指正. 题是好题,可是标算爆精是怎么回事...要写的和 ...

分布式文件系统 之 数据块（Block）

分布式文件系统 之 数据块（Block）的更多相关文章

随机推荐

热门专题

分布式文件系统之数据块（Block）

分布式文件系统之数据块（Block）的更多相关文章