HDFS是一个分布式文件存储系统，前身来自于Google发布的大数据三驾马车之一GFS (Google File System)。

HDFS的优点：

1、高容错

hdfs具有很高的容错性，数据自动保存为多个副本，默认为三副本机制，还能够通过自己自定义副本数来提高容错性。

当某个节点的副本丢失后，可以通过其他的备份副本进行恢复。

2、块存储

hdfs中的文件是以块的形式进行存储的，hadoop2.x后的版本默认为128m为一块。

128m为一块是由最佳传输损耗原理来得到的数字，当一个文件大小为128m时此时传输读取的效率是最高的。

最佳传输损耗原理：

当读取一个文件的时候，所需要的时间分为两部分：寻址时间、传输时间。根据目前的技术水平，机械磁盘的寻址时间普遍在10ms左右，而传输时间取决于要读取文件的大小，读取的文件越大，所需要的传输时间越长，那么，一次读取多少文件效率最高呢？根据经验寻址时间占传输时间1% 的时候，是传输一个文件效率最高的。

3、适合处理大规模数据集

数据规模：能够处理数据规模达到 GB、TB 甚至 PB级别数据。

文件规模：能够处理百万规模以上的文件数量。

4、高可靠性

由于具有高容错性，所以集群可以部署在廉价的机器上，并且保证数据不会丢失。

HDFS的缺点：

1、不适合低延迟的数据访问

访问hdfs的数据是相对较慢的，无法做到像 mysql 那样的毫秒级别的读写数据。

2、不适合存储大量的小文件

所有存储在 hdfs上的文件都需要由 NameNode来管理元数据信息，每个 block块的元数据信息都会占用 150字节的内存空间，会增大 NameNode的负担。

例如同样存储10M的内容，采取副本数为3的备份机制，这10M放在一个文件中，所用到的元数据占用的内存为150*3=450字节，如果把这10M放到10个文件中，则占用150*10*3=4500字节，很明显，存储相同的内容，第二种方式占用的内存更多。

3、不支持并发写入以及随即修改

一个文件只能有一个用户写，不允许多个线程同时写入

仅支持数据的追加，不支持文件的随即修改

HDFS的优缺点的更多相关文章

大数据：Hadoop（HDFS 读写数据流程及优缺点）
一.HDFS 写数据流程写的过程: CLIENT(客户端):用来发起读写请求,并拆分文件成多个 Block: NAMENODE:全局的协调和把控所有的请求,提供 Block 存放在 DataNode ...
Hadoop 3、Hadoop 分布式存储系统 HDFS
HDFS是Hadoop Distribute File System 的简称,也就是Hadoop的一个分布式文件系统. 一.HDFS的优缺点 1.HDFS优点: a.高容错性 .数据保存多个副本 .数 ...
非常不错 Hadoop 的HDFS （Hadoop集群（第8期）_HDFS初探之旅）
1.HDFS简介 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开 ...
【转载 Hadoop&Spark 动手实践 2】Hadoop2.7.3 HDFS理论与动手实践
简介 HDFS(Hadoop Distributed File System )Hadoop分布式文件系统.是根据google发表的论文翻版的.论文为GFS(Google File System)Go ...
[HDFS_1] HDFS 的概念和特性
0. 参考 HDFS你一定要知道,要考的大数据开发实战:HDFS和MapReduce优缺点分析 SecondaryNamenode的作用详解 1. HDFS 是什么 HDFS :一种分布式文件系统, ...
Hadoop1.x HDFS系统架构
1. HDFS中的一些概念1.1 数据块1.2 NameNode和DataNode1.2.1 管理者:Namenode1.2.1 工作者:Datanode1.3 Secondary Namenode1 ...
初识HDFS原理及框架
目录 HDFS是什么 HDFS的优缺点 HDFS的框架 HDFS的读写流程 HDFS命令 HDFS参数 1. HDFS是什么 HDFS(Hadoop Distributed File System)是 ...
hdfs基本思想
1.hdfs的优缺点 (1)不适合大量小文件存储: (2)不适合并发写入,不支持文件随机修改:(只能append追加) (3)不支持随机读等低延时的访问方式 2.基本思想主从结构主节点, name ...
深入理解HDFS的架构和原理
(一) HDFS主要是用于做什么的? HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处 ...

随机推荐

word缺失字体问题
问题有时候word会确实一些公文使用的字体,所以会用微软雅黑进行自动替换.所以你看到和打印的仿宋等字体,会被替换成微软雅黑,这对于政府公文或者企业行政文档是不好的. 这里面的字体替换你可以用一些字体 ...
golang中结构体和结构体指针的内存管理
p1是结构体,p2是结构体指针. 2. 声明并赋值结构体和结构体指针 package main import "fmt" type Person struct { name str ...
centos vnc配置总结
编辑xstart [root@localhost .vnc]# vim xstartup #!/bin/sh [ -r /etc/sysconfig/i18n ] && . /etc/ ...
人工智能与智能系统1->机器人学1 | 位置与姿态描述
寒假有几项学习计划,其中有一些是为了一些任务而学,最主要的任务是我要在2021_v4的基础上编写2022_v1的大援代码,为此顺便学习一下机器人学的知识(下学期也有这方面的老黄的课程),看看能不能在结 ...
plsql 普通游标
-- ①普通游标:操作步骤边敲边想学无止境 /* 游标:指针:内存中的一块数据缓冲区,上下文: 将查询到的结果集缓存起来,便于进行逐行定位处理. 使用完成后要及时关闭: 操作步骤? 1.定义游标 ...
Pandas 学习手册中文第二版·翻译完成
原文:Learning pandas 协议:CC BY-NC-SA 4.0 欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远. 在线阅读 ApacheCN 面试求职交流群 72418 ...
Redis-46面试题
1.什么是 Redis?简述它的优缺点? Redis 的全称是:Remote Dictionary.Server,本质上是一个 Key-Value 类型的内存数据库,很像 memcached,整个数据 ...
Linux开机显示模式切换
修改vim /etc/inittab 默认为5-图形界面模式,改为3-多用户模式即可 # Default runlevel. The runlevels used are: # 0 - halt (D ...
学习jsp篇：jsp简单实例之一注册
编程环境:IDEA,Tomcat ,JavaEE 实例一.注册 1.先在IDEA建一个web工程(不懂的可以在网上搜,一大堆..)ServletTest,在工程目录下的web目录建一个文件夹regis ...
Serializable接口中serialVersionUID字段的作用
序列化运行时使用一个称为 serialVersionUID 的版本号与每个可序列化类相关联,该序列号在反序列化过程中用于验证序列化对象的发送者和接收者是否为该对象加载了与序列化兼容的类. 如果接收者加 ...

HDFS的优缺点