Hadoop点滴-Hadoop分布式文件系统

Hadoop自带HDFS，即 Hadoop Distributed FileSystem（不是HaDoop FileSystem 的简称）
适用范围

超大文件：最新的容量达到PB级
流式数据访问：HDFS的构建思路：一次写入、多次读取时最高效的访问模式
低时间延迟的数据访问不适用HDFS
大量的小文件的限制：由于namenode将文件系统的元数据存储在内存中，因此该文件系统所能存储的文件总数受限于namenode的内存容量。根据经验，每个文件、目录、数据块的存储信息大约占150字节。举例来说，如果有一百万个文件，每个文件占用一个数据块，那至少需要300MB的内存。尽管存储上百万文件时可行的，但是存储数十亿个文件就超出了当前硬件的能力。
不支持多用户写入、任意修改文件：HDFS中的文件写入只支持单个写入者，而且写操作总是已只添加的方式在文件末尾写数据。不支持多个写入者操作，也不支持在文件的任意位置进行修改。

数据块
1. 磁盘块一般为512字节，普通文件系统块一般为几千字节，HDFS块默认128MB
2. 与普通文件系统不同，一个小于块大小的文件，不会占据整个块的大小（不会浪费块剩余空间）。如1MB的文件，只占用1MB空间，而不是128MB空间
3. 块的大小不能设置的太大，Mapreduce中map任务通常一次只处理一个块中的数据，如果块太大，任务数据太少（少于集群中节点的数量），那么集群的分布式计算就发挥不出来
4. 事实上，尽管不常见，也可存储一个文件，占用整个HDFS，该文件的块占满集群中的所有磁盘。
5. 使用块，可以将数据存储于文件权限分开设计，简化设计框架
namenode节点：整个集群只有1个namenode节点，管理文件系统的命名空间，他维护着系统树和整个树内所有的文件和目录。这些信息以两个文件形式永久保存在“本地磁盘”上，但并不永久保存块的位置信息，因为这些信息会在系统启动时根据datanode信息重建。
datanode节点：可以有多个，受客户端或namenode调度，并且定期向namenode节点发送他们所存储的块列表。负责存储并检索数据块。
如果运行namenode节点损坏，文件系统上所有的文件将会丢失，对namenode实现容错非常重要
1. 方法一：备份哪些组成文件系统元数据持久状态的文件，可以通过配置，是namenode节点在本地和NFS上同时存储持久状态（类似于oracle归档日志的多路写入）
2. 方法二：运行一个辅助namenode，但不能用作namenode。辅助namenode的重要作用是定期合并编辑日志与命名空间镜像，运行在单独的机器上，需要占用大量CPU时间，并需要与主namenode一样大小的内存。但是，辅助namenode保存的状态总是滞后于主节点，所以主节点全部失效时，难免会丢失部分数据。在这种情况下，一般把存储在NFS上的namenode元数据复制到辅助namenode并作为新的主节点运行
联邦HFDS：在2.x发行版本中引入的联邦HDFS允许通过添加namenode实现扩展，其中每个namenode管理文件系统命名空间的一部分。例如一个namenode管理/user目录下所有的文件，而另一个namenode管理/share目录下的所有文件。
在联邦环境下，每个namenode维护一个命名空间卷，由命名空间的元数据和一个数据块池组成，数据块池包含该命名空间下文件的所有的数据块。命名空间卷之间是相互独立的，亮亮之间并不相互通信，设置其中一个namenode失效也不会影响其他namenode的可用性。数据块池不再进行切分，因此集群中的所有datanode需要注册到每个namenode
要想访问联邦HDFS集群，客户端需要使用挂在数据表将文件路径映射到namenode。
高可用
1. Hadoop2增加了HDFS高可用（HA）的支持，配置了一对活动-备用（active-standby）namenode
2. namenode之间需要通过高可用

Hadoop点滴-Hadoop分布式文件系统的更多相关文章

Hadoop基础-HDFS分布式文件系统的存储
Hadoop基础-HDFS分布式文件系统的存储作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.HDFS数据块 1>.磁盘中的数据块每个磁盘都有默认的数据块大小,这个磁盘 ...
【史上最全】Hadoop 核心 - HDFS 分布式文件系统详解(上万字建议收藏)
1. HDFS概述 Hadoop 分布式系统框架中,首要的基础功能就是文件系统,在 Hadoop 中使用 FileSystem 这个抽象类来表示我们的文件系统,这个抽象类下面有很多子实现类,究竟使用哪 ...
Hadoop点滴-Hadoop的IO
Hadoop自带一套原子操作用于数据的I/O操作. 如果系统中需要处理的数据量达到Hadoop的处理极限时,数据被损害的概率还是很高的检测数据是否被损害的常见措施是,在数据第一次被引进系统时,计算校 ...
第3章:Hadoop分布式文件系统(1)
当数据量增大到超出了单个物理计算机存储容量时,有必要把它分开存储在多个不同的计算机中.那些管理存储在多个网络互连的计算机中的文件系统被称为"分布式文件系统".由于这些计算机是基于网 ...
Hadoop 学习之路（一）—— 分布式文件系统 HDFS
一.介绍 HDFS (Hadoop Distributed File System)是Hadoop下的分布式文件系统,具有高容错.高吞吐量等特性,可以部署在低成本的硬件上. 二.HDFS 设计原理 2 ...
Hadoop 系列（一）—— 分布式文件系统 HDFS
一.介绍 HDFS (Hadoop Distributed File System)是 Hadoop 下的分布式文件系统,具有高容错.高吞吐量等特性,可以部署在低成本的硬件上. 二.HDFS 设计原理 ...
Hadoop 三剑客之 —— 分布式文件存储系统 HDFS
一.介绍二.HDFS 设计原理 2.1 HDFS 架构 2.2 文件系统命名空间 2.3 数据复制 2.4 数据复制的实现原理 2.5 副本的选择 2 ...
[Hadoop 周边] Hadoop技术生态圈
Hadoop版本演进当前Hadoop有两大版本:Hadoop 1.0和Hadoop 2.0. Hadoop1.0被称为第一代Hadoop,由分布式文件系统HDFS和分布式计算框架MapReduce组 ...
Hadoop学习------Hadoop安装方式之(二)：伪分布部署
要想发挥Hadoop分布式.并行处理的优势,还须以分布式模式来部署运行Hadoop.单机模式是指Hadoop在单个节点上以单个进程的方式运行,伪分布模式是指在单个节点上运行NameNode.DataN ...

随机推荐

设计模式（C#）——04原型模式
推荐阅读: 我的CSDN 我的博客园 QQ群:704621321 在软件开发过程中,我们习惯使用new来创建对象.但是当我们创建一个实例的过程很昂贵或者很复杂,并且需要创建多个这样的 ...
Spring框架入门之基于Java注解配置bean
Spring框架入门之基于Java注解配置bean 一.Spring bean配置常用的注解常用的有四个注解 Controller: 用于控制器的注解 Service : 用于service的注解 ...
Struts2：request & response
整理自网上: 1. 获取Request和Response的方法 1.1. ServletActionContext的静态方法 HttpServletRequest request = ...
微服务时代之网关相关技术选型及部署(nacos+gateway)
1.场景描述因要用到微服务,关于注册中心这块,与同事在技术原型上做了讨论,初步定的方案是使用:阿里巴巴的nacos+springcloud gateway,下面表格是同事整理的注册中心对比,以前用的 ...
P2762 太空飞行计划问题最大权闭合子图
link:https://www.luogu.org/problemnew/show/P2762 题意承担实验赚钱,但是要花去对应仪器的费用,仪器可能共用.求最大的收益和对应的选择方案. 思路这道 ...
P2154 [SDOI2009]虔诚的墓主人树状数组
https://www.luogu.org/problemnew/show/P2154 题意在一个坐标系中,有w(1e5)个点,这个图中空点的权值是正上,正下,正左,正右各取k个的排列组合情况.计算 ...
P3119 [USACO15JAN]草鉴定Grass Cownoisseur 分层图或者跑两次最长路
https://www.luogu.org/problemnew/show/P3119 题意有一个有向图,允许最多走一次逆向的路,问从1再走回1,最多能经过几个点. 思路 (一)首先先缩点.自己在缩 ...
Django系列---使用MySql数据库
目录 1. 创建数据库 1.1. 使用utf8mb4编码 1.1.1. 确定mysql的配置文件 1.1.2. 修改配置文件 1.1.3. 重启数据库服务,检查相关字段 1.1.4. 新建数据库 1. ...
【Offer】[57-2] 【和为S的连续正数序列】
题目描述思路分析测试用例 Java代码代码链接题目描述输入一个正数s,打印出所有和为s的连续正数序列(至少含有两个数).例如,输入15,由于1+2+3+4+5=4+5+6=7+8=15,所以 ...
map + filter + reduce
map 是对集合里面的元素一个接一个的进行某种运算,常常与lambda 结合使用 #求平方: items = [1, 2, 3, 4, 5] squared = list(map(lambda ...

Hadoop点滴-Hadoop分布式文件系统

Hadoop点滴-Hadoop分布式文件系统的更多相关文章

随机推荐

热门专题