HDFS快速入门

2024-10-29 08:28:19 原文

一.简介

　　HDFS【Hadoop Distributed File System】是Hadoop组件中的分布式存储系统，提供高可靠性、高扩展性和高吞吐率的数据存储服务。

二.存储模型

　　1.文件线性切割成块【Block】，块分散存储在集群的各个节点中。

　　2.单一文件Block大小一致，不同的文件可以设置的不一样。

　　3.Block可以设置副本数，副本分散在不同的节点【副本数不要超过节点数，这样副本设置才有意义】。

　　4.文件上传可以设置Block大小和副本数，已上传的文件Block副本数可以调整，大小不变。

　　5.只支持一次写入多次读取，同一时刻只有一个写入，可以追加数据。

三.架构模型

　　1.NameNode【主】节点保存文件元数据，DataNode节点保存文件Block数据。

　　2.DataNode和NameNode之间通过心跳确认各个节点的健康情况，以及是否需要重启节点。

　　3.HDFSClient与NameNode交互元数据信息，与DataNode交互文件Block数据【需先访问NameNode】。

　　

四.NameNode【NN】

　　特点：

　　1.基于内存存储，不会和磁盘发生交换。

　　2.接受客户端的读写请求，收集DataNode汇报的Block列表信息。

　　3.保存metadata信息，包括：文件ownership和permissions、文件大小、时间、Block列表、Block偏移量、位置信息和Block副本位置【由DataNode上报】等。

　　持久化：

　　1.NameNode的metadata信息在启动后会加载到内存。

　　2.metadata存储到磁盘文件名称为"fsimage"。

　　3.Block的位置信息不会保存到fsimage。

　　4.edits记录对metadata的操作日志。

HDFS快速入门的更多相关文章

Spark快速入门 - Spark 1.6.0
Spark快速入门 - Spark 1.6.0 转载请注明出处:http://www.cnblogs.com/BYRans/ 快速入门(Quick Start) 本文简单介绍了Spark的使用方式.首 ...
Hadoop快速入门
目的这篇文档的目的是帮助你快速完成单机上的Hadoop安装与使用以便你对Hadoop分布式文件系统(HDFS)和Map-Reduce框架有所体会,比如在HDFS上运行示例程序或简单作业等. 先决条件 ...
sqoop 1.4.4-cdh5.1.2快速入门
一.快速入门 (一)下载安装 1.下载并解压 wget http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.4-cdh5.1.2.tar.gz tar - ...
Apache Spark 2.2.0 中文文档 - 快速入门 | ApacheCN
快速入门使用 Spark Shell 进行交互式分析基础 Dataset 上的更多操作缓存独立的应用快速跳转本教程提供了如何使用 Spark 的快速入门介绍.首先通过运行 Spark 交互 ...
Spark快速入门
Spark 快速入门本教程快速介绍了Spark的使用. 首先我们介绍了通过Spark 交互式shell调用API( Python或者scala代码),然后演示如何使用Java, Scala或者P ...
Hadoop生态圈-大数据生态体系快速入门篇
Hadoop生态圈-大数据生态体系快速入门篇作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.大数据概念 1>.什么是大数据大数据(big data):是指无法在一定时间 ...
Spark2.x学习笔记：Spark SQL快速入门
Spark SQL快速入门本地表 (1)准备数据 [root@node1 ~]# mkdir /tmp/data [root@node1 ~]# cat data/ml-1m/users.dat | ...
大数据技术之_09_Flume学习_Flume概述+Flume快速入门+Flume企业开发案例+Flume监控之Ganglia+Flume高级之自定义MySQLSource+Flume企业真实面试题（重点）
第1章 Flume概述1.1 Flume定义1.2 Flume组成架构1.2.1 Agent1.2.2 Source1.2.3 Channel1.2.4 Sink1.2.5 Event1.3 Flum ...
Hadoop生态圈-Hive快速入门篇之HQL的基础语法
Hadoop生态圈-Hive快速入门篇之HQL的基础语法作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 本篇博客的重点是介绍Hive中常见的数据类型,DDL数据定义,DML数据操作 ...

随机推荐

转 Mac 使用ab性能测试工具
Mac 使用ab命令进行压测 1.在Mac中配置Apache ①启动Apache,打开终端 sudo apachectl -v 如下显示Apache的版本 sudo apachectl start 这 ...
String的split方法，你真的懂吗
String的split方法相信大家都不陌生,或多或少都用过它将字符串转成一个数组,但是就是这样一个简单的方法,里面也有一个不得不注意.不深不浅的小坑. 本地测试代码如下图所示: 图1 大家会发现sp ...
bash内置命令mapfile：读取文件内容到数组
bash提供了两个内置命令:readarray和mapfile,它们是同义词.它们的作用是从标准输入读取一行行的数据,然后每一行都赋值给一个数组的各元素.显然,在shell编程中更常用的是从文件.从管 ...
sql server 获取自增列下一个值或者获取指定表的主键值
IDENT_CURRENT('TableName')为当前的最大标识值, IDENT_INCR('TableName')为设置的标识值增量, 两者相加即为下一个标识值如: SELECT IDENT_ ...
Linux核心命令
Linux核心命令 strace(查看系统调用的一个过程) 例:strace cat /test.txt netstat perf top pidstat mpstat dstat vmstat sl ...
[转]USDT与omniCore钱包
本文转自:http://www.cnblogs.com/red-evil/p/10039740.html USDTUSDT,又称为泰达币,是由Tether公司在 2015年推出的一种与美元锚定的加密货 ...
杭电ACM2000--ASCII码排序
ASCII码排序 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others)Total Su ...
php中的implements 使用详解
php类中接口的应用关键字是interface.implements了,接口是一种成员属性全部为抽象或常量的特殊抽象类,implements主要是对类名,类所拥有的方法,以及所传参数起约束和规范做用, ...
【Spring】31、Spring的EL表达式
一.简介 Spring3中引入了Spring表达式语言—SpringEL,SpEL是一种强大,简洁的装配Bean的方式,他可以通过运行期间执行的表达式将值装配到我们的属性或构造函数当中,更可以调用JD ...
Hibernate入门(四)---------一级缓存
Hibernate一级缓存 Hibernate的一级缓存就是指Session缓存,Session缓存是一块内存空间,用来存放相互管理的java对象,在使用Hibernate查询对象的时候,首先会使用对 ...