HDFS--笔记

HDFS的简介

分布式的文件系统，基于流数据模式访问和处理超大文件的分布式文件系统

Hadoop Distributed File System

HDFS的优点

处理超大文件

流数据访问

运行廉价的商用服务器上

HDFS的缺点

无法高效存储大量的小文件（元数据信息增大会造成NameNode的压力增大）

不适合处理低延迟的数据访问

不支持多用户对同一个文件的写入

不支持任意的修改

HDFS的特点

高容错性，三个副本，

可扩展和配置性（可以任意增加节点）

夸平台

机架感知

负载均衡

shell命令接口

安全模式（不允许写，监测数据块，不允许执行JOB）

HDFS的核心设计

数据块（Block）：数据以块固定大小的方式进行存储，128M

数据复制：以块来进行复制，可以配置复制因子默认是3个

数据副本的存放策略：

分布存储在不同的节点上

每个数据块保存默认是3个副本

同一个数据的三个副本的存放

第一个副本存在离客户端近的机架上的某一台节点上

第二个副本存在相邻或者另外一个机架上的某一台节点上

机架感知

心跳机制：从节点通过NodeManager 向主节点ResourceManager每隔3秒钟发送心跳数据（从节点的cup 内存磁盘等等资源使用情况）

ResourceManager在心跳的返回值中分配任务和指令给从节点的NodeManager

HDFS的体系结构

主从架构

Master/Slave

NameNode(元数据管理和存放)

SecondaryNameNode（辅助NameNode将edit和fsimage文件进行合并，生成新的fsimage，然后将文件返回给NameNode）

DataNode 从节点，用来存放数据的

Write：向HDFS写入文件

客户端-------》ResourceManager

NameNode DataNode

Client-----》NameNode （提供blockId的列表）

Client-----》DataNode

Read：向HDFS读取文件

Client-----》ResourceManager

NameNode DataNode

Client-----》NameNode（文件的名字...）

Clinet-----》DataNode

HDFS的设计目标

监测故障和快速恢复

大规模数据集的处理

流式数据访问

简化一致性模型，一次写入，多次读取

移动计算要比移动数据的代价要低

在异构的平台上可以移植

通信协议是基于tcpip的ipc rpc协议

HDFS--笔记的更多相关文章

HDFS笔记——技术点汇总
目录 · 概况 · 原理 · HDFS 架构 · 块 · NameNode · SecondaryNameNode · fsimage与edits合并 · DataNode · 数据读写 · 容错机制 ...
HDFS笔记（一）
1. HDFS 是什么? Hadoop分布式文件系统(Distributed File System)-HDFS(Hadoop Distributed File System) 2. HDFS 架构 ...
hdfs笔记
Distributed File System 数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文 ...
【Hadoop】HDFS笔记（三）：HDFS的Shell操作
HDFS处理文件的命令和Linux命令差不多,但注意区分大小写. (Linux区分大小写,Windows不区分大小写) 一.fs命令键入命令"./bin/hadoop fs"将输 ...
【Hadoop】HDFS笔记（二）：HDFS的HA机制和Federation机制
HA解决了HDFS的NameNode的单点问题: Federation解决了整个HDFS集群中只有一个名字空间,并且只有单独的一个NameNode管理所有DataNode的问题. 一.HA机制(Hig ...
【Hadoop】HDFS笔记（一）：Hadoop的RPC机制
RPC(Remote Procedure Call, 远程过程调用)主要面对两个问题: 1.对象调用方式: 2.序列/反序列化机制. Hadoop实现的RPC组件依赖于Hadoop Writable类 ...
HDFS笔记（二）
fsimage : NameNode启动时,对文件系统的快照 eidt logs : NameNode启动后,对文件系统的改动序列 namenode在全局里就一个进程,所以存在单点问题 DataNod ...
学习笔记—MapReduce
MapReduce是什么 MapReduce是一种分布式计算编程框架,是Hadoop主要组成部分之一,可以让用户专注于编写核心逻辑代码,最后以高可靠.高容错的方式在大型集群上并行处理大量数据. Map ...
Hadoop1.x HDFS系统架构
1. HDFS中的一些概念1.1 数据块1.2 NameNode和DataNode1.2.1 管理者:Namenode1.2.1 工作者:Datanode1.3 Secondary Namenode1 ...
HDFS Federation (读书笔记)
HDFS Federation (读书笔记) HDFS的架构 HDFS包含两个层次:命名空间管理(Namespace) 和块/存储管理(Block Storage). 命名空间管理(Namespac ...

随机推荐

myeclipse快捷键（转载）
非常感谢分享这篇文章的大虾..但是我忘了几下您的blog地址,因此无法注明原文地址...见谅哈存盘 Ctrl+s(肯定知道) 注释代码 Ctrl+/ 取消注释 Ctrl+\(Eclipse3已经都合 ...
macbook 263企业邮箱设置
第一步:打开邮箱,点击添加账号,选择其他第二步:填写完整的电子邮件地址和密码第三步:填写收件服务器(popcom.263xmail.com),发件服务器(smtpcom.263xmail.com)
java集合系列——List集合之Stack介绍（五）
1.Stack的简介 Stack 类表示后进先出(LIFO)的对象堆栈.它通过五个操作对类 Vector 进行了扩展 ,允许将向量视为堆栈.它提供了通常的 push 和 pop 操作,以及取堆栈顶点的 ...
翻译：MLAPP（2.1节）
笔者:尝试翻译MLAPP(Machine Learning: a Probabilistic Perspective)一书,供机器学习的学者参考,如有错误理解之处请指出,不胜感激!(如需转载,请联系本 ...
Tensorflow学习教程------创建图启动图
Tensorflow作为目前最热门的机器学习框架之一,受到了工业界和学界的热门追捧.以下几章教程将记录本人学习tensorflow的一些过程. 在tensorflow这个框架里,可以讲是若数据类型,也 ...
java数据库编程之数据库的设计
第一章:数据库的设计 1.1:为什么需要规范数据库的设计 1.1.1:什么是数据库设计数据库设计就是将数据中的数据实体及这些数据实体之间的关系,进行规范和结构的过程. 1.1.2:数据库设计非常重要 ...
Linux查找和筛选工具
本文为原创文章,转载请标明出处目录文件名通配符单字符匹配元字符 ? 多字符匹配元字符 * 字符范围匹配符 [] 排除范围匹配符 [!] 命令中的正则表达式单字符匹配符 . 单字符或字符串重复匹 ...
install xdebug
安装准备安排php的xdebug扩展,在php.ini上配置xdebug.通过phpinfo或者php-m 查看 [Xdebug] zend_extension ="D:\upupw7\P ...
Asp.Net MVC4 系列-- 进阶篇之路由（1）
创建一个路由打开 RouteConfig.cs ,发现已经创建了一个默认路由 : routes.MapRoute( name:"Default", url:"{con ...
PHP-FPM进程池探秘
PHP 支持多进程而不支持多线程:PHP-FPM 在进程池中运行多个子进程并发处理所有连接请求.通过 ps 查看PHP-FPM进程池(pm.start_servers = 2)状态如下: root@d ...

HDFS--笔记

HDFS--笔记的更多相关文章

随机推荐

热门专题