HDFS--笔记

HDFS的简介

分布式的文件系统，基于流数据模式访问和处理超大文件的分布式文件系统

Hadoop Distributed File System

HDFS的优点

处理超大文件

流数据访问

运行廉价的商用服务器上

HDFS的缺点

无法高效存储大量的小文件（元数据信息增大会造成NameNode的压力增大）

不适合处理低延迟的数据访问

不支持多用户对同一个文件的写入

不支持任意的修改

HDFS的特点

高容错性，三个副本，

可扩展和配置性（可以任意增加节点）

夸平台

机架感知

负载均衡

shell命令接口

安全模式（不允许写，监测数据块，不允许执行JOB）

HDFS的核心设计

数据块（Block）：数据以块固定大小的方式进行存储，128M

数据复制：以块来进行复制，可以配置复制因子默认是3个

数据副本的存放策略：

分布存储在不同的节点上

每个数据块保存默认是3个副本

同一个数据的三个副本的存放

第一个副本存在离客户端近的机架上的某一台节点上

第二个副本存在相邻或者另外一个机架上的某一台节点上

机架感知

心跳机制：从节点通过NodeManager 向主节点ResourceManager每隔3秒钟发送心跳数据（从节点的cup 内存磁盘等等资源使用情况）

ResourceManager在心跳的返回值中分配任务和指令给从节点的NodeManager

HDFS的体系结构

主从架构

Master/Slave

NameNode(元数据管理和存放)

SecondaryNameNode（辅助NameNode将edit和fsimage文件进行合并，生成新的fsimage，然后将文件返回给NameNode）

DataNode 从节点，用来存放数据的

Write：向HDFS写入文件

客户端-------》ResourceManager

NameNode DataNode

Client-----》NameNode （提供blockId的列表）

Client-----》DataNode

Read：向HDFS读取文件

Client-----》ResourceManager

NameNode DataNode

Client-----》NameNode（文件的名字...）

Clinet-----》DataNode

HDFS的设计目标

监测故障和快速恢复

大规模数据集的处理

流式数据访问

简化一致性模型，一次写入，多次读取

移动计算要比移动数据的代价要低

在异构的平台上可以移植

通信协议是基于tcpip的ipc rpc协议

HDFS--笔记的更多相关文章

HDFS笔记——技术点汇总
目录 · 概况 · 原理 · HDFS 架构 · 块 · NameNode · SecondaryNameNode · fsimage与edits合并 · DataNode · 数据读写 · 容错机制 ...
HDFS笔记（一）
1. HDFS 是什么? Hadoop分布式文件系统(Distributed File System)-HDFS(Hadoop Distributed File System) 2. HDFS 架构 ...
hdfs笔记
Distributed File System 数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文 ...
【Hadoop】HDFS笔记（三）：HDFS的Shell操作
HDFS处理文件的命令和Linux命令差不多,但注意区分大小写. (Linux区分大小写,Windows不区分大小写) 一.fs命令键入命令"./bin/hadoop fs"将输 ...
【Hadoop】HDFS笔记（二）：HDFS的HA机制和Federation机制
HA解决了HDFS的NameNode的单点问题: Federation解决了整个HDFS集群中只有一个名字空间,并且只有单独的一个NameNode管理所有DataNode的问题. 一.HA机制(Hig ...
【Hadoop】HDFS笔记（一）：Hadoop的RPC机制
RPC(Remote Procedure Call, 远程过程调用)主要面对两个问题: 1.对象调用方式: 2.序列/反序列化机制. Hadoop实现的RPC组件依赖于Hadoop Writable类 ...
HDFS笔记（二）
fsimage : NameNode启动时,对文件系统的快照 eidt logs : NameNode启动后,对文件系统的改动序列 namenode在全局里就一个进程,所以存在单点问题 DataNod ...
学习笔记—MapReduce
MapReduce是什么 MapReduce是一种分布式计算编程框架,是Hadoop主要组成部分之一,可以让用户专注于编写核心逻辑代码,最后以高可靠.高容错的方式在大型集群上并行处理大量数据. Map ...
Hadoop1.x HDFS系统架构
1. HDFS中的一些概念1.1 数据块1.2 NameNode和DataNode1.2.1 管理者:Namenode1.2.1 工作者:Datanode1.3 Secondary Namenode1 ...
HDFS Federation (读书笔记)
HDFS Federation (读书笔记) HDFS的架构 HDFS包含两个层次:命名空间管理(Namespace) 和块/存储管理(Block Storage). 命名空间管理(Namespac ...

随机推荐

firefly rk3288 内核模块编译
在驱动开发的过程中,常常需要对代码进行返回的调试,如果返回的编译再烧写内核,势必会浪费开发人员大量的时间和心力,加班加点那是时常的事.为此linux提供了编译内核模块的方式,无需返回烧写内核,只需in ...
AngularJS -- Module (模块)
点击查看AngularJS系列目录转载请注明出处:http://www.cnblogs.com/leosx/ 什么是AngularJS的模块我们所说的模块,是你的AngularJS应用程序的一个组 ...
jmeter测试教程
http://www.cnblogs.com/TankXiao/p/4045439.html
Vue.js的从入门到放弃进击录（二）
哇塞,昨晚更新的篇(一)这么多阅读量,看来入坑的人越来越多啦~熬了一个礼拜夜,今天终于生病惹~国庆要肥家咯·所以把篇(二)也更完.希望各位入坑的小伙伴能少跳几个坑呗.如果有什么不对的地方也欢迎讨论指正 ...
【模板】AC自动机（加强版）
题目描述有个由小写字母组成的模式串以及一个文本串.每个模式串可能会在文本串中出现多次.你需要找出哪些模式串在文本串中出现的次数最多. 输入输出格式输入格式: 输入含多组数据. 每组数据的第一行为一 ...
初识Hibernate之关联映射（一）
上篇文章我们对持久化对象进行的学习,了解了它的三种不同的状态并通过它完成对数据库的映射操作.但这都是基于单张表的操作,如果两张或者两张以上的表之间存在某种关联,我们又该如何利用持久化对象进行操作呢?本 ...
ch3-form(get/post) $.ajax(get/post)
1 http(get)请求提交的数据用req.query接收 1.1 router.get() //http(get)请求方式 1.2 接收http(get)方式提交的数据 req.query 方 ...
c#使用GDI+简单绘图(二)
// Create the in-memory bitmap where you will draw the image. // This bitmap is 300 pixels wide and ...
TreeViewItem实现整行选中 (两种用法)
用法一 <ResourceDictionary xmlns="http://schemas.microsoft.com/winfx/2006/xaml/presentation&quo ...
Thinking in React Implemented by Reagent
前言本文是学习Thinking in React这一章后的记录,并且用Reagent实现其中的示例. 概要构造恰当的数据结构从静态非交互版本开始追加交互代码一.构造恰当的数据结构 Sinc ...

HDFS--笔记

HDFS--笔记的更多相关文章

随机推荐

热门专题