hdfs: 一个分布式文件系统(一)

一. hdfs设计的动机

为大规模分布式计算准备的分布式文件系统，并非实时性要求很高的文件系统。

二. 设计的取舍

1. 因为要求有高吞吐量，所以牺牲读取文件的实时性，实时性要求高的分布式文件系统可以选择hbase

2. 使用廉价的机器，所以任意一个存储节点可能会挂掉，将之视为hadoop的常态

3. 流式存储，一次写入，多次读取进行数据迭代，写入也尽量采取在文件的末尾进行追加的方式，在任意一处写入数据的操作代价很高，尽量不要做

4. 不鼓励使用大量的小文件处理，每个小文件都需要都有一个元数据来存储这些小文件的信息，并且这些信息都存储在namenode上，一条元数据大概是150K左右的大小，而namenode的容量是有限的

三. hdfs中的块

hdfs中的块与普通文件系统中的块（这里是逻辑块，不同于磁盘中的块）的概念类似，都是文件系统可操作的最小单位，但是大小差别很大，常见的文件系统的块通常为磁盘块大小（512字节）的整数倍，而hdfs中的块默认大小为64M

hdfs的块之所以那么大，是为了尽快寻址，并且hadoop中的不鼓励处理小文件，而大小小于64M的文件会被单独占一个块，只是这个块的大小等于文件的大小，并不是64M

hdfs中的块很适合做备份，通常每个块都会有三个备份，然后存储在不同的节点上，即使其中一个节点挂掉，仍然可以找到备份的数据块（如何将块尽量的比较均匀分布在不同的节点上？）

四.namenode和datanode

namenode是管理者，datanode是执行者

namenode存储着文件块的位置、索引信息、namespace，这些信息在系统重启时重建，还存储操作日志

datanode上存储着具体的文件块，并且在一个固定的时间段内（心跳），会向namenode报告自己的状态和块列表信息

如果namenode上的信息丢失，将是整个文件系统的灾难，所以要有一定的机制来保证文件存储的可靠性

hdfs一般通过两个机制来保证可靠性：

a. 写时copy:在namenode进行写操作（原子操作）的同时，在向本地磁盘写的同时，也会向网络上的某个机器上写同样的内容，通常通过NFS完成

b. 镜像备份：定期将namenode上的数据在另一个机器上创建镜像，进行备份，如果namenode出现问题，则通过镜像进行恢复，缺点是仍然会损失一些数据

从上述这张图中，可以看出，用户写文件并不是经过namenode进行转发，而是直接往datanode上写,然后由datanode将自己节点上块信息传给namenode，这样就避免了namenode成为系统IO的瓶颈。

五. 常见hdfs命令

1. 见$hadoop fs -help http://hadoop.apache.org/docs/r1.2.1/file_system_shell.html 阅读帮助和文档是最好的学习命令的方式

2. 修改~/.bashrc 映射常用命令

hdfs: 一个分布式文件系统(一)的更多相关文章

【整理学习Hadoop】H D F S 一个分布式文件系统
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统.它和现有的分布式文件系统有很多共同点.但同时,它和其他的分布式文件系统的区别 ...
在这个应用中，我使用了 MQ 来处理异步流程、Redis 缓存热点数据、MySQL 持久化数据，还有就是在系统中调用另外一个业务系统的接口，对我的应用来说这些都是属于 RPC 调用，而 MQ、MySQL 持久化的数据也会存在于一个分布式文件系统中，他们之间的调用也是需要用 RPC 来完成数据交互的。
在这个应用中,我使用了 MQ 来处理异步流程.Redis 缓存热点数据.MySQL 持久化数据,还有就是在系统中调用另外一个业务系统的接口,对我的应用来说这些都是属于 RPC 调用,而 MQ.MySQ ...
HDFS：分布式文件系统
HDFS是GFS的简化版,它同一时刻只允许一个用户对同一文件进行追加写操作(GFS允许并发写).它适合存储大文件,并提供高吞吐量的顺序读/写访问. 它的早期版本两大问题,例如:单点失效和水平扩展不佳. ...
configure HDFS(hadoop 分布式文件系统) high available
注:来自尚学堂小陈老师上课笔记 1.安装启动zookeeper a)上传解压zookeeper包 b)cp zoo_sample.cfg zoo.cfg修改zoo.cfg文件 c)dataDir=/o ...
Hadoop分布式文件系统（HDFS）详解
HDFS简介: 当数据集的大小超过一台独立物理计算机的存储能力时,就有必要对它进行分区 (partition)并存储到若干台单独的计算机上.管理网络中跨多台计算机存储的文件系统成为分布式文件系统 (D ...
Hadoop分布式文件系统HDFS详解
Hadoop分布式文件系统即Hadoop Distributed FileSystem. 当数据集的大小超过一台独立的物理计算机的存储能力时,就有必要对它进行分区(Partition)并 ...
大数据 --> 分布式文件系统HDFS的工作原理
分布式文件系统HDFS的工作原理 Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统.HDFS是一个高度容错性的系统,适合部署在廉价的机器上.它能提供高吞吐量的数 ...
Hadoop分布式文件系统HDFS的工作原理
Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统.HDFS是一个高度容错性的系统,适合部署在廉价的机器上.它能提供高吞吐量的数据访问,非常适合大规模数据集上的应 ...
1）HDFS分布式文件系统 2）HDFS核心设计 3 ）HDFS体系结构
一.HDFS简介 1.HDFS:Hadoop distributed file system 一个分布式文件系统基于流数据模式访问和处理超大文件的需要而开发适合应用在大规模数据集上 2. 优点处 ...

随机推荐

Java-note-字符串转换为基本值
Integer.parseInt() and Double.parse.double() 例: Integer.parseInt("123") 得到常量123
<问题>Eclipse中Deploy应用到GAE的错误
1.在Eclipse中部署App到Google App Engine(GAE),有时候会遇到这样的错误: java.lang.RuntimeException: Cannot get the Syst ...
解决A program file was not specified in the launch configuration.问题
问题描述: 在eclipse 中开发c++或c是比较麻烦的事情,刚刚配置好mingw32和cdt和环境变量后,新建一个hello world的c++项目还是会出现问题.主要是在编译的时候会提示 ...
hadoop2.7【单节点】单机、伪分布、分布式安装指导
问题导读 1.从本文部署实际部署,总结本地模式.伪分布.分布式的区别是什么?2.单机是否是伪分布?3.本地模式是否可以运行mapreduce? 来源:about云 http://www.aboutyu ...
Codevs No.1287 矩阵乘法
2016-06-01 16:53:23 题目链接: 矩阵乘法 (Codevs No.1287) 题目大意: 给你两个可乘矩阵a,b,求a*b 解法: 定义....... //矩阵乘法 (Codevs ...
homework-04
1.准备工作本次结对编程我们对项目本身就行了分工,既然是测试来驱动开发,那么我们就把本次工作分成了测试与生成两个部分,小明同学负责生成测试数据,而我写测试程序检测测试结果是否正确,相对来说还是小明同 ...
Linux 性能监控的18个命令行工具
对于系统和网络管理员来说每天监控和调试Linux系统的性能问题是一项繁重的工作.在IT领域作为一名Linux系统的管理员工作5年后,我逐渐认识到监控和保持系统启动并运行是多么的不容易.基于此原因,我 ...
CentOS 下安装操作Memcached
Memcached 是一个高性能的分布式内存对象缓存系统,用于动态Web应用以减轻数据库负载.它通过在内存中缓存数据和对象来减少读取数据库的次数,从而提高动态.数据库驱动网站的速度.Memcached ...
CentOS 搭建LNMP服务器和LAMP服务器
CentOS 搭建LNMP服务器方法一:yum安装 1.更新YUM源 wget http://www.atomicorp.com/installers/atomic #下载atomic自动更新Y ...
DllImport属性详解
API函数是构筑Windows的基石, 是Windows编程的必备利器.每一种Windows应用程序开发工具都提供间接或者直接的方式调用Win32API,C#也不例外.使用Win32API的一个好处就 ...

hdfs: 一个分布式文件系统(一)

hdfs: 一个分布式文件系统(一)的更多相关文章

随机推荐

热门专题