HDFS核心设计

一、HDFS核心设计

　　数据块（block）

　　　　数据块是HDFS上最基本的存储单位

　　　　HDFS块默认大小为128M

　　对块进行抽象会带来的好处

　　　　　　一个小文件的大小可以大于网络中任意一个磁盘的容量

　　　　　　使用块抽象而不是文件可以简化存储子系统

　　　　　　块非常适合用于数据备份进而提供数据容错能力和可用性

　　数据块复制

　　　　HDFS为了做到可靠性创建多分数据块，MapReduce就可以在他们所在节点上处理这些数据了

　　　　HDFS将每个文件存储成块序列

　　　　每个文件的block大小和复制因子都是可配置的 HDFS-site.xml

　　数据副本的存放策略

　　　　数据分块存储和副本的存放，是保证可靠性和高性能的关键

　　　　将每个文件的数据进行分块存储

　　　　　　每一个数据块又保存有多个副本

　　　　　　这些数据块副本分布在不同的机器节点上

　　　　在多数情况下，HDFS默认的副本系数是3

　　　　Hadoop默认对3个副本的存放策略

　　　　　　第一块:在本机器的HDFS目录下存储一个block

　　　　　　第二块：在不同rack（机架）的某个DataNode上存储一个block

　　　　　　第三块：在该机器的同一个rack下的某台机器上存储最后一个block

　　　　　　更多副本：随机节点

　　　　设置集群block的备份数

　　　　　　方法一：配置文件hdfs-site.xml

　　　　　　方法二：通过命令修改备份数

　　　　　　　　bin/hadoop fs -setrep -R 1 /

　　　　安全模式

　　　　　　安全模式是Hadoop集群的一种保护模式

　　　　　　用命令来操作安全模式

　　　　　　　　Hadoop dfsadmin -safemode leave //强制NameNode退出安全模式

　　　　　　　　Hadoop dfsadmin -safemode enter //进入安全模式

　　　　　　　　Hadoop dfsadmin -safemode get //查看安全模式状态

　　　　　　　　Hadoop dfsadmin -safemode wait //等待，一直到安全模式结束

　　　　负载均衡

　　　　　　机器和机器之间磁盘利用率不平衡HDFS集群非常容易出现的情况

　　　　　　　　尤其是在DataNode节点出现故障或在现有的集群上增添新的DataNode的时候

　　　　　　分析数据块分布和重新均衡DataNode上的数据分布的工具

　　　　　　　　$HADOOP_HOME/bin/start-balancer.sh -t 10%

　　　　　　负载均衡程序作为一个与独立的进程namenode进程分开执行

　　　　　　心跳机制

　　　　　　机架感知

　　　　　　　　大型Hadoop集群是以机架的形式来组织的

　　　　　　　　　　同一个机架上不同节点间的网络状况比不同机架之间的更为理想

　　　　　　　　默认情况下，Hadoop的机架感知是没有被启用的

　　　　　　　　　　启用机架感知功能，在namenode所在机器的core-site.xml中配置一个选项

HDFS核心设计的更多相关文章

1）HDFS分布式文件系统 2）HDFS核心设计 3 ）HDFS体系结构
一.HDFS简介 1.HDFS:Hadoop distributed file system 一个分布式文件系统基于流数据模式访问和处理超大文件的需要而开发适合应用在大规模数据集上 2. 优点处 ...
Hadoop2源码分析－HDFS核心模块分析
1.概述这篇博客接着<Hadoop2源码分析-RPC机制初识>来讲述,前面我们对MapReduce.序列化.RPC进行了分析和探索,对Hadoop V2的这些模块都有了大致的了解,通过对 ...
HDFS架构设计
原文:http://hadoop.apache.org/docs/r2.6.4/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html 介绍 HDFS是个分布式 ...
HDFS 核心原理
HDFS 核心原理 2016-01-11 杜亦舒 HDFS(Hadoop Distribute File System)是一个分布式文件系统文件系统是操作系统提供的磁盘空间管理服务,只需要我们指定把文 ...
大数据技术 - 分布式文件系统 HDFS 的设计
本章内容介绍下 Hadoop 自带的分布式文件系统,HDFS 即 Hadoop Distributed Filesystem.HDFS 能够存储超大文件,可以部署在廉价的服务器上,适合一次写入多次读取 ...
HDFS的设计
当数据集的大小超过一台独立的物理计算机的存储能力时,就有必要对它进行分区(partition)并存储到若干台单独的计算机上.管理网络中跨多台计算机存储的文件系统成为分布式文件系统(distribute ...
HDFS被设计成能够在一个大集群中跨机器可靠地存储超大文件
HDFS被设计成能够在一个大集群中跨机器可靠地存储超大文件.它将每个文件存储成一系列的数据块,除了最后一个,所有的数据块都是同样大小的.为了容错,文件的所有数据块都会有副本.每个文件的数据块大小和副本 ...
2本Hadoop技术内幕电子书百度网盘下载：深入理解MapReduce架构设计与实现原理、深入解析Hadoop Common和HDFS架构设计与实现原理
这是我收集的两本关于Hadoop的书,高清PDF版,在此和大家分享: 1.<Hadoop技术内幕:深入理解MapReduce架构设计与实现原理>董西成著机械工业出版社2013年5月出 ...
大数据：Hadoop（HDFS 的设计思路、设计目标、架构、副本机制、副本存放策略）
一.HDFS 的设计思路 1)思路切分数据,并进行多副本存储: 2)如果文件只以多副本进行存储,而不进行切分,会有什么问题缺点不管文件多大,都存储在一个节点上,在进行数据处理的时候很难进行并行处 ...

随机推荐

自制 Chrome Custom.css 设置网页字体为微软雅黑扩展
自己做的將網頁自動替換為微軟雅黑的擴展.很好用. 將Customcss.rcx拖到擴展裏就可. 下載:Customcss.zip
常用的Array相关的属性和方法
Array 对象属性constructor 返回对创建此对象的数组函数的引用. length 设置或返回数组中元素的数目. prototype 使您有能力向对象添加属性和方法. Array 对象方法c ...
c++ 重载、覆盖（隐藏）（virtual）
背景:不用说,学习C++的你,一定知道这是个词--至于难不难懂,就看你的理解能力了,我理解也是费劲千辛万苦啊,成员函数的重载.覆盖(override).隐藏.virtual 很容易混淆,C++程序员必 ...
Android - View的绘制你知道多少？
https://github.com/android-cn/android-open-project-analysis/tree/master/tech/viewdrawflow Android-La ...
servlet 中处理 json 请求，并访问 service 类，返回处理结果
前言:jar 包中的 servlet 必须可以处理前端发出的 ajax 请求,接收参数,并返回结果. github地址:yuleGH github 这里有个约定,url 地址是 .json 结尾的,如 ...
java设计模式-----23、命令模式
概念: Command模式也叫命令模式 ,是行为设计模式的一种.Command模式通过被称为Command的类封装了对目标对象的调用行为以及调用参数. 命令模式(Command Pattern)是一种 ...
POJ2318(KB13-A 计算几何)
TOYS Time Limit: 2000MS Memory Limit: 65536K Total Submissions: 16222 Accepted: 7779 Description ...
排序算法(10)--Distribution Sorting--分布排序[2]--Radix Sort--基数排序
1.基本思想基数排序是通过“分配”和“收集”过程来实现排序 2.实现原理基数排序(以整形为例),将整形10进制按每位拆分,然后从低位到高位依次比较各个位.主要分为两个过程: (1)分配,先从个位开 ...
w3school前端教程合集
有关前端开发的w3c教程合集. http://caibaojian.com/w3school/ 地图 ajax教程 Canvas教程 CSS教程 CSS3教程 CSS3选择器 CSS参考手册 DHTM ...
Jquery中on绑定的一些小坑
---恢复内容开始--- 今天我们来说说关于JQuery中事件绑定中on绑定的一些小问题,直接上代码了,大家拷下去就可以用 <!DOCTYPE html> <html lang=&q ...

HDFS核心设计

HDFS核心设计的更多相关文章

随机推荐

热门专题