Hadoop学习-HDFS篇

HDFS设计基础与目标

硬件错误是常态。因此需要冗余
流式数据访问。即数据批量读取而非随机读写，Hadoop擅长做的是数据分析而不是事务处理(随机性的读写数据等)。
大规模数据集
简单一致性模型。为了降低系统复杂度，对文件采用一次性写多次读的逻辑设计，即是文件一经写入，关闭，就再也不能修改
程序采用“数据就近“原则分配节点执行

HDFS体系结构

Namenode:

管理文件系统的命名空间
记录每个文件数据块在各个Datanode上的位置和副本信息
协调客户端对文件的访问
记录命名空间内的改动或空间本身属性的改动
Namenode使用事务日志记录HDFS元数据的变化。使用映像文件存储文件系统的命名空间，包括文件映射(fsimage)，文件属性等

Datanode:

负责所在物理节点的存储管理
一次写入，多次读取（不修改），因此不需要考虑一致性问题
文件由数据块组成，典型的块大小是64MB
数据块尽量散布道各个节点

Hadoop读取HDFS数据的流程：

客户端要访问HDFS中的一个文件
首先从namenode获得组成这个文件的数据块位置列表
根据列表知道存储数据块的datanode
访问datanode获取数据
Namenode并不参与数据实际传输

HDFS可靠性：

冗余副本策略

　　hdfs-site.xml中指定，副本越大越安全，但是资源利用率越低。

机架策略

　　3份副本策略：本地，本机架，其他机架。

心跳机制

　　Namenode周期性从datanode接收心跳信号和块报告，根据块报告验证元数据，没有按时发送心跳的datanode会被标记为宕机，不会再给它任何I/O请求，如果datanode失效造成副本数量下降，并且低于预先设置的阈值，namenode会检测出这些数据块，并在合适的时机进行重新复制，引发重新复制的原因还包括数据副本本身损坏、磁盘错误，复制因子被增大等。

安全模式

Namenode启动时会先经过一个“安全模式”阶段，安全模式阶段不会产生数据写，在此阶段Namenode收集各个datanode的报告，当数据块达到最小副本数以上时，会被认为是“安全”的。在一定比例（可设置）的数据块被确定为“安全”后，再过若干时间，安全模式结束。当检测到副本数不足的数据块时，该块会被复制直到达到最小副本数。

校验和
回收站

删除一个文件时，其实放入回收站/trash中，回收站中的文件可以快速恢复，通过设定时间阈值，当超过这个阈值，就被彻底删除并释放占用的数据块。

元数据保护
快照机制

HDFS中Namenode的持久化机制：

HDFS 在解决namenode元数据持久性问题时，采用了一种事物日志（transaction log,called EditLog) + 文件系统镜像文件（FsImage)的办法。日志文件和镜像文件都存储在主机本地文件系统中。当HDFS运行时，在内存中有一份整个文件系统元数据的镜像。当对HDFS进行修改性操作时，系统只修改内存中的文件系统元数据镜像，并在事物日志中添加操作记录，并不及时修改硬盘中的FsImage文件。只有当namenode下次启动时，系统会从磁盘上同时读取EditLog 和 FsImage两个文件，并根据EditLog中记录的操作来修改（或者叫更新）FsImage，然后将新版本的FsImage写回磁盘并清空EditLog。这时候，磁盘和内存中的FsImage文件都是最新的。

HDFS文件操作

命令行方式

hadoop fs –put <local path> <hdfs path> //将本地文件放入HDFS中

hadoop fs –ls <hdfs path> //显示文件目录

hadoop fs –get <hdfs path> <local path> //将Hdfs中的数据拷贝到本地

hadoop fs –rmr <file>  //删除文件,如果开启回收站了会到回收站里面

hadoop fs –cat <file path> //查看文件内容

hadoop dfsadmin –report //查看hdfs目前状态

注：有些地方命令是hadoop dfs …..这个跟hadoop fs一样的，没什么区别。

JAVA API方式

这个就不多说了。。。

Hadoop学习-HDFS篇的更多相关文章

Hadoop 学习 HDFS
1.HDFS的设计 HDFS是什么:HDFS即Hadoop分布式文件系统(Hadoop Distributed Filesystem),以流式数据访问模式来存储超大文件,运行于商用硬件集群上,是管理网 ...
hadoop学习;hdfs操作；执行抛出权限异常: Permission denied；api查看源代码方法；源代码不停的向里循环；抽象类通过debug查找源代码
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/u010026901/article/details/26587251 eclipse快捷键alt+s ...
Hadoop学习-hdfs安装及其一些操作
hdfs:分布式文件系统有目录结构,顶层目录是: /,存的是文件,把文件存入hdfs后,会把这个文件进行切块并且进行备份,切块大小和备份的数量有客户决定. 存文件的叫datanode,记录文件的切 ...
hadoop学习笔记（四）：HDFS文件权限，安全模式，以及整体注意点总结
本文原创,转载注明作者和原文链接! 一:总结注意点: 到现在为止学习到的角色:三个NameNode.SecondaryNameNode.DataNode 1.存储的是每一个文件分割存储之后的元数据信息 ...
Hadoop学习之旅二：HDFS
本文基于Hadoop1.X 概述分布式文件系统主要用来解决如下几个问题: 读写大文件加速运算对于某些体积巨大的文件,比如其大小超过了计算机文件系统所能存放的最大限制或者是其大小甚至超过了计算机整 ...
Hadoop学习笔记—2.不怕故障的海量存储：HDFS基础入门
一.HDFS出现的背景随着社会的进步,需要处理数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是却不方便管理和维护—>因此,迫切需要一种系统来管理多 ...
Hadoop基础-HDFS安全管家之Kerberos实战篇
Hadoop基础-HDFS安全管家之Kerberos实战篇作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 我们都知道hadoop有很多不同的发行版,比如:Apache Hadoop ...
【Hadoop学习之四】HDFS HA搭建（QJM）
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 由于NameNode对于整个HDF ...
hadoop之HDFS学习笔记（一）
主要内容:hdfs的整体运行机制,DATANODE存储文件块的观察,hdfs集群的搭建与配置,hdfs命令行客户端常见命令:业务系统中日志生成机制,HDFS的java客户端api基本使用. 1.什么是 ...

随机推荐

zoj3231 Apple Transportation(最大流)
转载请注明出处: http://www.cnblogs.com/fraud/ ——by fraud Apple Transportation Time Limit: 1 Second ...
PyQuery查询html信息
以下代码主要演示使用pyquery进行对html文件的解析,包括设定编码,对子块进行查询等操作: from pyquery import PyQuery as pq import os from lx ...
[Head First Python]6. 定制数据对象:打包代码与数据
相同功能,演进实现数据文件 sarah2.txt sarah Sweeney,2002-6-17,2:58,2.58,2:39,2-25,2-55,2:54,2.18,2:55,2:55 1- 返回 ...
py正则表达式
1.元字符 . ^ $ * + ? {} [] \ | () --> [] : - 常用来指定一个字符集:[abc], [a-z] 匹配任意一个字符 - 元字符在字符集中不起作用:[akm ...
Obstack是C标准库里面对内存管理的GNU扩展
Obstack是C标准库里面对内存管理的GNU扩展 Obstack介绍 Obstack初始化在Obstack中申请对象释放对象申请growing object 获取Obstack状态数据对齐 ...
centos6.4x64安装vncserver
参考文章:http://blog.csdn.net/mchdba/article/details/43058849 主要是远程安装oracle11g需要用到这个东西: 进入系统依次执行下列命令: #查 ...
玩sdr的朋友们，在rtl_tcp时，记得调整rtl_AGC和tuner_AGC啊
我在rtl_tcp时没有调整这个,结果怎么也听不到声音啊还有就是在搞rtl_tcp时,一定要网速跟得上,我用无线网络时就碰到了这个问题,声音总是一直断续着,郁闷死
C语言经典程序190例
[程序1] 题目:809*??=800*??+9*??+1 其中??代表的两位数,8*??的结果为两位数,9*??的结果为3位数.求??代表的两位数,及809*??后的结果. 1.程序分析: 2.程序 ...
C# 新特性_协变与逆变 (.net 4.0)
C#4.0中有一个新特性:协变与逆变.可能很多人在开发过程中不常用到,但是深入的了解他们,肯定是有好处的. 协变和逆变体现在泛型的接口和委托上面,也就是对泛型参数的声明,可以声明为协变,或者逆变.什么 ...
PhpEclipse插件
PHP开发工具 PHPEclipse PHPEclipse 是一个相当强大的一个Eclipse下开发PHP的插件,包括的功能有:PHP语法分析,调试,代码格式化,大纲视图,代码模板定制等. 安装地址: ...

Hadoop学习-HDFS篇

Hadoop学习-HDFS篇的更多相关文章

随机推荐

热门专题