0. 说明

  HDFS 文件概念 && HDFS 启动过程分析


1. HDFS 文件概念

  【1.1 NameNode 职能】

  存储文件类型、大小、权限、路径等等元数据

  通过 edits(编辑日志) 和 fsimage(镜像文件) 进行存储

  查看编辑日志命令

# 查看当前目录
[centos@s101 current]$ pwd
/home/centos/ha/dfs/name1/current # 查看编辑日志文件并输出到指定目录
[centos@s101 current]$ hdfs oev -i edits_0000000000000000508- -o ~/testdata/edits.xml -p xml

  编辑日志文件分析

<RECORD>
<!-- OP_ADD是添加文件 -->
<OPCODE>OP_ADD</OPCODE>
<DATA> <TXID>10</TXID> // <!-- 事务id -->
<LENGTH>0</LENGTH> // 长度为0
<INODEID>16386</INODEID> //文件id
<PATH>/1.sh._COPYING_</PATH> //复制中文件
<REPLICATION>3</REPLICATION>
<MTIME>1532249632886</MTIME>
<ATIME>1532249632886</ATIME>
<BLOCKSIZE>134217728</BLOCKSIZE>
<CLIENT_NAME>DFSClient_NONMAPREDUCE_300367892_1</CLIENT_NAME>
<CLIENT_MACHINE>192.168.23.101</CLIENT_MACHINE>
<OVERWRITE>true</OVERWRITE>
<PERMISSION_STATUS>
<USERNAME>centos</USERNAME>
<GROUPNAME>supergroup</GROUPNAME>
<MODE>420</MODE>
</PERMISSION_STATUS>
<RPC_CLIENTID>afd88564-d970-4754-81fe-0b427f52d389</RPC_CLIENTID>
<RPC_CALLID>3</RPC_CALLID>
</DATA>
</RECORD>

  编辑日志中,存放的是操作步骤,包括用户写操作和系统内部写操作

  eg:在写操作过程中,整个流程分为以下阶段

  1. 创建copying文件
  2. 在copying文件中写入数据
  3. 重命名文件

  查看镜像文件,镜像文件中,存放所有文件和文件夹的源信息的树形结构

# 查看当前所在目录
[centos@s101 current]$ pwd
/home/centos/ha/dfs/name1/current # 查看镜像文件并保存到指定目录
[centos@s101 current]$ hdfs oiv -i fsimage_0000000000000000817 -o ~/testdata/fsimage.xml -p XML

  【1.2 DataNode 职能】

  存储真实数据,通过blk(块)方式存储

  真实数据存储目录(/home/centos/hadoop 为 HDFS 工作目录)如下:

/home/centos/hadoop/dfs/data1/current

  【1.3 副本概念】

  文件备份数,通过 hdfs-site.xml 指定副本数

  【1.4 块】

  HDFS 文件在存储时,是以块为单位进行存储,块大小即文件块的最大值
  块大小为 128M

  【1.5 HDFS 配置文件 hdfs-site.xml】

  除了以下还可以设置 副本数 [dfs.replication] 、块大小 [dfs.blocksize]

<configuration>
<!-- value标签需要写本机ip -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://s101</value>
<description>指定文件系统</description>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/centos/hadoop</value>
<description>指定工作目录</description>
</property>
</configuration>

2. HDFS 启动过程分析

  【2.1 启动 NameNode】

  0. NameNode 先进入安全模式,在此模式下,文件均处于只读状态
  1. NameNode 将 fsimage 文件加载到内存
  2. 将 edits_inprogress 实例化为 edits 文件
  3. NameNode 将 edits 文件加载到内存
  4. 将 fsimage 文件与 edits 文件进行融合,通过旧的 fsimage 文件重现 edits 文件的操作步骤,生成新的 fsimage 文件
  5. 退出安全模式,文件可写

  【2.2 安全模式 Safemode】

  安全模式,在此模式下,文件均处于只读状态

# 进入安全模式
hdfs dfsadmin -safemode enter # 离开安全模式
hdfs dfsadmin -safemode leave # 得到当前的状态
hdfs dfsadmin -safemode get # 等待
hdfs dfsadmin -safemode wait

  【2.3 edits_inprogress 文件说明】

  edits_inprogress 文件为 Hadoop 从开始到停止过程中做的操作

  

  【2.4 手动滚动镜像文件 && 编辑日志】

# 编辑日志滚动
hdfs dfsadmin -rollEdits # 先进入安全模式,然后手动滚动镜像文件
hdfs dfsadmin -safemode enter
hdfs dfsadmin -saveNamespace

[HDFS_add_1] HDFS 启动过程分析的更多相关文章

  1. ASP.Net Core MVC6 RC2 启动过程分析[偏源码分析]

    入口程序 如果做过Web之外开发的人,应该记得这个是标准的Console或者Winform的入口.为什么会这样呢? .NET Web Development and Tools Blog ASP.NE ...

  2. 开机SystemServer到ActivityManagerService启动过程分析

    开机SystemServer到ActivityManagerService启动过程 一 从Systemserver到AMS zygote-> systemserver:java入层口: /** ...

  3. Neutron分析(2)——neutron-server启动过程分析

    neutron-server启动过程分析 1. /etc/init.d/neutron-server DAEMON=/usr/bin/neutron-server DAEMON_ARGS=" ...

  4. linux视频学习7(ssh, linux启动过程分析,加解压缩,java网络编程)

    回顾数据库mysql的备份和恢复: show databases; user spdb1; show tables; 在mysql/bin目录下 执行备份: ./mysqldump -u root - ...

  5. Activity启动过程分析

    Android的四大组件中除了BroadCastReceiver以外,其他三种组件都必须在AndroidManifest中注册,对于BroadCastReceiver来说,它既可以在AndroidMa ...

  6. Spark Streaming应用启动过程分析

    本文为SparkStreaming源码剖析的第三篇,主要分析SparkStreaming启动过程. 在调用StreamingContext.start方法后,进入JobScheduler.start方 ...

  7. ActivityManagerService启动过程分析

    之前讲Android的View的绘制原理和流程的时候,讲到过在Android调用setContentView之后,Android调用了一个prepreTravle的方法,这里面就提到了Activity ...

  8. Disconf源码分析之启动过程分析下(2)

    接上文,下面是第二次扫描的XML配置. <bean id="disconfMgrBean2" class="com.baidu.disconf.client.Dis ...

  9. Service启动过程分析

    Service是一种计算型组件,用于在后台执行一系列的计算任务.由于工作在后台,因此用户是无法直接感知到它的存在.Service组件和Activity组件略有不同,Activity组件只有一种运行模式 ...

随机推荐

  1. ADSL 动态IP拨号VPS 软件配置

    http://yun.baidu.com/share/link?uk=2520566727&shareid=330788421&third=0&adapt=pc&fr= ...

  2. Appium定位方式总结

    通过appium-desktop定位元素 ClassName Android Android的class属性对应ClassName定位方式,ClassName一般都是会重复的,可以通过index来获取 ...

  3. jfinal定时任务插件jfinal-quartz

    这个定时任务插件精确的时间可以到秒,使用方面跟jfinal-scheduler插件的使用方式差不多 Dreampie/jfinal-quartz https://github.com/Dreampie ...

  4. Maven的assembly插件实现自定义打包部署(包含依赖jar包)

    微服务必备 优点: 1.可以直接导入依赖jar包 2.可以添加插件启动 .sh 文件 3.插件的配置以及微服务的统一打包方式 1.首先我们需要在pom.xml中配置maven的assembly插件 & ...

  5. Controller:EOS区块链核心控制器

    Controller是EOS区块链的核心控制器,其功能丰富.责任重大. 关键字:EOS,区块链,controller,chainbase,db,namespace,using,信号槽,fork_dat ...

  6. Docker国内仓库和镜像

    由于网络原因,我们在pull Image 的时候,从Docker Hub上下载会很慢...所以,国内的Docker爱好者们就添加了一些国内的镜像(mirror),方便大家使用. 一.国内Docker仓 ...

  7. 【杂谈】对IO与NIO的认识

    IO流与NIO块的数据缓存 Java的IO是面向流设计的,通常我们通过IO流读取数据,只能指定读取数据的大小,而不能选择数据读取的起始位置.数据就像流水一样,流过我们的应用,一旦流过就无法回头.除非我 ...

  8. javascript中的iterable

    遍历Array可以采用下标循环,遍历Map和Set就无法使用下标.为了统一集合类型,ES6标准引入了新的iterable类型,Array.Map和Set都属于iterable类型. 具有iterabl ...

  9. Maven教程2(Eclipse配置及maven项目)

    Maven教程1(介绍安装和配置) Eclipse中配置maven 1.Eclipse中默认集成的有Maven 可以使用默认的,本地仓库在当前用户下的.m2文件夹下. 2.配置我们自己安装的maven ...

  10. HashMap源码解读(JDK1.7)

    哈希表(hash table)也叫散列表,是一种非常重要的数据结构,应用场景及其丰富,许多缓存技术(比如memcached)的核心其实就是在内存中维护一张大的哈希表,而HashMap的实现原理也常常出 ...