hadoop学习之HDFS原理

HDFS原理

HDFS包括三个组件：

NameNode、DataNode、SecondaryNameNode

NameNode的作用是存储元数据（文件名、创建时间、大小、权限、与block块映射关系等）
DataNode的作用是存储真实数据信息
SecondaryNameNode作用合并edits和fsimage文件

hadoop.tmp.dir -> /tmp/hadoop-root

dfs.namenode.dfs.dir ->/dfs/name/current

see_txid :操作事务id, 编号，用于显示操作次数，每次操作自增1

VERSION：显示namespaceID clusterID

修改namenode的存储位置：

　　　　<name>dfs.replication</name>

　　　　<name>dfs.namenode.name.dir<name>

　　　　<value>/opt/module/hadoop-2.6.0/data</value>

　　</property>

</configuration>

dfs.datanode.data.dir -> /tmp/hadoop-root/dfs/data

修改datanode的存储目录

　　　　<name>dfs.replication</name>

　　　　<name>dfs.datanode.data.dir<name>

　　　　<value>/opt/module/hadoop-2.6.0/data</value>

　　</property>

</configuration>

修改secondarynamenode的目录

file://${hadoop.tmp.dir}/dfs/namesecondary

重新格式化

hdfs namenode -format -force

多次格式化namenode的问题解释

hdfs格式化会改变VERSION文件中的clusterID,首次格式化时datannode和namenode会产生相同的clusterID;

如果重新执行格式化，namenode的 clusterID会改变，就会与datanode的clusterID不一致，如果重新启动或读写hdfs就会挂掉

需要手动修改

DataNode

　　数据存储：在hdfs-site.xml的dfs.datanode.data.dir属性配置中

　　存储内容：数据本身和数据长度，校验和以及时间戳

　　文件块(Block):基本的存储单元，默认大小是128M,通过dfs.blocksize属性配置

　　副本策略：默认是3哥，通过dfs.replication属性配置

　　第一个block副本放在与client所在的机器里，（如果client不在集群的范围内，则这第一个node是随机选取的，当然系统会尝试不选择哪些太忙或太满的node）

　　第二个block副本放置在与第一个节点不同机架的node中（随机选择）

　　第三个副本和第二个在同一机架，随机放在不同的node中

　　如果还有更多副本就随机放在集群的node里

DataNode与Namenode通信

<1>DataNode启动后向NameNode注册，注册后会周期性（1小时）向NameNode上报块信息(BlockReport)

BlockReport: Block与Datanode的映射关系(第二映射关系)

说明：blockreport作用，DataNode通过上传块报告能更新NameNode内存中的映射关系（哪个地方坏了，不能使用了）

<2>心跳机制:3s 发送心跳给Namenode,心跳带有NameNode下发给DataNode的命令

超过10分钟，datanode未给namendoe发送心跳，这认为该节点不可用

SecondaryNameNode(SNN)执行流程

<1>周期性向NameNode发送请求edits和fsimage文件

<2>请求完成后，NameNode将edits文件转成edits.new文件

<3>NameNode将fsimage文件加载到内存，合并edits和fsimage文件，命名为fsimage.ckpt

<4>SecondaryNmaeNode将文件发送给NameNode

<5>NameNode用新的fsimage.ckpt替换旧的fsimage,重命名edits.new为edits文件

hadoop学习之HDFS原理的更多相关文章

hadoop学习(五)----HDFS的java操作
前面我们基本学习了HDFS的原理,hadoop环境的搭建,下面开始正式的实践,语言以java为主.这一节来看一下HDFS的java操作. 1 环境准备上一篇说了windows下搭建hadoop环境, ...
Hadoop学习笔记—HDFS
目录搭建安装三个核心组件安装配置环境变量配置各上述三组件守护进程的相关属性启停监控和性能 Hadoop Rack Awareness yarn的NodeManagers监控命令 hdf ...
Hadoop学习笔记-HDFS命令
进入 $HADOOP/bin 一.文件操作文件操作类似于正常的linux操作前面加上“hdfs dfs -” 前缀也可以写成hadoop而不用hdfs,但终端中显示 Use of this scr ...
Hadoop学习笔记---HDFS
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统.HDFS是一个高度容错性的系统,适合部署在廉价的机器上.HDFS能提供高吞吐 ...
hadoop学习(二)----HDFS简介及原理
前面简单介绍了hadoop生态圈,大致了解hadoop是什么.能做什么.带着这些目的我们深入的去学习他.今天一起看一下hadoop的基石--文件存储.因为hadoop是运行与集群之上,处于分布式环境之 ...
[Hadoop]Hadoop章2 HDFS原理及读写过程
HDFS(Hadoop Distributed File System )Hadoop分布式文件系统. HDFS有很多特点: ① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复.默认存3份. ② ...
hadoop学习记录--hdfs文件上传过程源码解析
本节并不大算为大家讲接什么是hadoop,或者hadoop的基础知识因为这些知识在网上有很多详细的介绍,在这里想说的是关于hdfs的相关内容.或许大家都知道hdfs是hadoop底层存储模块,专门用于 ...
hadoop学习之HDFS
1.什么是大数据?什么是云计算?什么是hadoop? 大数据现在很火,到底什么是大数据,多大的数据才算大,一般而言对于TB级以上的数据我们成为大数据,对于这些数据它的价值在哪?大数据的价值就是我们大量 ...
hadoop学习(七)----mapReduce原理以及操作过程
前面我们使用HDFS进行了相关的操作,也了解了HDFS的原理和机制,有了分布式文件系统我们如何去处理文件呢,这就的提到hadoop的第二个组成部分-MapReduce. MapReduce充分借鉴了分 ...

随机推荐

Java集合Map基本方法
jdk1.7 api中的方法摘要: 参考java集合大全图:https://www.cnblogs.com/xkzhangsanx/p/10889114.html Map为所有Map子类的接口.
python高级编程——网络编程（三）
TCP和并发服务器与UDP不同的是,他是一个面向连接的,可靠的数据传输协议 TCP通信比较复杂先写一个TCP服务器,一般步骤如下: 1.首先是要创建一个socket套接字:socket() 2.服 ...
Object.freeze
Object.freeze() 方法可以冻结一个对象.一个被冻结的对象再也不能被修改:冻结了一个对象则不能向这个对象添加新的属性,不能删除已有属性,不能修改该对象已有属性的可枚举性.可配置性.可写性, ...
Android Xutils3 完全解析
1.先来认识一下xUtils3 1)xUtils3简介 xUtils是基于Afinal开发的目前功能比较完善的一个Android开源框架,最近又发布了xUtil3.0,在增加新功能的同时又提高了框架的 ...
Spark MLlib基本算法【相关性分析、卡方检验、总结器】
一.相关性分析 1.简介计算两个系列数据之间的相关性是统计中的常见操作.在spark.ml中提供了很多算法用来计算两两的相关性.目前支持的相关性算法是Pearson和Spearman.Correla ...
vmware关闭嘟嘟嘟嘟警告
在使用VMware workstation时,安装的windows或者Linux遇到错误操作时,会发生刺耳的嘟嘟声.如何关闭呢?在VMware虚拟机windows系统中的命令提示符处键入以下命令, 然 ...
Python之路(第四十七篇) 协程:greenlet模块\gevent模块\asyncio模块
一.协程介绍协程:是单线程下的并发,又称微线程,纤程.英文名Coroutine.一句话说明什么是线程:协程是一种用户态的轻量级线程,即协程是由用户程序自己控制调度的. 协程相比于线程,最大的区别在于 ...
centos7安装docker-compose报错解决办法
docker-compose是 docker 容器的一种单机编排服务,docker-compose 是一个管理多个容器的工具,比如可以解决容器之间的依赖关系,当在宿主机启动较多的容器时候,如果都是 ...
opencart 3伪静态seo url设置教程
opencart 3已经为我们做好了url伪静态功能,我们只要做一些简单的设置就能实现seo url,首先开启伪静态功能,看看文件.htaccess事发后有存在如下规则,如果没有需要先添加下面的代码 ...
重新学习Spring注解——AOP
面向切面编程——思想:在一个地方定义通用功能,但是可以通过声明的方式定义这个功能要以何种方式在何处运用,而无须修改受影响的类. 切面:横切关注点可以被模块化为特殊的类. 优点: 1.每个关注点都集中在 ...

hadoop学习之HDFS原理

hadoop学习之HDFS原理的更多相关文章

随机推荐

热门专题