hadoop 初探之第二篇（杂谈）

NameNode：名称节点，主要功能在于实现保存文件元数据，这些元数据直接保存在内存中，为了保证元数据的持久性，而也会周期性的同步到磁盘上去。磁盘上的数据通常被称为元数据的映像数据 image file

以防万一，如果服务或机器崩溃了，它会基于Image File以及各个DateNode的报告信息重新生成元数据。

·Secondary NameNode：第二名称节点，NameNode在早期只有一个，后来提供了第二个名称节点Secondry NameNode ,万一主节点崩溃，secondary无非是将image file整合到本地实现快速启动节点而已，同时也能够对Namenode节点映像文件合并的功能，平时不提供任何节点的服务。

·HDFS DataNode：所有大数据都保存在数据节点上，我们称为DataNode

HDFS不支持FUSE挂载到本地，所以支持基于HDFS的AIP(HadoopAPI)来进行访问，因此必须自己去研发专用的命令行工具。

服务是如何在HDFS中写数据：

(1) 当我们创建一个数据时候，需要先向NameNode发起请求；

（2）NameNode收到请求之后，会告知HDFSDataNode，说明需要分别存储至什么位置，当报告返回回来之后，HDFS Client将对其发起写操作请求；

（3）NameNode会为HDFS Client会分配一个DataNode数据节点；

（4）数据节点可能是多个，但HDFS Client却无知这一点，只需要向其一节点发起写操作即可；

（5）第一个数据节点datanode 接到请求之后，自行将数据复制到其它节点

（#一个数据块报文为64k 于是其按报文逐一开始存放）

（为了保证数据可用性以及降低集群的成本，hadoop是工作在商用计算机硬件（说白了就是服务器或专业级存储），而且服务器不需要做RAID,它会在磁盘上自行存储多个副本，而且是在不同主机上）

（6）每个数据块存储结束之后，数据节点DataNode都要向Namenode报告存储完毕，接着存放下一个数据块然后报告。。。以此类推；

（7）一旦所有数据都存储完成，NameNode会保存一个列表，记录着数据的副本保存在哪个数据节点上。

如何在HDFS中读取数据:

比如文件file1 分别存储在 D1 D2 D3 上，所以一旦有请求读取数据时，那么3个节点都有数据，那么该找谁去读取呢？如上图所示：

当客户端要请求访问某个数据块的时候，一个数据块可能在多个节点都有，那么所以这时候名称节点NameNode会告知它第一个块或文件分别存储在D1 D2 D3 这么3个节点上，那么我们的客户端将会去第一个节点datanode1上去取数据，datanode1接到请求，将数据返回给客户端，假如中途出现中断的情况，那么客户端则去找datanode2，datanode2接到请求后如果有数据那么则将数据返回给用户

其实用户请求的为列表，告知的节点上都存在同样的数据；

如果用户请求存放某大文件，那么会被分割为报文，以报文形式存储到datanode 再由datanode相互复制从而达到并行存储；

同样，也可以并行去读取文件，如果某台数据节点出现问题，那么肯定会导致数据不统一，所以每个datanode每隔3秒钟会向namenode报告自己的心跳信息、所持有的数据块的列表，如果超过阀值则将移除可用列表

在向namenode报告时候为了避免报告出错，还要检验一次数据块是否有问题，如果没有问题则报告，如果namenode没有接到其报告信息，则认为这个数据块缺少副本，并找将报告的完整副本完全复制到其故障节点上

hadoop 初探之第二篇（杂谈）的更多相关文章

Hadoop环境搭建|第二篇：hadoop环境搭建
硬件配置:1台NameNode节点.2台DataNode节点一.Linux环境配置这里我只配置NameNode节点,DataNode节点的操作相同. 1.1.修改主机名命令:vi /etc/sy ...
Hadoop初探
本文转自:https://blog.csdn.net/column/details/14334.html 前言 Hadoop是什么? 用百科上的话说:“Hadoop是一个由Apache基金会所开发的分 ...
跟我学SpringCloud | 第二篇：注册中心Eureka
Eureka是Netflix开源的一款提供服务注册和发现的产品,它提供了完整的Service Registry和Service Discovery实现.也是springcloud体系中最重要最核心的组 ...
EnjoyingSoft之Mule ESB开发教程第二篇：Mule ESB基本概念
目录 1. 使用Anypoint Studio开发 2. Mule ESB Application Structure - Mule ESB应用程序结构 3. Mule ESB Application ...
[ 高并发]Java高并发编程系列第二篇--线程同步
高并发,听起来高大上的一个词汇,在身处于互联网潮的社会大趋势下,高并发赋予了更多的传奇色彩.首先,我们可以看到很多招聘中,会提到有高并发项目者优先.高并发,意味着,你的前雇主,有很大的业务层面的需求, ...
从0开始搭建SQL Server AlwaysOn 第二篇（配置故障转移集群）
从0开始搭建SQL Server AlwaysOn 第二篇(配置故障转移集群) 第一篇http://www.cnblogs.com/lyhabc/p/4678330.html第二篇http://www ...
(转)从0开始搭建SQL Server AlwaysOn 第二篇（配置故障转移集群）
原文地址: http://www.cnblogs.com/lyhabc/p/4682028.html 这一篇是从0开始搭建SQL Server AlwaysOn 的第二篇,主要讲述如何搭建故障转移集 ...
深入理解javascript对象系列第二篇——属性操作
× 目录 [1]查询 [2]设置 [3]删除[4]继承前面的话对于对象来说,属性操作是绕不开的话题.类似于“增删改查”的基本操作,属性操作分为属性查询.属性设置.属性删除,还包括属性继承.本文是对 ...
前端工程师技能之photoshop巧用系列第二篇——测量篇
× 目录 [1]测量信息 [2]实战 [3]注意事项前面的话前端工程师使用photoshop进行的大量工作实际上是测量.本文是photoshop巧用系列第二篇——测量篇测量信息在网页制作中需要 ...

随机推荐

pom.xml错误：org.codehaus.plexus.archiver.jar.Manifest.write(java.io.PrintWriter)的解决方法
pom.xml文件在添加了新的依赖后,一直报:org.codehaus.plexus.archiver.jar.Manifest.write(java.io.PrintWriter)的错误,Maven ...
java.lang.NoClassDefFoundError: org/hibernate/service/ServiceRegistry] 类似问题
使用Hibernate时出现以上错误,在Java Project中运行无误,但是来到Dynamic Web Project中却出现了如下错误: hibernate 报错:java.lang.NoCla ...
C#_连接数据库实现登录注册界面
//编写登录界面逻辑 using System; using System.Collections.Generic; using System.ComponentModel; using System ...
非常强力的reduce
Array 的方法 reduce 是一个有非常多用处的函数. 它一个非常具有代表性的作用是将一个数组转换成一个值.但是你可以用它来做更多的事. 1.使用"reduce"代替&quo ...
Spring IOC 容器
<bean name="userBean" class="com.nuts.demo.spring.UserBean"> <property ...
详细讲解安全升级MySQL的方法
MySQL升级是非常必要的. 我们在Percona Support上列出了关于MySQL升级最佳实践的各种问题.这篇文章推荐了一些不同情况下升级MySQL的方法. 为什么MySQL升级是必须的? 原因 ...
如何定制Gtk版Emacs的Widget外观
当我们使用 xlib 版的Emacs时,可以通过 XResource 定义 Emacs 的菜单栏.工具条.滚动条的外观. 现在,在Linux上我们大多使用 gtk版的Emacs,是否还有办法定义 E ...
BZOJ1822 Frozen Nova 冷冻波
1822: [JSOI2010]Frozen Nova 冷冻波 Time Limit: 10 Sec Memory Limit: 64 MB Description WJJ喜欢“魔兽争霸”这个游戏. ...
HDU 1171 Big Event in HDU(01背包)
题目链接题意:给出n个物品的价值v,每个物品有m个,设总价值为sum,求a,b.a+b=sum,且a尽可能接近b,a>=b. 题解:01背包. #include <bits/stdc++ ...
Chrome 清除某个特定网站下的缓存
打开开发者工具(F12),选择 Network--Disable cache 即可.需要清除某网站缓存时 F12 打开开发者工具就会自动清除这个网站的缓存,而不必清除所有网站的缓存了.

hadoop 初探之第二篇（杂谈）

hadoop 初探之第二篇（杂谈）的更多相关文章

随机推荐

热门专题