Hadoop之 hdfs 系统

一、NameNode维护着2张表：

1.文件系统的目录结构，以及元数据信息

2.文件与数据块列表的对应关系

存放在fsimage中，在运行的时候加载到内存中的。

操作日志写到edits中

二、DataNode

使用block形式存储。在hadoop2中，默认的大小是128MB。

使用副本形式保存数据的安全，默认的数量是3个。

使用shell访问hdfs

bin/hdfs dfs –xxx

三、RPC(remote procedure call)

远程过程调用要有一个服务端(对外暴露方法供调用者使用)，要有一个客户端(主动调用方法)。

问题1：简述HDFS

答：1.HDFS是hadoop 的文件存储系统分布式存储，采用总分模式，在业界有一个2级映射的方式，1数据与分区的映射，2.分区与机器的映射。

2.数据存储是总分结构，有专门存储元数据的namenode ,有专门存储数据的datanode。数据在datanode中是以数据块block的形式存储的。数据与block 之间是一种映射，block 与节点datanode 之间是一种映射,这2个映射在namenode 中存储着,同事，namenode 还接受用户的请求，进行读或写操作的时候，虽然经过namenode 但最终要通过datenode读取。

3.Datanode有很多节点，这样才能扩大数据的存储。在生产环境中，一般通过副本方式保证数据的安全，工业上一般副本数量为3.

问题2：RPC 理解

RPC是一个远程过程调用，remote procedure call .在hadoop 中是指不同进程之间的通信，不同虚拟机之间的调用，通过代理机制实现，是一种CS的结构，C作为调用端发送请求调用服务端的接口。接口在服务端实现。当服务端接收到请求，然后去找相应的函数，然后将处理结果返回给客户端，而客户端一直挂起等待服务端的结果。服务端一直等待状态。

RPC在hadoop 中的体现：

Hadoop 整体体系是建立在rpc基础之上的。比如hdfs中，有客户端,服务端，

1 客户端（用户代码）与namenode 之间通过rpc通讯，客户端通讯所依赖的接口是clientprotocol ，通常调用一些方法，写，移动，列表等方法。

2.namenode与datanode 之间也是一种rpc机制,接口是datanodeprotocol ； namenode 作为客户端不同的发送心跳请求指的是datanodeprotocol中的heartbeat 方法,在这个方法中datanode把自己的状态信息（使用以及剩余信息）发送给namenode。

3. datanode 之间通讯也是rpc机制。

Hadoop之 hdfs 系统的更多相关文章

【Hadoop】HDFS - 创建文件流程详解
1.本文目的通过解析客户端创建文件流程,认知hadoop的HDFS系统的一些功能和概念. 2.主要概念 2.1 NameNode(NN): HDFS系统核心组件,负责分布式文件系统的名字空间管理.I ...
Hadoop之——又一次格式化hdfs系统的方法
转载请注明出处:http://blog.csdn.net/l1028386804/article/details/46352939 又一次格式化hdfs系统的方法: (1)查看hdfs-ste.xml ...
重新格式化hdfs系统的方法
重新格式化hdfs系统的方法: (1)查看hdfs-ste.xml <span style="font-size:18px;"><property> < ...
搭建maven开发环境测试Hadoop组件HDFS文件系统的一些命令
1.PC已经安装Eclipse Software,测试平台windows10及Centos6.8虚拟机 2.新建maven project 3.打开pom.xml,maven工程项目的pom文件加载以 ...
Hadoop操作hdfs的命令【转载】
本文系转载,原文地址被黑了,故无法贴出原始链接. Hadoop操作HDFS命令如下所示: hadoop fs 查看Hadoop HDFS支持的所有命令 hadoop fs –ls 列出目录及文件信息 ...
Hadoop学习-HDFS篇
HDFS设计基础与目标硬件错误是常态.因此需要冗余流式数据访问.即数据批量读取而非随机读写,Hadoop擅长做的是数据分析而不是事务处理(随机性的读写数据等). 大规模数据集简单一致性模型.为了 ...
非常不错 Hadoop 的HDFS （Hadoop集群（第8期）_HDFS初探之旅）
1.HDFS简介 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开 ...
Hadoop之HDFS及NameNode单点故障解决方案
Hadoop之HDFS 版权声明:本文为yunshuxueyuan原创文章.如需转载请标明出处: http://www.cnblogs.com/sxt-zkys/QQ技术交流群:299142667 H ...
Hadoop记录-hdfs转载
Hadoop 存档每个文件均按块存储,每个块的元数据存储在namenode的内存中,因此hadoop存储小文件会非常低效.因为大量的小文件会耗尽namenode中的大部分内存.但注意,存储小文件所需 ...

随机推荐

记录我开始学习 Git的路程
工作半年多了,总觉得没学到什么东西,于是乎找了个Git学习一下,感觉还蛮厉害的样子.为此记录下我的路程 2015,11,26 更新前面的路都挺艰难的,在官网下载msysgit网速几乎为0(心情千万只 ...
android之显示数据库信息
关键字 ListView adapter MVC 在android开发中也使用到了MVC架构,其中的xml布局文件就是V,M就是我们定义好的javabean类,而控制器就是就是适配器类adapter ...
tomcat发布项目时，localhost可以访问，用ip地址不能访问，同时其他电脑也不能访问。
最近在开发项目中,遇到的一个问题是:在 tomcat中发布一个web项目,但是发布成功后,只能用http://localhost:8080/aml访问项目,不能用http://172.0.0.1:80 ...
编译rnnlib
rnnlib,一个多年不更新的rnn库,编译的过程有点麻烦,好多东西要选特定版本的.这里记录一下我的配置脚本,在ubuntu14.04下测试ok. P.S fedora下好像不能直接用包管理来安装指定 ...
【BZOJ-2223】PATULJCI 可持久化线段树
2223: [Coci 2009]PATULJCI Time Limit: 10 Sec Memory Limit: 259 MBSubmit: 728 Solved: 292[Submit][S ...
BZOJ-3211花神游历各国并查集+树状数组
一开始想写线段树区间开方,简单暴力下,但觉得变成复杂度稍高,懒惰了,编了个复杂度简单的 3211: 花神游历各国 Time Limit: 5 Sec Memory Limit: 128 MB Subm ...
BZOJ1208 宠物收养所
Description 最近,阿Q开了一间宠物收养所.收养所提供两种服务:收养被主人遗弃的宠物和让新的主人领养这些宠物.每个领养者都希望领养到自己满意的宠物,阿Q根据领养者的要求通过他自己发明的一个特 ...
win7下面完全删除mysql
今天因为一些原因重装完成mysql的时候,在启动mysql服务的时候,一直卡死在哪快.最后整的都无语了. 在google里搜索:mysql安装失败 ,会找到一堆类似的问题汇总,其实上面说的方法都是正确 ...
groovy-脚本和类
在groovy中定义类和java中是一样的.类的方法可以是static,也可以是非static的. groovy中的方法可以是public, protected, private,同时也支持java中 ...
Beta版本——冲刺计划及安排
我说的都队 031402304 陈燊 031402342 许玲玲 031402337 胡心颖 03140241 王婷婷 031402203 陈齐民 031402209 黄伟炜 031402233 郑扬 ...

Hadoop之 hdfs 系统

Hadoop之 hdfs 系统的更多相关文章

随机推荐

热门专题