《大数据技术应用与原理》第二版-第三章分布式文件系统HDFS
3.1分布式文件
- HDFS默认一个块的大小是64MB,与普通文件不同的是如果一个文件小于数据块的大小,它并不占用整个数据块的存储空间。
- 主节点又叫名称节点;另一个叫从节点又叫数据节点。名称节点负责文件和目录的创建、删除和重命名,同时管理数据节点和文件块的映射关系。数据节点负责数据存储和读取。
3.2HDFS的相关概念
- MapReduce中的map一次只处理一个块中的数据。HDFS抽象块的概念可以带来一下好处:
- 支持大规模文件存储
- 简化系统
- 适合数据备份
- 名称节点在启动过程中处于安全模式,只对外提供读操作,无法提供写操作。启动过程结束后,系统会退出安全模式,就可以对外界提供读写操作。
- 名称节点中保存两个核心数据结构FsImage和EditLog
- 第二名称节点,解决EditLog逐渐变大带来的问题,两个功能EditLog与FsImage的合并操作;作为名称节点的检查点,注意是冷备份。
3.4HDFS体系结构
- 采用主从模型,在整个HDFS集群中只有一个命名空间,并且只有唯一一个名称节点。
- HDFS通信协议是建立在TCP/IP协议上面的,并使用客户端协议与名称节点进行交互,名称节点和数据节点之间则使用数据节点协议进行交互。客户端与数据节点交互是通过RPC来实现的。
- 因为只设置了一个名称节点,存在局限性。
- 命名空间的限制
- 性能的瓶颈
- 隔离问题
- 集群的可用性
- HDFS的存储原理
- 数据冗余存储,具有以下优点;加快数据传输速度;容易检查数据错误;保证数据的可靠性
- 数据存取策略,包括数据存储、数据读取(就近原则,HDFS提供一个API可以确定数据节点所属的机架ID)、数据复制(采用流水线复制策略)。
- 数据错误与恢复,名称节点出错(一是通过两个核心数据结构,而是通过第二名称节点);数据节点出错;数据出错
3.6HDFS数据读写过程
HDFS的读过程,图片

- HDFS的写过程,图片
- 创建文件请求
- 创建文件元数据
- 写入数据
- 写入数据包(包括了流水线复制)
- 接收确认数据包
- 关闭文件
- 写操作完成
hadoop fs(用作任何文件系统,比如本地文件系统和HDFS文件系统)hadoop dfs(只适用于HDFS文件系统)hdfs dfs(也只适用于HDFS文件系统)
《大数据技术应用与原理》第二版-第三章分布式文件系统HDFS的更多相关文章
- 《大数据技术应用与原理》第二版-第二章大数据处理架构Hadoop
2.1概述 Hadoop是Apache旗下的开源分布式计算平台,是基于Java开发的,具有很好的跨平台特性,其中核心文件是MapReduce和HDFS,而HDFS是根据谷歌文件系统GFS开源实现,是面 ...
- 大数据技术之HBase原理与实战归纳分享-中
@ 目录 底层原理 Master架构 RegionServer架构 Region/Store/StoreFile/Hfile之间的关系 写流程 写缓存刷写 读流程 文件合并 分区 JAVA API编程 ...
- 大数据技术之HBase原理与实战归纳分享-上
@ 目录 概述 定义 特点 数据模型 概述 逻辑结构 物理存储结构 数据模型 应用场景 基础架构 安装 前置条件 部署 启动服务 高可用 Shell操作 基础操作 命令空间 DDL DML 概述 定义 ...
- Laxcus大数据管理系统2.0(5)- 第三章 数据存取
第三章 数据存取 当前的很多大数据处理工作,一次计算产生几十个GB.或者几十个TB的数据已是正常现象,驱动数百.数千.甚至上万个计算机节点并行运行也已经不足为奇.但是在数据处理的后面,对于这种在网络间 ...
- CSAPP深入理解计算机系统(第二版)第三章家庭作业答案
<深入理解计算机系统(第二版)>CSAPP 第三章 家庭作业 这一章介绍了AT&T的汇编指令 比较重要 本人完成了<深入理解计算机系统(第二版)>(以下简称CSAPP) ...
- Hadoop第三天---分布式文件系统HDFS(大数据存储实战)
1.开机启动Hadoop,输入命令: 检查相关进程的启动情况: 2.对Hadoop集群做一个测试: 可以看到新建的test1.txt和test2.txt已经成功地拷贝到节点上(伪分布式只有一个节 ...
- 大数据技术之HBase原理与实战归纳分享-下
@ 目录 整合Phoenix 定义 为何要使用 安装 SHELL操作 表的映射 简易JDBC示例 二级索引 二级索引配置文件 全局索引 包含索引 本地索引(local index) HBase与 Hi ...
- 大数据技术 - 通俗理解MapReduce之WordCount(三)
上一章我们编写了简单的 MapReduce 程序,掌握这些就能编写大多数数据处理的代码.但是 MapReduce 框架提供给用户的能力并不止如此,本章我们仍然以上一章 word count 为例,继续 ...
- 大数据技术之kettle(2)——练习三个基本操作
一.同一数据库两表数据关联更新 实现效果:把stu1的数据按id同步到stu2,stu2有相同id则更新数据 步骤: 1.在mysql中创建两张表: mysql>create database ...
随机推荐
- Android 项目优化(二):启动页面优化
一.启动页黑屏的问题 1.1 问题现象描述 Android App 启动页面黑屏的问题,现象表现为:Android 开发 App 启动时若没有做特殊处理的话,会出现一瞬间的白屏现象.即使启动页界面就加 ...
- iOS开发中全量日志的获取
我们在app中对崩溃.卡顿.内存问题进行监控.一旦监控到问题,我们就需要记录下来,但是,很多问题的定位仅靠问题发生的那一刹那记录的信息是不够的,我们需要记录app的全量日志来获取更多的信息. 一,使用 ...
- sql server数据库查询取出重复数据记录
问题:博主在2011年6月,广东技术师范大学大四的时候,从学校计算机科学学院网站看到招聘信息并到广东中原地产IT部面试,很清楚记得当时的面试题目:怎么从数据库里面查询重复记录. 解决方案:在sql s ...
- s3c2440裸机-代码重定位(2.编程实现代码重定位)
代码重定位(2.编程实现代码重定位) 1.引入链接脚本 我们上一节讲述了为什么要重定位代码,那么怎么去重定位代码呢? 上一节我们发现"arm-linux-ld -Ttext 0 -Tdata ...
- Python 获取MD5加密值
Python 获取MD5加密值方法封装 import hashlib def get_md5(s): """获取MD5加密值 :param s: 需要加密的字符串 :re ...
- nova安装与配置
一.实验目的: 1.理解nova服务在OpenStack中的作用 2.掌握在控制节点上安装配置nova的方法和步骤 3.掌握在计算节点上安装与配置nova的方法和步骤 二.实验步骤: 1.在contr ...
- Ribbon负载均衡及Feign消费者调用服务
微服务调用Ribbon 简介 前面讲了eureka服务注册与发现,但是结合eureka集群的服务调用没讲. 这里的话 就要用到Ribbon,结合eureka,来实现服务的调用: Ribbon是Netf ...
- TKinter当Label绑定bind事件时传参方法
记录下tkinter的 当在label绑定bind事件时,遇到需要传参时的解决方法(因为有event存在 所以不能直接传参) https://www.cnblogs.com/liyuanhong/ar ...
- 【Springboot】spring-boot-starter-redis包报错 :unknown
springboot集成redis时,引入spring-boot-starter-redis包报错,maven找不到这个资源.如下图: 我的项目中,spring boot是 用的2.0.4版本.spr ...
- ansible执行带有环境变量的脚本不生效
1背景 jenkins发布时,使用ansible执行远程主机上的启动tomcat脚本发现不生效,启动tomcat的脚本中有环境变量. ansible主机为:172.16.35.8 tomcat服务器为 ...