【Hadoop学习】中:HDFS、shell操作、客户端API操作、数据流、1NN、2NN原理、DataNode配置
一、概述
1、背景、定义、使用场景(一次写入、不支持修改)
2、优(容错)缺点(延迟、不支持小文件、不支持修改)
3、组成架构
NameNode:Master,管理命名空间、配置策略
DataNode:slave,执行数据读写操作
Client:使用命令访问和交互
SecondNameNode:辅助分担namenode的工作量、恢复namenode
4、HDFS文件块大小
分块存储,默认128M(寻址时间为传输时间的1%),块大小取决于磁盘传输速率
二、HDFS的shell操作
1、基本语法:bin/hadoop fs 或 bin/hadoop dfs
2、常见操作:
启动集群(sbin/start-dfs / yarn.sh)
上传文件:hadoop fs -moveFromLocal ./kongming.txt /sanguo/shuguo【剪切、复制】
追加到文件:hadoop fs -appendToFile liubei.txt /sanguo/shuguo/kongming.txt
下载:合并下载hadoop fs -getmerge /user/atguigu/test/* ./zaiyiqi.txt
3、hdfs直接操作
hadoop fs -mkdir
-chgrp 、-chmod、-chown、-tail显示末尾、-du统计信息、-setrep设置副本数量
三、HDFS客户端操作
1、客户端创建目录:fs.mkdirs(new Path("/1108/daxian/banzhang"));
2、API操作
文件上传:设置路径参数的优先级
文件下载:fs.copyToLocalFile
文件夹删除:fs.delete
文件名更改:fs.rename
获取文件详情:fs.listFiles
判断文件/文件夹:fs.listStatus
四、HDFS的数据流
1、写数据
向NameNode请求上传
通过packet逐级应答客户端
依次上传每个block的数据
节点距离:两个节点到达最近的共同祖先的距离总和。
2、读数据
向NameNode请求下载
查询元数据,获得对应的DataNode
packet方式传输数据给客户端
五、NameNode和Second NameNode
1、1 NN和2NN的工作机制
Fsimage和Edits文件存储namenode的元数据
NameNode节点断电,就会产生数据丢失
添加元数据时,修改内存中的元数据并追加到Edits【只追加,效率高】
二者合并,合成元数据【使用2NN完成二者合并】
2、oiv和oev命令可以查看Fsimage和Edits文件
3、2NN的CheckPoint时间设置
配置:默认1小时
或一分钟检查一次,操作次数达到一万次时执行一次
4、NameNode故障处理
2NN数据拷贝(手动)
使用-importCheckpoint选项启动NameNode守护进程,自动实现2NN的数据拷贝
5、安全模式
开启后只读,不能进行写操作
使用命令执行:查看、进入、离开、等待
六、DataNode
1、工作机制
周期性上报块信息到NN,
3秒一次心跳,10分钟未收到NN心跳表示节点不可用
2、数据完整性
周期验证CheckSum【数据一起发送的校验位】
3、掉线时限参数设置
hdfs-site.xml 配置文件中的heartbeat.recheck.interval、dfs.heartbeat.interval
4、服役新数据节点
克隆新主机,直接启动DataNode,即可关联集群
同时可以执行./start-balancer.sh实现数据均衡
5、退役旧数据节点
添加白名单的主机允许访问:vi dfs.hosts
需要配置hdfs-site.xml中的dfs.host属性
配置文件分发,刷新NN和ResourceManager节点
黑名单退役:
退役节点添加到:dfs.hosts.exclude中
配置文件分发:xsync hdfs-site.xml
刷新NN:hdfs dfsadmin -refreshNodes
yarn rmadmin -refreshNodes更新ResourceManager节点
6、Datanode多目录配置
每个目录存储的数据不一样

hdfs dfsadmin -refreshNodes
【Hadoop学习】中:HDFS、shell操作、客户端API操作、数据流、1NN、2NN原理、DataNode配置的更多相关文章
- HDFS shell命令行常见操作
hadoop学习及实践笔记—— HDFS shell命令行常见操作 附:HDFS shell guide文档地址 http://hadoop.apache.org/docs/r2.5.2/hadoop ...
- 【Hadoop学习】HDFS中的集中化缓存管理
Hadoop版本:2.6.0 本文系从官方文档翻译而来,转载请尊重译者的工作,注明以下链接: http://www.cnblogs.com/zhangningbo/p/4146398.html 概述 ...
- hadoop2.5.2学习及实践笔记(五)—— HDFS shell命令行常见操作
附:HDFS shell guide文档地址 http://hadoop.apache.org/docs/r2.5.2/hadoop-project-dist/hadoop-common/FileSy ...
- hadoop学习(五)----HDFS的java操作
前面我们基本学习了HDFS的原理,hadoop环境的搭建,下面开始正式的实践,语言以java为主.这一节来看一下HDFS的java操作. 1 环境准备 上一篇说了windows下搭建hadoop环境, ...
- hadoop笔记之hdfs shell操作
HDFS命令行操作 HDFS命令行操作 (以下是hadoop 1.x 版本的命令使用) 装好hadoop之前首先要进行一个格式化 hadoop namenode -format 运行之后,可以将文件夹 ...
- HDFS基础和java api操作
1. 概括 适合一次写入多次查询情况,不支持并发写情况 通过hadoop shell 上传的文件存放在DataNode的block中,通过linux shell只能看见block,看不见文件(HDFS ...
- Hadoop学习笔记—HDFS
目录 搭建安装 三个核心组件 安装 配置环境变量 配置各上述三组件守护进程的相关属性 启停 监控和性能 Hadoop Rack Awareness yarn的NodeManagers监控 命令 hdf ...
- HDFS 05 - HDFS 常用的 Java API 操作
目录 0 - 配置 Hadoop 环境(Windows系统) 1 - 导入 Maven 依赖 2 - 常用类介绍 3 - 常见 API 操作 3.1 获取文件系统(重要) 3.2 创建目录.写入文件 ...
- 【Hadoop学习】HDFS 短路本地读
Hadoop版本:2.6.0 本文系从官方文档翻译而来,转载请尊重译者的工作,注明以下链接: http://www.cnblogs.com/zhangningbo/p/4146296.html 背景 ...
- Hadoop学习笔记---HDFS
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统.HDFS是一个高度容错性的系统,适合部署在廉价的机器上.HDFS能提供高吞吐 ...
随机推荐
- 1.在 Kubernetes 在快速安装 Harbor
网址:https://www.qikqiak.com/post/harbor-quick-install/ 安装 Harbor Harbor 支持多种安装方式,源码目录下面默认有一个安装脚本(make ...
- 2022IDEA破解
注意 本教程适用于 IntelliJ IDEA 2022.1.2 以下所有版本,请放心食用~ 本教程适用于 JetBrains 全系列产品,包括 IDEA.Pycharm.WebStorm.Phpst ...
- 我的Vue之旅、05 导航栏、登录、注册 (Mobile)
第一期 · 使用 Vue 3.1 + TypeScript + Router + Tailwind.css 构建手机底部导航栏.仿B站的登录.注册页面. 代码仓库 alicepolice/Vue-05 ...
- PAT (Basic Level) Practice 1007 素数对猜想 分数 20
让我们定义dn为:dn=pn+1−pn,其中pi是第i个素数.显然有d1=1,且对于n>1有dn是偶数."素数对猜想"认为"存在无穷多对相邻且差为2的 ...
- day03-MySQL基础知识02
MySQL基础知识02 4.CRUD 数据库CRUD语句:增(create).删(delete).改(update).查(Retrieve) Insert 语句 (添加数据) Update 语句(更新 ...
- Node.js(三)Lodash
npm init -y(初始化项目) npm i --save lodash(引入lodash) const _=require("lodash"); let stus=[ {id ...
- sql语句优化小结
sql的优化技巧. 1.用join进行子查询的优化. 低效的子查询 select a.user_name,a.over,(select over from user2 b where a.user_n ...
- Python凯撒密码加解密
#凯撒密码第一个版本 #加密 pxpt=input("请输入明文文本:") for p in pxpt: if 'a'<=p<='z': print(chr(ord(' ...
- MyBatis的各种查询功能
1.查询一个实体类对象 /** * 根据用户id查询用户信息 * @param id * @return */ User getUserById(@Param("id") int ...
- 腾讯云短信SDK-精简版
/** * 腾讯云短信SDK-精简版 * 本模块使用-向腾讯云短信服务器发送请求 * @return json 腾讯服务器返回值-json字符串 */ private function send_sm ...