HDFS免重启挂载新磁盘
背景
在生产环境中,集群节点磁盘大小不同,其使用率也会不同,HDFS虽有均衡策略,但也会有数据不平衡的情况,有些节点磁盘就会被打满,然后这个节点就不健康了(Unhealthy Nodes),Yarn的磁盘阈值检查(yarn.nodemanager.disk-health-checker.min-healthy-disks),默认是90%,超过这个值就会不健康,集群有个节点不健康,就会导致任务运行缓慢,之后任务再挤压,Yarn资源被集中占用,最终影响上层服务。
问题
磁盘空间不足,待扩容,可动态增删磁盘
yarn资源不足,待优化,可动态调整
本篇内容只添加新磁盘,yarn资源优化我们在另一篇文章再专门详解。
官方说明
DataNode Hot Swap Drive
Datanode supports hot swappable drives. The user can add or replace HDFS data volumes without shutting down the DataNode. The following briefly describes the typical hot swapping drive procedure:
If there are new storage directories, the user should format them and mount them appropriately.
The user updates the DataNode configuration
dfs.datanode.data.dirto reflect the data volume directories that will be actively in use.The user runs
dfsadmin -reconfig datanode HOST:PORT startto start the reconfiguration process. The user can usedfsadmin -reconfig datanode HOST:PORT statusto query the running status of the reconfiguration task.Once the reconfiguration task has completed, the user can safely
umountthe removed data volume directories and physically remove the disks.
经过谷歌翻译如下:
DataNode 热插拔驱动器
Datanode 支持热插拔驱动器。用户可以在不关闭 DataNode 的情况下添加或替换 HDFS 数据卷。下面简要介绍典型的热插拔驱动器过程:
如果有新的存储目录,用户应该格式化它们并适当地挂载它们。
用户更新 DataNode 配置
dfs.datanode.data.dir以反映将被积极使用的数据卷目录。用户运行
dfsadmin -reconfig datanode HOST:PORT start来启动重新配置过程。用户可以使用dfsadmin -reconfig datanode HOST:PORT status查询重配置任务的运行状态。重新配置任务完成后,用户可以安全地卸载已移除的数据卷目录并物理移除磁盘。
我们先说添加新的磁盘,大意就是不需要重启任何节点,在需要添加磁盘的节点上,添加好磁盘,这个需要运维操作,就是挂载一个新目录,文档中是说要配置DataNode的目录,这里我们建议加上NameNode的目录dfs.namenode.name.dir,然后再执行一个使配置生效的命令,最后查看配置状态。
具体操作
这里假设已有集群,需要加磁盘的节点为node2。运维也已经帮我们挂载好磁盘,新磁盘目录为/data2。
第一步:新增目录
在node2上添加新目录,数据目录和元数据目录
mkdir -p /data2/soft/hadoop/tmp/dfs/data
mkdir -p /data2/soft/hadoop/tmp/dfs/name
第二步:修改配置
修改节点node2的配置文件hdfs-site.xml,主要两个属性
修改前
<!--指定hdfs中namenode的存储位置-->
<property>
<name>dfs.namenode.name.dir</name>
<value>/data/soft/hadoop/tmp/dfs/name</value>
</property>
<!--指定hdfs中datanode的存储位置-->
<property>
<name>dfs.datanode.data.dir</name>
<value>/data/soft/hadoop/tmp/dfs/data</value>
</property>
修改后
<!--指定hdfs中namenode的存储位置-->
<property>
<name>dfs.namenode.name.dir</name>
<value>/data/soft/hadoop/tmp/dfs/name,/data2/soft/hadoop/tmp/dfs/name</value>
</property>
<!--指定hdfs中datanode的存储位置-->
<property>
<name>dfs.datanode.data.dir</name>
<value>/data/soft/hadoop/tmp/dfs/data,/data2/soft/hadoop/tmp/dfs/data</value>
</property>
第三步:使配置生效
重新配置DataNode的配置,使配置生效。
hdfs dfsadmin -reconfig datanode node2:50020 start
hdfs dfsadmin -reconfig datanode node2:50020 status
第四步:平衡数据
HDFS数据本身并不总是均匀的放置在DataNode中,在添加新磁盘后,我们需要重新平衡下数据,HDFS为我们提供了一个工具,可以分析数据块放的位置和跨 DataNode 重新平衡数据:balancer
hdfs balancer
[-threshold <threshold>]:磁盘容量百分百,判断集群是否平衡的目标参数,每一个 datanode 存储使用率和集群总存储使用率的差值都应该小于这个阀值,越小越平衡,默认10,越大平衡越快。
[-policy <policy>]:datanode(默认):如果每个数据节点都是平衡的,则集群是平衡的。blockpool:如果每个数据节点中的每个块池都是平衡的,则集群是平衡的。
[-exclude [-f <hosts-file> | <comma-separated list of hosts>]]:将指定的数据节点排除在平衡器的平衡之外。
[-include [-f <hosts-file> | <comma-separated list of hosts>]]:仅包括要由平衡器平衡的指定数据节点。
[-idleiterations <idleiterations>]:rebalanecing server启动的线程数,默认5。
平衡前操作
在平衡时受带宽影响,每个数据节点每秒使用的最大字节数是有限的,所以我们先临时设置这个值,此值会覆盖hdfs-site.xml中dfs.datanode.balance.bandwidthPerSec的值,默认是1M,本操作命令不会持久,命令如下:
hdfs dfsadmin -setBalancerBandwidth 104857600
其他值:1024*1024=1M(1048576),52428800=50M,104857600=100M
开始平衡
本次执行平衡命令,磁盘平衡目标数为20 nohup hdfs balancer -threshold 20 > balancer.log &
其他平衡命令
平衡所有节点 nohup hdfs balancer > balancer.log &
平衡指定节点,磁盘平衡目标数为10 nohup hdfs balancer -include node7,node9,node10,node11 -threshold 10 > balancer.log &
平衡指定节点,磁盘平衡目标数,启动线程数为10 nohup hdfs balancer -include node7,node9,node10,node11 -threshold 10 -idleiterations 10 > balancer.log &
注(可选):一般在平衡时,可以先停止存储比较高的节点上的NodeManager,这样在该节点上就不会受本地NodeManager落数据到本地,使得本地存储迅速增加的影响。
yarn-daemon.sh stop nodemanager yarn-daemon.sh start nodemanager
HDFS免重启挂载新磁盘的更多相关文章
- Linux查看与挂载新磁盘
问题 把CentOS都换成了Ubuntu Server(16.04 LTS),用df -h查看磁盘占用情况,确发现之前插入的一块大容量磁盘/dev/sdb1消失了.是磁盘坏了?还是没被系统识别? 解决 ...
- Linux系统挂载新磁盘
执行df -h 查看已挂载磁盘 未能找到挂载磁盘 1)使用fdisk -l命令查看主机上的硬盘 红圈标志为后挂载的磁盘未能挂载 2)使用mkfs.ext4命令把硬盘格式化: mkfs.ext4 /de ...
- CentOS 7 环境下挂载新磁盘
最近某个项目需要给数据库服务器添加磁盘,由于太久没搞过,就给虚拟机加了10G的空间,用来练习一下磁盘的挂载 一. 首先执行"fdisk -l"命令,查看磁盘信息 [root@loc ...
- linux挂载新磁盘、分区和开机自动挂载
今天在阿里云虚拟主机里新加了一块磁盘,需要单独挂载到centos7. 挂载过程中遇到了不少问题,记录如下: 查看分区 fdisk -l 其中第一个框和第二个框,是已经分好区的磁盘,第三个硬盘没有分区. ...
- Linux下挂载新磁盘
Linux的硬盘识别: 一般使用”fdisk -l”命令可以列出系统中当前连接的硬盘 设备和分区信息.新硬盘没有分区信息,则只显示硬盘大小信息. 1.关闭服务器加上新硬盘 2.启动服务器,以r ...
- linux系统维护时的一些小技巧,包括系统挂载新磁盘的方法!可收藏!
这里发布一些平时所用到的小技巧,不多,不过会持续更新.... 1.需要将history创建硬链接ln 全盘需要备份硬链接 ln /etc/xxx /home/xxx 2.root用户不可以远程 /et ...
- Virtualbox中Linux添加新磁盘并创建分区
原文:https://www.linuxidc.com/Linux/2017-01/139616.htm ----------------------------------------------- ...
- centos7挂载新加4T硬盘到/home目录
以下操作均在root环境下运行. 1.查看硬盘 # fdisk -l 发现硬盘为/dev/sdb 大小4T 2.如果此硬盘以前有过分区,则先对磁盘格式化: # mkfs -t ext4 /dev/sd ...
- Linux 在不重启的情况下识别新挂载的磁盘
在使用 Linux 时,有时候会因为初始时磁盘空间分配估计不足,使用中需要将挂载点扩容的情况,这就需要我们挂载新的磁盘.但是如果我们在 Linux 运行过程中挂载磁盘, Linux 又不能在不重启的情 ...
随机推荐
- Java的八大基本数据类型
Java的八大基本数据类型 前言 Bit是计算机存储数据的基本单元,bit叫做位,也被称作比特位. Byte意为字节,1Byte=1字节,一字节可以存储八个二进制位的数字, 即为1Byte=8bit. ...
- jsp标签 formatNumber、formatDate、parseNumber、parseDate的使用
引用本文的有关标签需要引用对应的标签库 <%--引入格式化动作标签库--%> <%@taglib prefix="fmt" uri="http://ja ...
- 使用idea时jsp中使用out.print();时报错的解决办法
在用Maven创建web项目时 在jsp页面中out.print();老是报错 这边print显示红色出错因为这边使用的是JSP的API并不是Servlet的,但是可以运行,所以我们只要导包就完事其实 ...
- [一]Cesium利其器——Visual Studio Code
Cesium中文网:http://cesiumcn.org/ | 国内快速访问:http://cesium.coinidea.com/ IDE Web前端刚入门的朋友,常常想选择一个快速.好用.流行( ...
- 推荐召回--基于物品的协同过滤:ItemCF
目录 1. 前言 2. 原理&计算&改进 3. 总结 1. 前言 说完基于用户的协同过滤后,趁热打铁,我们来说说基于物品的协同过滤:"看了又看","买了又 ...
- AOP-操作术语
AOP(术语) 1,连接点 类里面哪些方法可以被增强,这些方法称为连接点 2,切入点 实际被真正增强的方法,称为切入点 3,通知(增强) (1)实际增强的逻辑部分称为通知(增强) (2)通知有多种类型 ...
- 集合框架-ArrayList集合存储自定义对象
1 package cn.itcast.p3.arraylist.test; 2 3 import java.util.ArrayList; 4 import java.util.Iterator; ...
- 自动化部署:在Windows平台安装Jenkins
在软件开发中经常会提到持续集成Continuous Integration(CI)和持续交付Continuous Delivery(CD).其中Jenkins是一个开源软件项目,是基于Java开发的一 ...
- [源码分析] Facebook如何训练超大模型---(4)
[源码分析] Facebook如何训练超大模型 --- (4) 目录 [源码分析] Facebook如何训练超大模型 --- (4) 0x00 摘要 0x01 背景知识 1.1 单精度.双精度和半精度 ...
- 面渣逆袭:Java基础五十三问,快来看看有没有你不会的!
大家好,我是老三, 面渣逆袭 系列继续.这节我们回到梦开始的地方--Java基础,其实过了萌新阶段,面试问基础就问的不多,但是保不齐突然问一下.想一下,总不能张口高并发.闭口分布式,结果什么是面向对象 ...