借鉴：https://blog.csdn.net/mnasd/article/details/80369603?utm_source=blogxgwz2

参考文档：

http://blog.csdn.net/chilianyi/article/details/50946818

https://www.cloudera.com/documentation/enterprise/5-10-x/topics/admin_hdfs_balancer.html CDH官网文档

1.快速入门

当前存储集群的DN的空间占用率很不均衡，最大的使用率接近100%，最小的使用率不到35%。

为了平衡空间的占用率，我们在CDH上开启了“重新平衡”。

调用的脚本实际如下：

hdfs/hdfs.sh ["balancer","-threshold","10.0","-policy","DataNode”]

查看当前的进度条：

Successfully moved blk_1255414776_181709174 with size=134217728 from 172.16.16.66:50010:DISK to 172.16.16.39:50010:DISK through 172.16.16.219:50010

重新平衡并没有将空间占用率最高的DN优先执行。

2.命令行优化办法

查看hdfs balancer的命令如下：

[root@R720ip39 ~]# hdfs balancer -help

Usage: java Balancer

[-policy <policy>] the balancing policy: datanode or blockpool

[-threshold <threshold>] Percentage of disk capacity

[-exclude [-f <hosts-file> | comma-sperated list of hosts]] Excludes the specified datanodes.

[-include [-f <hosts-file> | comma-sperated list of hosts]] Includes only the specified datanodes.

为了更高效率的执行balancer操作，建议如下：

-threshold 30 设置越大，越快结束，并且优先解决DN占用率高的

参数含义：判断集群是否平衡的目标参数，每一个 datanode 存储使用率和集群总存储使用率的差值都应该小于这个阀值，理论上，该参数设置的越小，整个集群就越平衡，但是在线上环境中，hadoop集群在进行balance时，还在并发的进行数据的写入和删除，所以有可能无法到达设定的平衡参数值。

-include 包含如下的DN列表

dfs.balance.bandwidthPerSec 300MB（我们计算集群的设置）

参数含义：设置balance工具在运行中所能占用的带宽，设置的过大可能会造成mapred运行缓慢。

执行命令如下：

hdfs balancer -policy datanode -threshold 30 -include -f /tmp/hdfs-blancer.txt

3.CDH中优化balancer实例

在CDH中，balancer是通过如下实例实现的。

几个优化项：

优化一：Balancer阈值越高，需要平衡的量越少，DN占用率不够均衡；阈值越低，需要平衡的量越大， DN占有率越均衡；

优化二：增大Balancer的Java堆大小

优化三：高级配置：hdfs-site.xml 高级配置代码段（安全阀）

#在DataNode和balancer实例都需要配置

<name>dfs.datanode.balance.max.concurrent.moves</name>

</property>

#在balancer实例配置

<name>dfs.balancer.moverThreads</name>

</property>

<name>dfs.balancer.dispatcherThreads</name>

</property>

<name>dfs.balancer.max-size-to-move</name>

</property>

均衡block，执行start-balancer.sh

这个会非常耗时，但启动后不中断datanode服务执行，会占用带宽和资源。可调整balance执行性能：

1）如果不balance，那么cluster会把新的数据都存放在新的node上，这样会降低mapred的工作效率
2）设置平衡阈值，默认是10G[dfs.datanode.available-space-volume-choosing-policy.balanced-space-threshold=10737418240]。该属性表示当各datanode的空闲空间差异达到10G时，就认为不平衡，将触发datanode之间的balance，将空闲空间少的datanode的block向空闲空间多的datanode迁移，直到差异处于10G范围内。

值越低各节点越平衡，但消耗时间也更长。例如：start-balancer.sh -threshold 5

3）设置balance的带宽，默认只有1M/s [dfs.datanode.balance.bandwidthPerSec=1048576]

(转)hadoop balancer（重新平衡）的更多相关文章

优化Hadoop Balancer运行速度
(如果运行hbase的话建议为16384),指定用于在DataNode间传输block数据的最大线程数,老版本的对应参数为dfs.datanode.max.xcievers 2.修改dfs.datan ...
hadoop balancer
一.balancer是当hdfs集群中一些datanodes的存储要写满了或者有空白的新节点加入集群时,用于均衡hdfs集群磁盘使用量的一个工具.这个工具作为一个应用部署在集群中,可以由集群管理员在一 ...
Hadoop hadoop balancer配置
hadoop版本:2.9.2 1.带宽的设置参数: dfs.datanode.balance.bandwidthPerSec 默认值 10m 2.datanode之间数据块的传输线程大小:dfs. ...
Hadoop Balancer源代码解读
前言近期在做一些Hadoop运维的相关工作,发现了一个有趣的问题,我们公司的Hadoop集群磁盘占比数值參差不齐,高的接近80%.低的接近40%.并没有充分利用好上面的资源,可是balance的操作 ...
hadoop balancer 二
1.每次迭代一个datanode会移动不超过如下两者中较小的一个的数据量 1)10G 2)能力阈值 dfs.datanode.balance.bandwidthPerSec 每次迭代时间不会超过20分 ...
HADOOP命令介绍
一.用户命令1.archive命令 (1).什么是Hadoop archives?Hadoop archives是特殊的档案格式.一个Hadoop archive对应一个文件系统目录. Hadoop ...
Hadoop 2.0命令手册
1. FS Shell 1.1 简介调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args>的形式. 所有的的FS shell命令使用URI ...
大数据测试之hadoop命令大全
1.列出所有Hadoop Shell支持的命令 $ bin/hadoop fs -help2.显示关于某个命令的详细信息 $ bin/hadoop fs -help command-name3.用户可 ...
hadoop shell 详解
概述所有的hadoop命令均由bin/hadoop脚本引发.不指定参数运行hadoop脚本会打印所有命令的描述. 用法: hadoop [--config confdir] [COMMAND] ...

随机推荐

【转载】Response对象的作用以及常用方法属性
Response对象是Asp.Net应用程序中非常重要的一个内置对象,其作用为负责将服务器执行好的信息输出给客户端,即作用主要为响应客户端请求并将服务器的响应返回给用户,在页面的临时跳转中,也可使用R ...
va_start可变参数函数
void va_start(va_list ap, last); //变参起始地址 type va_arg(va_list ap, type); //下一个参数的地址 void va_end(va_l ...
SpringBoot properties和yml的区别
一.先附一个yml文件的解析步骤 1.Maven依赖 <dependency> <groupId>org.yaml</groupId> <artifactId ...
修改Linux命令：ls为例
Linux命令可以被修改,用于启动一些不起眼的程序. 操作方法如下: whereis ls cd /usr/bin mv ls ls_bak vim ls 新建的ls文件中 chmod +x ls c ...
【nodejs代理服务器三】nodejs注册windows服务
node-windows I no longer have enough time to properly maintain this project and am seeking a new pri ...
linux crontab 鉴定令牌不再有效，需要新的鉴定令牌 [ You (root) are not allowed to access to (crontab) because of pam configuration.]
用户root 解决方法: 用root用户,执行 chage -M 99999 root 更改有效期为99999天.
git 在不同服务器主机上同步 git 仓库
git 在不同服务器主机上同步 git 仓库参考链接:https://opentechguides.com/how-to/article/git/177/git-sync-repos.html 1. ...
ui自动化测试 SeleniumBase
ui自动化 SeleniumBase SeleniumBase是一个自动化web测试框架,它的设计pyse相似,基于selenium和unittest封装的框架,api多,支持命令行多参数执行文档地 ...
大数据之路week07--day03（Hadoop深入理解，JAVA代码编写WordCount程序，以及扩展升级）
什么是MapReduce 你想数出一摞牌中有多少张黑桃.直观方式是一张一张检查并且数出有多少张是黑桃. MapReduce方法则是: 1.给在座的所有玩家中分配这摞牌 2.让每个玩家数自己手中的牌有几 ...
MyCat（1.1）Mycat基本介绍
[1]学习目的 (1)掌握在数据库负载增大时的处理方法 (2)理解mycat的基础概念 (3)掌握mycat基础配置和监控方法 [2]Mycat的前世今生官网:http://mycat.io/ 下载 ...

(转)hadoop balancer（重新平衡）

1.快速入门

2.命令行优化办法

3.CDH中优化balancer实例

几个优化项：

(转)hadoop balancer（重新平衡）的更多相关文章

随机推荐

热门专题