Hadoop记录-HDFS均衡脚本

#!/bin/bash

#作用：hdfs使用率取最大100个主机和最小80个主机进行数据均衡

#打印报告

hdfs dfsadmin -report>report.txt

#截取主机名

cat report.txt | grep -i "hostname" | awk -F ': ' '{print $2}' >hostname.txt

#截取hdfs使用率

cat report.txt | grep -i "DFS Used%" | awk -F ': ' '{print $2}' | awk -F '%' '{print $1}' >dfsused.txt

#截取datanode存活数

livenum=$(cat report.txt | grep -i "Live datanodes" | awk -F "(" '{print $2}' | awk -F ")" '{print $1}')

#删除总的hdfs使用率

sed -i '1d' dfsused.txt

#截取存活datanode的hdfs使用率和主机名

dfsarr=((sed -n '1,$livenum p' dfsused.txt))

hostarr=((sed -n '1,$livenum p' hostname.txt))

#组合主机名和hdfs使用率一一对应起来

let livenum+=1

if [ $livenum -gt  0 ]

then

   for((i=1;i<$livenum;i++))

   do

    for((j=1;j<$livenum;j++))

    do

      if [ $i -eq $j ]

      then

         echo  ${hostarr[$i]} ":" ${dfsarr[$j]} >> hostdfs.txt

      fi

    done

   done

else

    echo "Not Live DataNodes"

fi

#获取使用率最大100个主机名和最小80台主机名（按第二列排序）

sort -rn -k 2 -t : hostdfs.txt | awk -F ":" '{print $1}' | head -n 100 >>host.txt

sort -rn -k 2 -t : hostdfs.txt | awk -F ":" '{print $1}' | tail -n 80 >>host.txt

#求平均值和最大值进行比较

avg_used=$(cat hostdfs.txt | awk -F ":" '{print $2*100}' | awk '{sum+=$1} END {print sum/NR}')

max_used=$(cat hostdfs.txt | awk -F ":" '{print $2*100}' | sort -rn | head -n 1)

diff_max_avg=$(($max_used-$avg_used))

#如果最大值与平均值的之差大于5，表示集群数据不均衡

if [ $diff_max_avg -gt 5 ]

then

    jps | grep -i "balancer"

    if [ $? -eq 0]

    then

       kill -9  $(jps | grep -i "balancer" | awk '{print $1}')

    else

       #对这些主机执行局部均衡

       hdfs   dfs  -rm   /system/balancer.id

       hdfs balancer

       -Ddfs.datanode.balance.max.concurrent.moves = 10 \

       -Ddfs.balancer.moverThreads = 1024 \

       -Ddfs.balance.bandwidthPerSec = 104857600 \

       -policy  datanode  -threshold  5  -include -f host.txt

    fi

else

    echo "Nothing to do"

fi

Hadoop记录-HDFS均衡脚本的更多相关文章

Hadoop记录-hdfs转载
Hadoop 存档每个文件均按块存储,每个块的元数据存储在namenode的内存中,因此hadoop存储小文件会非常低效.因为大量的小文件会耗尽namenode中的大部分内存.但注意,存储小文件所需 ...
Hadoop记录-HDFS balancer配置
HDFS balancer配置(可通过CM配置)dfs.datanode.balance.max.concurrent.moves 并行移动的block数量,默认5 dfs.datanode.bala ...
Hadoop记录-HDFS配额Quota
设置文件数配额 hdfs dfsadmin -setQuota <N> <directory>...<directory> 例如:设置目录下的文件总数为1000个h ...
介绍hadoop中的hadoop和hdfs命令
有些hive安装文档提到了hdfs dfs -mkdir ,也就是说hdfs也是可以用的,但在2.8.0中已经不那么处理了,之所以还可以使用,是为了向下兼容. 本文简要介绍一下有关的命令,以便对had ...
hadoop记录-hive常见设置
分区表 set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nonstrict;create tabl ...
深入理解Hadoop之HDFS架构
Hadoop分布式文件系统(HDFS)是一种分布式文件系统.它与现有的分布式文件系统有许多相似之处.但是,与其他分布式文件系统的差异是值得我们注意的: HDFS具有高度容错能力,旨在部署在低成本硬件上 ...
大数据技术之Hadoop（HDFS）
第1章 HDFS概述 1.1 HDFS产出背景及定义 1.2 HDFS优缺点 1.3 HDFS组成架构 1.4 HDFS文件块大小(面试重点) 第2章 HDFS的Shell操作(开发重点) 1．基本语 ...
Apache Hadoop2.0之HDFS均衡操作分析
1 HDFS均衡操作原理 HDFS默认的块的副本存放策略是在发起请求的客户端存放一个副本,如果这个客户端在集群以外,那就选择一个不是太忙,存储不是太满的节点来存放,第二个副本放在与第一个副本相同的机架 ...
hadoop记录-Hadoop参数汇总
Hadoop参数汇总 linux参数以下参数最好优化一下: 文件描述符ulimit -n 用户最大进程 nproc (hbase需要 hbse book) 关闭swap分区设置合理的预读取缓冲区 ...

随机推荐

vscode——配置go插件
前言这个真的折腾死我了,看了N多博客才弄好这两个还是比较有用的~ https://www.cnblogs.com/nickchou/p/9038114.html https://www.jians ...
解决 spring boot 线程中使用@Autowired注入Bean的方法，报java.lang.NullPointerException异常
问题描述在开发中,因某些业务逻辑执行时间太长,我们常使用线程来实现.常规服务实现类中,使用 @Autowired 来注入Bean,来调用其中的方法.但如果在线程类中使用@Autowired注入的Be ...
Dobbox
一.向本地仓库导入Dubbox依赖 1.1解压压缩包 1.2打开cmd窗口切到源码包路径 1.3输入命令行 1.4成功后展示如图 1.5输入命令行 1.6成功后如图 public class DoSo ...
VS - Microsoft.Practices.Unity
PM> Install-Package Unity Web.config <configSections> <section name="unity" t ...
数据库三大范式（1NF,2NF,3NF）及ER图
数据库三大范式(1NF,2NF,3NF)及ER图百度官方解释: 设计关系数据库时,遵从不同的规范要求,设计出合理的关系型数据库,这些不同的规范要求被称为不同的范式,各种范式呈递次规范,越高的范式数据 ...
P1088 火星人——全排列函数
P1088 火星人 algorithm里面有一个next_permutation(a,a+n); #include<cstdio> #include<cstring> #inc ...
jmeter之timer --笔记一
简介:测试过程中需要用到time进行造数据测试,需要各种年月日,或者未来时间,就像python中的time和datetime 1.jmeter中timer,使用—time()函数 1.1 timeSh ...
Loadrunner11录制过程中报错：由于另一个程序正在运行中，此操作无法完成
第一次安装LR11录制没有问题,第二次录制也没有问题,后面第二天录制就出现了如下截图的现象报错内容:由于另一个程序正在运行中,此操作无法完成.请选择“切换到”来激活正在运行中的的程序,并更正问题 ...
C++2.0新特性(二)——<一致性初始化、Initializer_list 、for循环、explicit>
一.一致性初始化(uniform initialization) 之前初始化时存在多个版本,让使用者使用时比较混乱,现在提供一种万用的初始化方法,就是使用大括号. 原理解析:当编译器看到大括号包起来的 ...
根据数据文件自定义边界条件timeVaryingUniformFixedValue【转载】
转载自:http://blog.sina.com.cn/s/blog_e256415d0101nf9j.html 在OpenFOAM中,可以创建数据文件,自定义边界条件. 下面的例子读取outletP ...

Hadoop记录-HDFS均衡脚本

Hadoop记录-HDFS均衡脚本的更多相关文章

随机推荐

热门专题