hadoop在线重启namenode+在线扩展集群

1.执行步骤

修改dfs.namenode.handler.count=150 ()

NameNode 有一个工作线程池用来处理客户端的远程过程调用及集群守护进程的调用。处理程序数量越多意味着要更大的池来处理来自不同DataNode的并发心跳以及客户端并发的元数据操作。对于大集群或者有大量客户端的集群来说，通常需要增大参数dfs.namenode.handler.count的默认值10。设置该值的一般原则是将其设置为集群大小的自然对数乘以20，即20logN，N为集群大小。如果前面的描述你仍然觉得很不清楚，可以看下面的python程序（其中的200表示集群的大小）

python -c 'import math ; print int(math.log(200) * 20)'

standby：

hadoop-daemon.sh stop namenode

hadoop-daemon.sh start namenode

观察前台，safemode is off 后

active：

hdfs dfsadmin -failover nn2 nn1

确认成功后

active：

hadoop-daemon.sh stop namenode

hadoop-daemon.sh start namenode

问题：nn1变为active后，出现了很多missingblock，从时间上看都是最新的blk，怀疑是切换中漏掉的blk，原因待进一步分析日志。

2.一次扩展40台机器

cat excludes

cat yarn-excludes

cat slaves

注：集群未设白名单

批量操作脚本如下：

hadoop-daemons.sh --hostnames "$(grep /rack/？ app/hadoop/etc/hadoop/rack.data|awk '{print $2}'|tr '\n' ' ')" start datanode
yarn-daemons.sh --hostnames "$(grep /rack/？ app/hadoop/etc/hadoop/rack.data|awk '{print $2}'|tr '\n' ' ')" start nodemanager

for i in 05 06 07 08 09 10
   do
   hadoop-daemons.sh --hostnames "$(grep /rack/$i app/hadoop/etc/hadoop/rack.data|awk '{print $2}'|tr '\n' ' ')" start datanode
   yarn-daemons.sh --hostnames "$(grep /rack/$i app/hadoop/etc/hadoop/rack.data|awk '{print $2}'|tr '\n' ' ')" start nodemanager
   done
问题：①active namenode 挂掉，原因：同时大批量增加datanode，导致namenode处理不过来，hang住超时，自动failover到standbynamenode，对改nn实施了fencing，使其挂掉了，自动failover成功；
        ②扩充集群后，ganglia性能仍是一路飘红，但是我认为这资源利用充分，不是问题，提高了效率就算有效。

hadoop在线重启namenode+在线扩展集群的更多相关文章

Redis复制与可扩展集群搭建
抄自:http://www.infoq.com/cn/articles/tq-redis-copy-build-scalable-cluster 讨论了Redis的常用数据类型与存储机制,本文会讨论一 ...
(转)Redis复制与可扩展集群搭建
讨论了Redis的常用数据类型与存储机制,本文会讨论一下Redis的复制功能以及Redis复制机制本身的优缺点以及集群搭建问题. Redis复制流程概述 Redis的复制功能是完全建立在之前我们讨论过 ...
Redis复制与可扩展集群搭建【转】
本文会讨论一下Redis的复制功能以及Redis复制机制本身的优缺点以及集群搭建问题. Redis复制流程概述 Redis的复制功能是完全建立在之前我们讨论过的基于内存快照的持久化策略基础上的,也就是 ...
Hadoop入门完全分布式运行模式-集群配置
目录集群配置集群部署规划配置文件说明配置集群群起集群 1 配置workers 2 启动集群总结 3 集群基本测试上传文件到集群查看数据真实存储路径下载执行wordcount程序配 ...
Hadoop 2.6.4单节点集群配置
1.安装配置步骤 # wget http://download.oracle.com/otn-pub/java/jdk/8u91-b14/jdk-8u91-linux-x64.rpm # rpm -i ...
[Hadoop] - Win7下提交job到集群上去
一般我们采用win开发+linux hadoop集群的方式进行开发,使用插件:hadoop-***-eclipse-plugin. 运行程序的时候,我们一般采用run as application或者 ...
003.Ceph扩展集群
一基础准备参考<002.Ceph安装部署>文档部署一个基础集群. 二扩展集群 2.1 扩展架构需求:添加Ceph元数据服务器node1.然后添加Ceph Monitor和Ceph ...
Hadoop及Zookeeper+HBase完全分布式集群部署
Hadoop及HBase集群部署一. 集群环境系统版本虚拟机:内存 16G CPU 双核心系统: CentOS-7 64位系统下载地址: http://124.202.164.6/files ...
Oracle RAC中的一台机器重启以后无法接入集群
前天有个同事说有套AIX RAC的其中一台服务器重启了操作系统以后,集群资源CSSD的资源一直都在START的状态,检查日志输出有如下内容: [ CSSD][1286]clssnmv ...

随机推荐

oc75--不可变字典NSDictionary
// // main.m // NSDictionary // // #import <Foundation/Foundation.h> int main(int argc, const ...
BMP图片的解析,关于压缩方式
在做一个显示bmp图片到lcd屏的时候,发现有些bmp图显示不对. 同样是16bit bmp却有差异. 就查了一下格式. bmp文件格式位图文件的组成结构名称符号位图文件头(bitmap-fi ...
手机不ROOT使用xposed框架-微信群同步-微咖讲师-安装教程
其实已经很多人知道Xposed框架这个便捷的工具,但是呢由于框架必须root,导致很多用户望而却步,今天就来教下大家,如何不root玩转xposed框架 1.下载 SandVxposed免root 虚 ...
C#使用Parallel处理数据同步写入Datatable并使用BulkInsert批量导入数据库
项目需要,几十万张照片需要计算出每个照片的特征值(调用C++编写的DLL). 业务流程:选择照片文件夹,分别访问照片-->调用DLL接口传递照片路径-->接收处理返回值-->写入数据 ...
TypeScript `infer` 关键字
考察如下类型: type PromiseType<T> = (args: any[]) => Promise<T>; 那么对于符合上面类型的一个方法,如何得知其 Prom ...
centos6.6安装redis
.安装仓库 yum install epel-release -y2.安装redis yum install redis -y3.程序文件说明安装完毕后有以下几个文件位于/usr/bin目录: re ...
NS2学习笔记（一）
NS2有两种运行方式: 1.“脚本方式”,输入命令: ns tclscripl.tcl,其中 tclscripl.tcl 是一个Tcl脚本的文件名: 2“命令行方式”,输入命令:ns,进入NS2的命令 ...
【百度之星】-IP聚合
问题描述: Problem Description 当今世界,网络已经无处不在了,小度熊由于犯了错误,当上了度度公司的网络管理员,他手上有大量的 IP列表,小度熊想知道在某个固定的子网掩码下,有多少个 ...
tp5.0分页样式调控
基础的分页调用 /** * 控制器部分代码 */ //实例化模型 $areasModel=new Areas(); //分页数据集 $listarea=$areasModel->paginate ...
viewpager无线轮播获取网络图片
首先创建小圆点小圆点的两个属性一共两个属性另一个跟这个一个样,只不过颜色能让我们区分的 <?xml version="1.0" encoding="utf-8&q ...

hadoop在线重启namenode+在线扩展集群

hadoop在线重启namenode+在线扩展集群的更多相关文章

随机推荐

热门专题