一次hadoop集群机器加内存的运维过程

由于前期的集群规划问题，导致当前Hadoop集群中的硬件并没有完全利用起来。当前机器的内存CPU比例为2G：1core，但一般的MapReduce任务（数据量处理比较大，逻辑较复杂）的MR两端都需要将近4G的内存，于是原有的瓶颈就在于内存不够大，周末就和运维部门一起执行当前集群的机器加内存操作（我在这边主要是打酱油＋学习，运维方面经验欠缺）。

此次加内存是针对当前所有的DataNode节点，与NameNode无关，在操作之前需要整理所有的DataNode节点。

DataNode节点加内存不能影响当前线上任务的正常执行，因此需要串行地执行加内存操作（本意是这样，但是还是影响了大部分的任务运行，只能保证HDFS上的文件能够在此期间被访问到）。

针对每个节点操作的具体步骤为：

停止DataNode节点上的DataNode和NodeManager服务；
将节点停机；
通知机房人员加内存条，系统需要预留8G；
机房人员添加内存成功后，将通知我们启动DataNode节点；
重启完成后，检查服务器内存是否添加成功(free命令)，并确认硬盘挂载信息是否正常(df -u, 如果没有正确挂载上，手动执行/etc/rc.local中的mount命令)；
检查hadoop各个分目录的权限以及文件夹是否正确，一切正常之后，修改hadoop内存配置文件(yarn-site.xml中的yarn.nodemanager.resource.memory-mb参数)。
启动相关的hadoop服务: nodemanager和DataNode服务；

在重置完成后，检查一下防火墙，以避免某些服务无法访问。

当然前面都是一切操作顺利时的状况，在这些操作完成之前，我们需要考虑最坏的情况，如果安装内存条失败了怎么办？需要进行回滚操作，重启机器，如果不能重启，可能需要重装系统，DataNode中的数据可能会丢失。如果其中有2台机器发生这种情况，那么立即停止后续的升级操作（HDFS默认的replication为3）。

如果没有在预计的时间内恢复集群，需要通知所有相关人员原因以及折中的方案，并尽快执行恢复操作。

在换内存停机器的时候，不能进行跑MR任务，因为可能会发生block读取失败的信息：

Error: org.apache.hadoop.hdfs.BlockMissingException:

Could not obtain block: BP-714842383-192.168.7.11-1393991369860:blk_1098537659_1099556437863 file=xxx

at org.apache.hadoop.hdfs.DFSInputStream.chooseDataNode(DFSInputStream.java:838)

at org.apache.hadoop.hdfs.DFSInputStream.blockSeekTo(DFSInputStream.java:526)

at org.apache.hadoop.hdfs.DFSInputStream.readWithStrategy(DFSInputStream.java:749)

at org.apache.hadoop.hdfs.DFSInputStream.read(DFSInputStream.java:793)

at org.apache.hadoop.hdfs.DFSInputStream.read(DFSInputStream.java:601)

at java.io.DataInputStream.readInt(DataInputStream.java:387)

at org.apache.hadoop.mapred.MapTask$TrackedRecordReader.moveToNext(MapTask.java:197)

at org.apache.hadoop.mapred.MapTask$TrackedRecordReader.next(MapTask.java:183)

at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:52) at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:429)

at org.apache.hadoop.mapred.MapTask.run(MapTask.java:341)

at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:162)

at java.security.AccessController.doPrivileged(Native Method)

at javax.security.auth.Subject.doAs(Subject.java:415)

at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1491)

at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:157)

这次还好是在周末进行操作的，影响稍微小一点，但是线上跑的任务基本都失败了，hadoop的失败任务节点判断估计也都失败了，因为所有的DataNode都进行了一次升级。总结一下，如果是工作日做这项操作，可以将整个流程拉的稍微长一点，每天加一台机器的内存，这样集群少一台机器对线上任务的影响降低地太小，任务不会失败过多。

一次hadoop集群机器加内存的运维过程的更多相关文章

[hadoop] 集群启动和内存调优
1.启动Hadoop集群 #首先查看下zoo.cfg里面配置的server.id和集群主机的id是否一致 #如果不一致会造成yarn控制不了从节点的启动 cat /home/hadoop/zookee ...
Hadoop集群管理之内存管理
1.内存 Hadoop为各个守护进程(namenode,secondarynamenode,jobtracker,datanode,tasktracker)统一分配的内存在hadoop-env.sh中 ...
hadoop集群中zkfc的作用和工作过程
一. 简单了解NameNode的ZKFC机制 NameNode的HA可以个人认为简单分为共享editLog机制和ZKFC对NameNode状态的控制一般导致NameNode切换的原因 ZKFC的作用 ...
ElasticSearch 集群的规划部署与运维
公号:码农充电站pro 主页:https://codeshellme.github.io 1,常见的集群部署方式 ES 有以下不同类型的节点: Master(eligible)节点:只有 Master ...
Kubernetes实战高可用集群搭建，配置，运维与应用
1-1 K8S导学 1-2 搭建K8S集群步骤和要点介绍 1-3 搭建三节点Ubuntu环境 1-4 安装容器引擎 1-5 下载Kubeadm.node组件和命令行工具 1-6 向集群中加入worke ...
零基础学习云计算及大数据DBA集群架构师【企业级运维技术及实践项目2015年1月29日周五】
LNMP/LEMP项目搭建 { 项目框架 # Linux_____WEB_____PHP_____DB # rhel7_____apache__-(libphp5.so)-__php__-(php-m ...
Hadoop集群（第2期）_机器信息分布表
1.分布式环境搭建采用4台安装Linux环境的机器来构建一个小规模的分布式集群. 图1 集群的架构其中有一台机器是Master节点,即名称节点,另外三台是Slaver节点,即数据节点.这四台机器彼 ...
Hadoop集群（第3期）机器信息分布表
1.分布式环境搭建采用4台安装Linux环境的机器来构建一个小规模的分布式集群. 图1 集群的架构其中有一台机器是Master节点,即名称节点,另外三台是Slaver节点,即数据节点.这四台机器彼 ...
[转]大数据hadoop集群硬件选择
问题导读 1.哪些情况会遇到io受限制? 2.哪些情况会遇到cpu受限制? 3.如何选择机器配置类型? 4.为数据节点/任务追踪器提供的推荐哪些规格? 随着Apache Hadoop的起步,云客户 ...

随机推荐

GPU编程自学5 —— 线程协作
深度学习的兴起,使得多线程以及GPU编程逐渐成为算法工程师无法规避的问题.这里主要记录自己的GPU自学历程. 目录 <GPU编程自学1 -- 引言> <GPU编程自学2 -- CUD ...
EasyDSS流媒体服务器实现RTMP直播同步HLS录像和时移回放
本文转自EasyDarwin团队成员Alex的博客:http://blog.csdn.net/cai6811376/article/details/74166337 "目前在市面上可以找到的 ...
python 怎么画图
1 安装matplotlib: 安装方法:http://www.2cto.com/os/201309/246928.html(其中,安装过程中,tar解压怎么解都有问题.然后就删掉再下载一遍) 2 使 ...
【剑指offer】和为s的连续正数序列，C++实现
原创博文,转载请注明出处! # 题目 # 思路设置两个辅助变量small和big,small表示序列的最小值,big表示序列的最大值.如果sum(small ~ big) > s,则增大sma ...
【剑指offer】二叉树中和为某一值的路径，C++实现
原创文章,转载请注明出处! 博客文章索引地址 1.题目输入一颗二叉树和一个整数,打印出二叉树中结点值的和为输入整数的所有路径.路径由结点和有向边组成,从根结点到叶节点. // 二叉树结点的定义 st ...
【排序】希尔排序，C++实现
原创博文,转载请注明出处! 本文代码的github地址 # 基本思路希尔排序是”直接插入排序“的改进版,也称为“缩小增量排序”.基本原理:先将待排序的数组元素分成多个序列,然后对每个子序 ...
c# mysql and sqlserver数据库连接字符串
.net 项目访问sqlserver 和mysql 两种数据库时,连接字符串有些不一样具体配置如下 <connectionStrings> <add name="mysq ...
Java项目中使用Log4J
Log4J下载官网:http://logging.apache.org/log4j/ Log4J 1.2下载地址:http://logging.apache.org/log4j/1.2/downlo ...
WPF 应用完全模拟 UWP 的标题栏按钮
WPF 自定义窗口样式有多种方式,不过基本核心实现都是在修改 Win32 窗口样式.然而,Windows 上的应用就应该有 Windows 应用的样子嘛,在保证自定义的同时也能与其他窗口样式保持一致当 ...
iOS Webview打开不受信的URL
在我们开发过程中经常会碰到直接访问开发人员的私有地址, 这样在app 上是无法打开指定的网页的. 在iOS中需要对WKWebView 进行如下设置: 1.在工程的Plist 文件中添加一下选项 App ...

一次hadoop集群机器加内存的运维过程

一次hadoop集群机器加内存的运维过程的更多相关文章

随机推荐

热门专题