Hadoop集群管理之内存管理

1、内存

Hadoop为各个守护进程(namenode,secondarynamenode,jobtracker,datanode,tasktracker)统一分配的内存在hadoop-env.sh中设置，参数为HADOOP_HEAPSIZE，默认为1000M。

大部分情况下，这个统一设置的值可能并不适合。例如对于namenode节点，1000M的内存只能存储几百万个文件的数据块的引用。如果我想单独设置namenode的村粗，可以通过HADOOP_NAMENODE_OPTS来设置。

同样的，可以通过HADOOP_SECONDARYNAMENODE_OPTS来设置secondarynamenode的内存，使得它与namenode保持一致。

当然，还有HADOOP_DATANODE_OPTS、HADOOP_ BALANCER_OPTS、HADOOP_JOBTRACKER_OPTS变量供你使用。

此外，tasktracker启动独立的子JAM以运行map和reduce任务，分配给每个子JVM的内存量由mapred.child.java.opts属性(mapred-site.xml)控制，默认值为200M。

2、最大map任务数

一个tasktracker能够同时运行最大map任务数，由mapred.tasktracker.map.tasks.maximum属性(mapred-site.xml)控制，默认为2。

3、最大reduce任务数

一个tasktracker能够同时运行最大reduce任务数，由mapred.tasktracker.reduce.tasks.maximum属性(mapred-site.xml)控制，默认为2。

4、小总结：计算节点的内存占用量

默认情况下，一个同时运行了namenode,secondarynamenode和jobtracker的主节点，各自使用1000M内存，所以总计使用3000M。

默认情况下，一个从节点运行了如下守护进程：

1个datanode：默认占用1000M内存；

1个tasktracker：默认占用1000M内存；

最多2个map任务：2*200M=400M；

最多2个reduce任务：2*200M=400；

即默认情况下，一个从节点需要使用2800M内存量。

在一个tasktracker上能够同时运行的任务数取决于这台机器由多少个处理器。由于mapreduce作业通常是I/O-bound，因此将任务数设定为超出处理器数也有一定道理，可以获得更好的利用率。经验法则是任务总数(map任务数与reduce任务数之和)与处理器的比值在1和2之间。

例如，假设一台8个处理器的工作节点，每个处理器上运行2个进程，则可以将最大map任务数和最大reduce任务数分别设置成7(因为还有datanode和tasktracker进程，所以不能设置为8)，各个JVM子任务可用内存设置为400M，则总内存开销=1000M(datanode)+1000M(tasktracker)+7*400M(map)+7*400M(reduce)=7600M。

这样配置是否合理，还需要考虑是否给这台机器上的其他进程预留了足够内存，否则可能导致各进程在系统中不断切换，导致性能恶化。可以使用一些工具来监控集群的内存使用情况来进行优化，例如ganglia工具。

Hadoop集群管理之内存管理的更多相关文章

[hadoop] 集群启动和内存调优
1.启动Hadoop集群 #首先查看下zoo.cfg里面配置的server.id和集群主机的id是否一致 #如果不一致会造成yarn控制不了从节点的启动 cat /home/hadoop/zookee ...
一次hadoop集群机器加内存的运维过程
由于前期的集群规划问题,导致当前Hadoop集群中的硬件并没有完全利用起来.当前机器的内存CPU比例为2G:1core,但一般的MapReduce任务(数据量处理比较大,逻辑较复杂)的MR两端都需要将 ...
hadoop集群ambari搭建(1)之ambari-server安装
Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应.管理和监控. Ambari眼下已支持大多数Hadoop组件,包含HDFS.MapReduce.Hive.Pi ...
三节点Hadoop集群搭建
1. 基础环境搭建新建3个CentOS6.5操作系统的虚拟机,命名(可自定)为masternode.slavenode1和slavenode2.该过程参考上一篇博文CentOS6.5安装配置详解 2 ...
Hadoop集群管理
1.简介 Hadoop是大数据通用处理平台,提供了分布式文件存储以及分布式离线并行计算,由于Hadoop的高拓展性,在使用Hadoop时通常以集群的方式运行,集群中的节点可达上千个,能够处理PB级的数 ...
Hadoop集群管理--保证集群平稳地执行
本篇介绍为了保证Hadoop集群平稳地执行.须要深入掌握的知识.以及一些管理监控的手段,日常维护的工作. HDFS 永久性数据结构对于管理员来说.深入了解namenode,辅助namecode和da ...
使用Cloudera部署，管理Hadoop集群
Hadoop系列之(三):使用Cloudera部署,管理Hadoop集群 http://www.cnblogs.com/ee900222/p/hadoop_3.html Hadoop系列之(一):Ha ...
Hadoop系列之（三）：使用Cloudera部署，管理Hadoop集群
1. Cloudera介绍 Hadoop是一个开源项目,Cloudera对Hadoop进行了商业化,简化了安装过程,并对hadoop做了一些封装. 根据使用的需要,Hadoop集群要安装很多的组件,一 ...
redis内存分配管理与集群环境下Session管理
##################内存管理############### 1.Redis的内存管理 .与memcache不同,没有实现自己的内存池 .在2..4以前,默认使用标准的内存分配函数(li ...
redis 与java的连接和集群环境下Session管理
redis 的安装与设置开机自启(https://www.cnblogs.com/zhulina-917/p/11746993.html) 第一步: a) 搭建环境引入 jedis jar包 co ...

随机推荐

struts配置测试中遇到报错信息，记录下
tomcat7 jdk7myeclipse2014 部署完成后,访问页面报错struts.xml文件内容: <?xml version="1.0" encoding=&quo ...
PHP编码规范（转）
一.文件格式 1. 对于只含有 php 代码的文件,我们将在文件结尾处忽略掉 "?>" .这是为了防止多余的空格或者其它字符影响到代码.例如:<?php$foo = ' ...
线程池——JAVA并发编程指南
TPS00-J. 用线程池实现应用在流量暴涨时优雅降级很多程序都要解决这样一个问题——处理一系列外来的请求.Thread- Per-Message这种设计模式是最简单的并发策略了,它为每一个请求创建 ...
rpmdb出问题，重建rpmdb库
1.备份原库 tar cvzf rpmdb-backup.tar.gz /var/lib/rpm 2.删除rpmdb库 rm -f /var/lib/rpm/__db.00* 3.重建库 rpm -- ...
使用NBU进行oracle异机恢复
windows平台的异机恢复,目录不同 1.异机环境准备安装oracle介质安装nbu客户端在异机主机的host文件中添加nbu server主机和原主机信息 2.恢复spfile文件 C:\> ...
.NET Framework 4 中的并行编程9---线程安全集合类
原文转载自:http://www.cnblogs.com/xray2005/archive/2011/10/11/2206745.html 在.Net 4中,新增System.Collections. ...
linux：磁碟与档案系统管理
档案系统特性:为什么磁碟分割完需要格式化(format)才能使用吗? 答:因为每种作业系统所设定的档案属性和权限并不相同,为了存放这些档案所需的资料(所以需要格式化成作业系统能够利用的档案系统格式fi ...
Dive into python 实例学python (1) —— 函数和测试
odbchelper.py def buildConnectionString(params): """Build a connection string from a ...
MJRefresh简单处理
//下拉刷新默认 self.bottomTableVeiw.header = [MJRefreshNormalHeader headerWithRefreshingBlock:^{ [self he ...
javaapi中的排序
有的时候需要对数组里的element进行排序.当然可以自己编写合适的排序方法,但既然java包里有自带的Arrays.sort排序方法,在数组元素比较少的时候为何不用? Sorting an Arr ...

Hadoop集群管理之内存管理

Hadoop集群管理之内存管理的更多相关文章

随机推荐

热门专题