hadoop-集群管理（2）—

http://www.cnblogs.com/yuechaotian/archive/2013/03/08/2949607.html

1. 内存

hadoop为各个守护进程（namenode,secondarynamenode,jobtracker,datanode,tasktracker）统一分配的内存在hadoop-env.sh中设置，参数为HADOOP_HEAPSIZE，默认为1000M。

大部分情况下，这个统一设置的值可能并不适合。例如对于namenode节点，1000M的内存只能存储几百万个文件的数据块的引用。如果我想单独设置namenode的内存，可以通过HADOOP_NAMENODE_OPTS来设置。

同样的，可以通过HADOOP_SECONDARYNAMENODE_OPTS来设置secondrynamenode的内存，使得它与namenode保持一致。

当然，还有HADOOP_DATANODE_OPTS、HADOOP_BALANCER_OPTS、HADOOP_JOBTRACKER_OPTS变量供你使用。

此外，tasktracker启动独立的子JVM以运行map和reduce任务，分配给每个子JVM的内存量由mapred.child.java.opts属性（mapred-site.xml）控制，默认值为200M。

2. 最大map任务数

一个tasktracker能够同时运行最大map任务数，由mapred.tasktracker.map.tasks.maximum属性（mapred-site.xml）控制，默认为2。

3. 最大reduce任务数

一个tasktracker能够同时运行最大reduce任务数，由mapred.tasktracker.reduce.tasks.maximum属（mapred-site.xml）性控制，默认为2。

4. 小总结：计算节点的内存占用量。

默认情况下，一个同时运行了namenode，secondarynamenode和jobtracker的主节点，各自使用1000M内存，所以总计使用3000M。

默认情况下，一个从节点运行了如下守护进程：

1个datanode：默认占用1000M内存。
1个tasktracker：默认占用1000M内存。
最多2个map任务：2*200M=400M。
最多2个reduce任务：2*200M=400M。

即默认情况下，一个从节点需要使用2800M内存量。

在一个tasktracker上能够同时运行的任务数取决于这台机器上有多少个处理器。由于mapreduce作业通常是I/O-bound，因此将任务数设定为超出处理器数也有一定道理，可以获得更好的利用率。经验法则是任务总数（map任务数与reduce任务数之和）与处理器的比值在1和2之间。

例如，假设一台8个处理器的工作节点，每个处理器上运行2个进程，则可以将最大map任务数和最大reduce任务数分别设置成7（因为还有datanode和tasktracker进程，所以不能设置为8），各个JVM子任务可用内存设置为400M，则总内存开销=1000M(datanode)+1000M(tasktracker)+7*400M(map)+7*400M(reduce)=7600M

这样配置是否合理，还需要考虑是否给这台机器上的其他进程预留了足够内存，否则可能导致各进程在系统中不断切换，导致性能恶化。可以使用一些工具来监控集群的内存使用情况来进行优化，例如Ganglia工具。

hadoop也可以设置mapreduce操作所能使用的最大内存量，这是分别针对各项作业进行设置的。（详见《hadoop权威指南》117页的“shuffle和排序”小节）

hadoop-集群管理（2）——内存设置的更多相关文章

Hadoop集群管理之内存管理
1.内存 Hadoop为各个守护进程(namenode,secondarynamenode,jobtracker,datanode,tasktracker)统一分配的内存在hadoop-env.sh中 ...
Hadoop集群管理
1.简介 Hadoop是大数据通用处理平台,提供了分布式文件存储以及分布式离线并行计算,由于Hadoop的高拓展性,在使用Hadoop时通常以集群的方式运行,集群中的节点可达上千个,能够处理PB级的数 ...
Hadoop集群管理--保证集群平稳地执行
本篇介绍为了保证Hadoop集群平稳地执行.须要深入掌握的知识.以及一些管理监控的手段,日常维护的工作. HDFS 永久性数据结构对于管理员来说.深入了解namenode,辅助namecode和da ...
[hadoop] 集群启动和内存调优
1.启动Hadoop集群 #首先查看下zoo.cfg里面配置的server.id和集群主机的id是否一致 #如果不一致会造成yarn控制不了从节点的启动 cat /home/hadoop/zookee ...
Hadoop集群 -Eclipse开发环境设置
1.Hadoop开发环境简介 1.1 Hadoop集群简介 Java版本:jdk-6u31-linux-i586.bin Linux系统:CentOS6.0 Hadoop版本:hadoop-1.0.0 ...
一次hadoop集群机器加内存的运维过程
由于前期的集群规划问题,导致当前Hadoop集群中的硬件并没有完全利用起来.当前机器的内存CPU比例为2G:1core,但一般的MapReduce任务(数据量处理比较大,逻辑较复杂)的MR两端都需要将 ...
Hadoop集群管理之配置文件
一.配置文件列表如下: [hadoop@node1 conf]$ pwd /app/hadoop/conf [hadoop@node1 conf]$ echo $HADOOP_HOME /app/ha ...
容器、容器集群管理平台与 Kubernetes 技术漫谈
原文:https://www.kubernetes.org.cn/4786.html 我们为什么使用容器? 我们为什么使用虚拟机(云主机)? 为什么使用物理机? 这一系列的问题并没有一个统一的标准答案 ...
zookeeper安装和应用场合（名字，配置，锁，队列，集群管理）
安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础,最新的版本可以通过官网http://hadoop.apache.org/zookeeper/ 来获取,Zookee ...
大数据开发学习之构建Hadoop集群-(0)
有多种方式来获取hadoop集群,包括从其他人获取或是自行搭建专属集群,抑或是从Cloudera Manager 或apach ambari等管理工具来构建hadoop集群等,但是由自己搭建则可以了解 ...

随机推荐

冲突--ScrollView嵌套ListView只显示一行
在开发的过程当中,由于手机屏幕的大小的限制,我们经常需要使用滑动的方式,来显示更多的内容.在最近的工作中,遇见一个需求,需要将ListView嵌套到ScrollView中显示.于是乎有了如下布局: & ...
30天轻松学习javaweb_http头信息实例
package com.wzh.test.http; import java.io.ByteArrayOutputStream;import java.io.IOException;import ja ...
Vim 中截取部分内容保存到其他文件
最近无聊,突然想跟着玩玩天池数据挖掘,发现数据好大,想转换到mysql数据库,phpmyadmin import 导入时抱错! 数据文件大大! 于是乎,准备截取一小段到另外一个文件测试先,然后,发现了 ...
java小程序实例闰年
判断闰年. package com.test; import java.util.Scanner; import org.junit.Test; public class TestRunNian { ...
[Java] 02 String的常用方法
public class TestString{ public static void main(String[] args){ String str1 = "123"; Stri ...
Oracle中的自增-序列-SEQUENCE
Oracle 12c 之前的版本都没有自增列,如果需要使用自增列,则需要借助SEQUENCE. DROP TABLE CUSTOMERORDER PURGE; CREATE TABLE CUSTOME ...
selenium启动firefox、ie、chrome各浏览器方法
1.启动firefox浏览器 a.如果你的本地firefox是默认路径安装的话,如下方式即可启动浏览器 WebDriver driver = new FirefoxDriver(); driver.g ...
编译 proto 文件到指定语言的代码
由于 Protocol Buffers 3 的正式版还没有发布,在官网(https://developers.google.com/protocol-buffers/docs/downloads)目前 ...
[POJ 3211] Washing Clothes (动态规划)
题目链接:http://poj.org/problem?id=3211 题意:有M件衣服,每种衣服有一种颜色,一共有N种颜色.现在两个人洗衣服,规则是必须把这一种颜色的衣服全部洗完才能去洗下一种颜色的 ...
JavaScript显示分页按钮
/** * 获取分页按钮 * @param total_page 总页数 * @param current_page 当前页 * @param num 每页显示多少个分页按钮 * @returns { ...

hadoop-集群管理（2）——内存设置

hadoop-集群管理（2）——内存设置的更多相关文章

随机推荐

热门专题