Hadoop Cluster 安装

本篇源自Hadoop官网，先将中文翻译如下。

目标

本文章主要是描述如何安装和配置几个节点的Hadoop clusters，甚至于数以千计的节点数。为了了解详细的安装步骤，需要先了解如何安装在单台机器上。

本文档不包含高级的设置点，比如：安全性或者高可用性。

准备

需要安装Java环境
从Apache网站下载一个稳定的Hadoop安装镜像

安装

搭建一个Hadoop集群需要将软件安装到集群中的所有机器中，或者一个适合当前操作系统集成的系统。这样做的目标就是区分不同的硬件安装不同的功能。

典型的安装是在一个集群中一个机器作为NameNode节点，其它机器作为ResourceManager.当然，这台机器的角色就是Masters.其它的服务（比如Web App Proxy Server 和MapReduce Job History server）一般运行在别的硬件或者共享的信息架构上，依赖于系统的负载。

在集群中剩下的机器就是DataNode和NodeManager.他们的角色是slaves.

非安全模式下的Hadoop配置

Hadoop的Java配置项被分为两部分重要的配置文件：

只读的默认配置文件：core_default.xml,hdfs-default.xm,yarn-default.xml 和mapred-default.xml.
特殊定义的配置文件：etc/hadoop/core-site.xml，etc/hadoop/hdfs-site.xml,etc/hadoop/yarn-site.xml和etc/hadoop/mapred-site.xml.

另外，需要有权限设置Hadoop scripts脚本在分布式集群中的各个目录文件 bin/directory,需要设置的文件为 etc/hadoop-env.sh 和 etc/hadoop/yarn-env.sh.

为了能够保证Hadoop守护进程很好的运行，需要配置hadoop集群所需要的环境。

HDFS守护进程是NameNode,SecondaryNameNode和DataNode,YARN守护进程是ResourceManager,NodeManager和WebAppProxy,如果MapReduce被使用，那么MapReduce 的任务 History Server将会被运行，如果是大集群的安装，他们将被运行在不同的主机上。

Hadoop守护进程环境配置

管理员需要利用etc/hadoop/hadoop-env.sh 和可选的 etc/hadoop/mapred-env.sh 和etc/hadoop/yarn-env.sh 脚本去配置Hadoop各个守护进程的环境。

之少，需要配置的是JAVA_HOME确保在每一个远程节点上都是正确的。

管理员需要配置一下的独自守护进程利用下面的表格：

守护进程	参数名称
NameNode	HADOOP_NAMENODE_OPTS
DataNode	HADOOP_DATANODE_OPTS
Secondary NameNode	HADOOP_SECONDARYNAMENODE_OPTS
ResourceManager	YARN_RESOURCEMANAGER_OPTS
NodeManager	YARN_NODEMANAGER_OPTS
WebAppProxy	YARN_PROXYSERVER_OPTS
Map Reduce Job History Server	HADOOP_JOB_HISTORYSERVER_OPTS

举一个例子，可以配置Namenode用parallelGC,下面的片段需要被添加到hadoop-env.sh:

 export HADOOP_NAMENODE_OPTS="-XX:+UseParallelGC"

来看一下 etc/hadoop/hadoop-env.sh的其它一些例子。
其它的一些有用的可配置参数，可以自定义如下：

HADOOP_PID_DIR 这个是守护进程ID文件存放的目录路径
HADOOP_LOG_DIR 这个是守护进程日志存储的目录路径，日志会被自动创建如果没有的话
HADOOP_HEAPSIZE/YARN_HEAPSIZE 最大的堆使用的内存值，单位为：MB,如果这个参数被设置成1000，那就意味着堆将使用1000MB的内存值，这个参数主要用于守护进程内存值的大小设置。默认值是1000，可以为每个守护进程分配不同大小的值。

在很多场景中，必须设置这个HADOOP_PID_DIR和HADOOP_LOG_DIR这两个目录，以方便用户可以输出日志在运行守护进程的时候。

守护进程	参数值
ResourceManager	YARN_RESOURCEMANAGER_HEAPSIZE
NodeManager	YARN_NODEMANAGER_HEAPSIZE
WebAppProxy	YARN_PROXYSERVER_HEAPSIZE
Map Reduce Job History Server	HADOOP_JOB_HISTORYSERVER_HEAPSIZE

Hadoop守护环境配置

在Hadoop坏境中有一个非常重要的参数文件：

etc/hadoop/core-site.xml

参数名称	值	提示
`fs.defaultFS`	NameNode URI	hdfs://host:port/
`io.file.buffer.size`	131072	Size of read/write buffer used in SequenceFiles.

etc/hadoop/hdfs-site.xml
配置守护进程NameNode:

参数名称	值	提示
`dfs.namenode.name.dir`	文件路径，用户存储NameNode进程的命名空间和事务日志	如果这里用逗号分割的列表，将会复制分发到各个目录以做为冗余数据进行备份
`dfs.hosts` / `dfs.hosts.exclude`	DataNodes的节点列表（包含或排除）	如果需要，用户通过设置这个列表来控制DataNodes的数量。
`dfs.blocksize`	268435456	HDFS 快的大小为了存储大文件系统.
`dfs.namenode.handler.count`	100	对于大量DataNodes的节点数开启的多线程个数.

Configuration for DataNode:

参数名称	值	提示
`dfs.datanode.data.dir`	存储数据块的本地目录系统，一般以路径列表存放	如果这里是以逗号分隔的目录列表，那么这个数据将被存储在所有的目录下，一般是不同的磁盘驱动

Hadoop Cluster 安装的更多相关文章

hadoop分布式安装教程（转）
from:http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503949.html 1.集群部署介绍 1.1 Hadoop简介 Hadoop是Ap ...
centos中-hadoop单机安装及伪分布式运行实例
创建用户并加入授权 1,创建hadoop用户 sudo useradd -m hadoop -s /bin/bash 2,修改sudo的配置文件,位于/etc/sudoers,需要root权限才可以读 ...
两种配置大数据环境的方法Ambari以及hadoop源代码安装的步骤
1.Ambari安装 Ambari & HDP(Hortonworks Data Platform) ********************************************* ...
【Hadoop】Hadoop的安装，本地模式、伪分布模式的配置
Download hadoop-2.7.7.tar.gz 下载稳定版本的hadoop-2.7.7.tar.gz(我用的2.6.0,但是官网只能下载2.7.7的了) Required Software ...
【从零开始学习Hadoop】--1.Hadoop的安装
第1章 Hadoop的安装1. 操作系统2. Hadoop的版本3. 下载Hadoop4. 安装Java JDK5. 安装hadoop6. 安装rsync和ssh7. 启动hadoop8. 测试had ...
Hadoop Linux安装
Hadoop Linux安装步骤流程 1.硬件准备 2.软件准备(推荐CDH) 3.将Hadoop安装包分发到各个节点下 4.安装JDK 5.修改/etc/hosts配置文件 6.设置SSH免密码登 ...
hadoop环境安装及简单Map-Reduce示例
说明:这篇博客来自我的csdn博客,http://blog.csdn.net/lxxgreat/article/details/7753511 一.参考书:<hadoop权威指南--第二版(中文 ...
hadoop群集安装中碰到的问题
在hadoop群集安装结束后,进行格式测试出现问题如下格式化 cd /data/hadoop/bin ./hdfs namenode -format 15/01/21 05:21:17 WARN f ...
从零开始学习Hadoop--第1章 Hadoop的安装
Hadoop的安装比较繁琐,有如下几个原因:其一,Hadoop有非常多的版本:其二,官方文档不尽详细,有时候更新脱节,Hadoop发展的太快了:其三,网上流传的各种文档,或者是根据某些需求定制,或者加 ...

随机推荐

spring笔记--事务管理之声明式事务
事务简介: 事务管理是企业级应用开发中必不可少的技术,主要用来确保数据的完整性和一致性, 事务:就是一系列动作,它们被当作一个独立的工作单元,这些动作要么全部完成,要么全部不起作用. Spring中使 ...
VC++6.0文件关联问题的解决方法
最近我的电脑*.c文件关联失败,无法实现双击*.c打开vc++6.0,感觉特别不爽. 在经过自己的琢磨研究后,终于找到了解决方法. 特此分享下,希望可以帮到遇到同样问题的你. 核心内容: 1.& ...
Groovy学习--基本语法了解
x项目用到gradle,学习gradle之前准备先过一遍Groovy的语法.这里参考:Groovy入门. 该博客没有系统的讲解Groovy的语法和原理,仅仅只是罗列了使用Groovy的常规方法.我照着 ...
Sql Server之数据类型详解
数据类型是一种属性,用于指定对象可保存的数据的类型,SQL Server中支持多种数据类型,包括字符类型.数值类型以及日期类型等.数据类型相当于一个容器,容器的大小决定了装的东西的多少,将数据分为 ...
在 Git 中 Checkout 历史版本
昨天写代码的时候,误删了一个文件.今天发现的时候,commit 已经 push 到版本库了.本想用 git reset 回退版本,找回文件后重新提交.但是想起 Git 是一个版本控制系统哎,直接从版本 ...
Effective java笔记（四），泛型
泛型为集合提供了编译时类型检查. 23.不要在代码中使用原生态类型声明中具有一个或多个类型参数的类或接口统称为泛型.List<E>是一个参数化类,表示元素类型为E的列表.为了提供兼容性, ...
webapi swagger自定义 HTTP Header验证用户
问题描述 webapi自定义的一种验证方式(token放入header里),使用swagger测试时由于header里没值所以一直拿不到用户. 解决如下:(从标题2开始,标题1处处理全局验证用户) 1 ...
Debian 7 安装配置总结
最近几天折腾了一下Debian 7 (gnome桌面DVD版,KDE桌面CD版最后会提到),总的来说收获还是挺大的,对比以前使用ubuntu,debian 7给我的感觉像是一个新生婴儿,不带多余的花俏 ...
Intellij IDEA 导入 eclipese项目之后，中文注释乱码解决方案
首先,看导入后整个IJ界面: 可以看到注释是乱码,要解决问题就跟我开始做吧,看右下角有个"UTF-8",点一下选择"GBk",选择"Reload&qu ...
UVALive 6916---Punching Robot(卢卡斯+容斥)
题目链接 https://icpcarchive.ecs.baylor.edu/index.php?option=com_onlinejudge&Itemid=8&page=show_ ...

Hadoop Cluster 安装

Hadoop Cluster 安装的更多相关文章

随机推荐

热门专题