Hadoop生产环境搭建

1. 将安装包hadoop-2.x.x.tar.gz存放到某一目录下,并解压。
2. 修改解压后的目录中的文件夹etc/hadoop下的配置文件(若文件不存在,自己创建。)
包括hadoop-env.sh,mapred-site.xml,core-site.xml,hdfs-site.xml,yarn-site.xml
3. 格式化并启动HDFS
4. 启动YARN
以上整个过程与Hadoop单机Hadoop测试环境搭建基本一致,不同的是步骤2中配置文件设置内容以及步骤3的详细过程。 HDFS2.0的HA配置方法(主备NameNode)
注意事项:
1)主备Namenode有多种配置方法,本次使用JournalNode方式。至少准备三个节点作为JournalNode
2)主备两个Namenode应放于不同的机器上,独享机器。(HDFS2.0中吴煦配置secondaryNamenode,备NameNode已经代替它完成相应的功能)
3)主备NameNode之间有两种切换方式,手动切换和自动切换。其中自动切换是借助Zookeeper实现的。因此需要单独部署一个Zookeeper集群,通常为奇数个,至少3个。 ==================================================================================
HSFS HA部署架构和流程 HSFS HA部署架
三个JournalNode
两个NameNode
N个DataNode HDFS HA部署流程——hdfs-site.xml配置
dfs.nameservices 集群中命名服务列表(自定义)
dfs.ha.namenodes.${ns}命名服务中的namenode逻辑名称(自定义)
dfs.namenode.rpc-address.${ns}.${nn} 命名服务中逻辑名称对应的RPC地址
dfs.namenode.http-address.${ns}.${nn} 命名服务中逻辑名称对应的HTTP地址
dfs.namenode.name.dir NameNode fsimage存放目录
dfs.namenode.shared.edits.dir 主备NameNode同步元信息的共享存储系统
dfs.journalnode.edits.dir Journal Node数据存放目录 HDFS HA部署流程——hdfs-site.xml配置实例
<?xml version="1.0" encoding="UTF-8"?>
<configuration>
<property>
<name>dfs.nameservices</name>
<value>hadoop-rokid</value>
</property>
<property>
<name>dfs.ha.namenodes.hadoop-rokid</name>
<value>nn1,nn2</value>
</property>
<property>
<name>dfs.namenode.rpc-adress.hadoop-rokid.nn1</name>
<value>nn1:8020</value>
</property>
<property>
<name>dfs.namenode.rpc-adress.hadoop-rokid.nn2</name>
<value>nn2:8020</value>
</property>
<property>
<name>dfs.namenode.http-adress.hadoop-rokid.nn1</name>
<value>nn1:50070</value>
</property>
<property>
<name>dfs.namenode.http-adress.hadoop-rokid.nn2</name>
<value>nn2:50070</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///home/zhangzhenghai/cluster/hadoop/dfs/name</value>
</property>
<property>
<name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://jnode1:8485;jnode2:8485;jnode3:8485/hadoop-rokid</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:///home/zhangzhenghai/cluster/hadoop/dfs/data</value>
</property>
<property>
<name>dfs.ha.automatic-failover.enabled</name>
<value>false</value>
</property>
<property>
<name>dfs.journalnode.edits.dir</name>
<value>/home/zhangzhenghai/cluster/hadoop/dfs/journal</value>
</property>
</configuration>
HDFS HA部署流程——core-site.xml配置实例
<?xml version="1.0" encoding="UTF-8"?>
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://nn1:8020</value>
</property>
</configuration>
HDFS HA部署流程——slaves配置实例
列出集群中的所有机器名称列表 启动顺序:
Hadoop2.x上机实践(部署多机-HDFS HA+YARN)
HA
注意:所有操作均在Hadoop部署目录下进行。
启动Hadoop集群:
step1:
在各个JournalNode节点上,输入以下命令启动journalNode服务,
sbin/hadoop-daemon.sh start journalnode step2:
在[nn1]上,对其进行格式化,并启动,
bin/hdfs namenode -format
sbin/hadoop-daemon.sh start namenode step3:
在[nn2]上,同步nn1的元数据信息,
bin/hdfs namenode -bootstrapStandby step4:
启动[nn2],
sbin/hadoop-daemon.sh start namenode 经过以上四步骤,nn1和nn2均处于standby状态 step5:
将[nn1]切换成Active
bin/hdfs haadmin -transitionToActive nn1 step6:
在[nn1]上,启动所有datanode
sbin/hadoop-daemons.sh start datanode ==================================================================================
Hadoop HA+Federation部署架构和流程 HSFS HA+Federation部署架构
三个JournalNode
四个Namenode(每两个互备)
N个DataNode HDFS HA+Federation部署流程——hdfs-site.xml配置 <?xml version="1.0" encoding="UTF-8"?>
<configuration>
<property>
<name>dfs.nameservices</name>
<value>hadoop-rokid1,hadoop-rokid2</value>
</property>
<!-- hadoop-rokid1 -->
<property>
<name>dfs.ha.namenodes.hadoop-rokid1</name>
<value>nn1,nn2</value>
</property>
<property>
<name>dfs.namenode.rpc-adress.hadoop-rokid1.nn1</name>
<value>nn1:8020</value>
</property>
<property>
<name>dfs.namenode.rpc-adress.hadoop-rokid1.nn2</name>
<value>nn2:8020</value>
</property>
<property>
<name>dfs.namenode.http-adress.hadoop-rokid1.nn1</name>
<value>nn1:50070</value>
</property>
<property>
<name>dfs.namenode.http-adress.hadoop-rokid1.nn2</name>
<value>nn2:50070</value>
</property>
<!-- hadoop-rokid2 -->
<property>
<name>dfs.ha.namenodes.hadoop-rokid2</name>
<value>nn3,nn4</value>
</property>
<property>
<name>dfs.namenode.rpc-adress.hadoop-rokid2.nn3</name>
<value>nn3:8020</value>
</property>
<property>
<name>dfs.namenode.rpc-adress.hadoop-rokid2.nn4</name>
<value>nn4:8020</value>
</property>
<property>
<name>dfs.namenode.http-adress.hadoop-rokid2.nn3</name>
<value>nn3:50070</value>
</property>
<property>
<name>dfs.namenode.http-adress.hadoop-rokid2.nn4</name>
<value>nn4:50070</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///home/zhangzhenghai/cluster/hadoop/dfs/name</value>
</property>
<!-- hadoop-rokid1 JournalNode配置 两者配置不一样 每一个namespace下 只存其一-->
<property>
<name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://jnode1:8485;jnode2:8485;jnode3:8485/hadoop-rokid1</value>
</property>
<!-- hadoop-rokid2 JournalNode配置 两者配置不一样 每一个namespace下 只存其一-->
<property>
<name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://jnode1:8485;jnode2:8485;jnode3:8485/hadoop-rokid2</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:///home/zhangzhenghai/cluster/hadoop/dfs/data</value>
</property>
<property>
<name>dfs.ha.automatic-failover.enabled</name>
<value>false</value>
</property>
<property>
<name>dfs.journalnode.edits.dir</name>
<value>/home/zhangzhenghai/cluster/hadoop/dfs/journal</value>
</property>
</configuration> 启动顺序:
在nn1和nn2两个节点上进行如下操作:
步骤1:在各个JournalNode节点上,输入以下命令启动JournalNode服务:
sbin/hadoop-daemon.sh start journalnode
步骤2:在[nn1]上,对其进行格式化,并启动:
bin/hdfs namenode -format -clusterId hadoop-rokid1
sbin/hadoop-daemon.sh start namenode
步骤3:在[nn2]上,同步nn1的元数据信息
bin/hdfs namenode bootstrapStandby
步骤4:在[nn2]上,启动NameNode
sbin/hadooop-daemon.sh start namenode
(经过以上四个步骤,nn1和nn2均处于standby状态)
步骤5:在[nn1]上,将NameNode切换为Active
bin/hdfs haadmin -ns hadoop-rokid1 -transitionToActive nn1
在nn3和nn4两个节点上进行如下操作:
步骤1:在各个JournalNode节点上,输入以下命令启动JournalNode服务:
sbin/hadoop-daemon.sh start journalnode
步骤2:在[nn3]上,对其进行格式化,并启动:
bin/hdfs namenode -format -clusterId hadoop-rokid2
sbin/hadoop-daemon.sh start namenode
步骤3:在[nn4]上,同步nn3的元数据信息
bin/hdfs namenode bootstrapStandby
步骤4:在[nn4]上,启动NameNode
sbin/hadooop-daemon.sh start namenode
(经过以上四个步骤,nn3和nn4均处于standby状态)
步骤5:在[nn3]上,将NameNode切换为Active
bin/hdfs haadmin -ns hadoop-rokid2 -transitionToActive nn3
最后:在[nn1]上,启动所有datanode
sbin/hadoop-daemons.sh start datanode
==================================================================================
Yarn部署架构
ResourceManager
N个NodeManager yarn-site.xml配置实例
<?xml version="1.0" encoding="UTF-8"?>
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>YARN001</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>${yarn.resourcemanager.hostname}:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>${yarn.resourcemanager.hostname}:8030</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>${yarn.resourcemanager.hostname}:8088</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.https.address</name>
<value>${yarn.resourcemanager.hostname}:8090</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>${yarn.resourcemanager.hostname}:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>${yarn.resourcemanager.hostname}:8033</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value>
</property>
<property>
<name>yarn.scheduler.fair.allocation.file</name>
<value>${yarn.home.dir}/etc/hadoop/fairscheduler.xml</value>
</property>
<property>
<name>yarn.nodemanager.local-dirs</name>
<value>/home/zhangzhenghai/cluster/hadoop/yarn/local</value>
</property>
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<property>
<name>yarn.nodemanager.remote-app-log-dir</name>
<value>/tmp/logs</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>30720</value>
</property>
<property>
<name>yarn.nodemanager.resource.cpu-vcores</name>
<value>12</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration> fairscheduler.xml配置实例
<?xml version="1.0" encoding="UTF-8"?>
<allocations>
<queue name="basic">
<minResources>102400 mb, 50 vcores</minResources>
<maxResources>153600 mb, 100 vcores</maxResources>
<maxRunningApps>200</maxRunningApps>
<minSharePreemptionTimeout>300</minSharePreemptionTimeout>
<weight>1.0</weight>
<aclSubmitApps>root,yarn,search,hdfs</aclSubmitApps>
</queue>
<queue name="queue1">
<minResources>102400 mb, 50 vcores</minResources>
<maxResources>153600 mb, 100 vcores</maxResources>
</queue>
<queue name="queue2">
<minResources>102400 mb, 50 vcores</minResources>
<maxResources>153600 mb, 100 vcores</maxResources>
</queue>
</allocations> mapred-site.xml配置实例
<?xml version="1.0" encoding="UTF-8"?>
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
<description>The runtime framework for executing MapReduce jobs. Can be one of local classic or yarn.</description>
</property>
<!-- jobhistory properties -->
<property>
<name>mapreduce.jobhistory.address</name>
<value>jobhistory:10020</value>
<description>MapReduce JobHistory Server IPC host:port</description>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>jobhistory:19888</value>
<description>MapReduce JobHistory Server Web UI host:port</description>
</property>
</configuration> YARN启动/停止步骤
在YARN001上执行以下命令
启动YARN:
sbin/start-yarn.sh
停止YARN:
sbin/stop-yarn.sh
启动MR-JobHistory:
sbin/mr-jobhistory-daemon.sh start historyserver #############################OVER#####################################################################

Hadoop生产环境搭建(含HA、Federation)的更多相关文章

  1. Hadoop 学习笔记 (十) hadoop2.2.0 生产环境部署 HDFS HA Federation 含Yarn部署

    其他的配置跟HDFS-HA部署方式完全一样.但JournalNOde的配置不一样>hadoop-cluster1中的nn1和nn2和hadoop-cluster2中的nn3和nn4可以公用同样的 ...

  2. 攻城狮在路上(陆)-- hadoop分布式环境搭建(HA模式)

    一.环境说明: 操作系统:Centos6.5 Linux node1 2.6.32-431.el6.x86_64 #1 SMP Fri Nov 22 03:15:09 UTC 2013 x86_64 ...

  3. linux 生产环境搭建

    Linux基础命令杂记   今天又一次搞Linux生产环境搭建.这是种步骤很多,很繁琐而且又不得不做的事情.虽然做过很多次,但还是有很多步骤.命令不记得,每一次到处找资料很麻烦,于是将一些步骤记下,以 ...

  4. Hadoop之环境搭建

    初学Hadoop之环境搭建   阅读目录 1.安装CentOS7 2.安装JDK1.7.0 3.安装Hadoop2.6.0 4.SSH无密码登陆 本文仅作为学习笔记,供大家初学Hadoop时学习参考. ...

  5. 【HADOOP】| 环境搭建:从零开始搭建hadoop大数据平台(单机/伪分布式)-下

    因篇幅过长,故分为两节,上节主要说明hadoop运行环境和必须的基础软件,包括VMware虚拟机软件的说明安装.Xmanager5管理软件以及CentOS操作系统的安装和基本网络配置.具体请参看: [ ...

  6. Hadoop单机Hadoop测试环境搭建

    Hadoop单机Hadoop测试环境搭建: 1. 安装jdk,并配置环境变量,配置ssh免密码登录 2. 下载安装包hadoop-2.7.3.tar.gz 3. 配置/etc/hosts 127.0. ...

  7. 分享知识-快乐自己:大数据(hadoop)环境搭建

    大数据 hadoop 环境搭建: 一):大数据(hadoop)初始化环境搭建 二):大数据(hadoop)环境搭建 三):运行wordcount案例 四):揭秘HDFS 五):揭秘MapReduce ...

  8. Hadoop分布环境搭建步骤,及自带MapReduce单词计数程序实现

    Hadoop分布环境搭建步骤: 1.软硬件环境 CentOS 7.2 64 位 JDK- 1.8 Hadoo p- 2.7.4 2.安装SSH sudo yum install openssh-cli ...

  9. Hadoop —— 单机环境搭建

    一.前置条件 Hadoop的运行依赖JDK,需要预先安装,安装步骤见: Linux下JDK的安装 二.配置免密登录 Hadoop组件之间需要基于SSH进行通讯. 2.1 配置映射 配置ip地址和主机名 ...

随机推荐

  1. Java系列笔记(0) - 目录和概述

    笔者在开发过程中发现自己基础太薄弱,读书时除了系统学习了一下Java的基础语法和用法.一点简单的数据结构和设计模式之外,再无深入系统的学习,而工作中的学习也是东晃一枪西晃一枪,不够扎实和系统.想到一个 ...

  2. (八)git更改提交操作

    1.git reset --hard + hash值 2.git reflog 查看当前仓库的操作日志 3.git commit --amend 修改提交信息(上一条) 4.git rebase -i ...

  3. Ubuntu下使用face_recognition进行人脸识别

    Face Recognition是一个基于Python的人脸识别库,在github上地址如下:https://github.com/ageitgey/face_recognition. 看着挺好玩,本 ...

  4. logistic回归和softmax回归

    logistic回归 在 logistic 回归中,我们的训练集由  个已标记的样本构成:.由于 logistic 回归是针对二分类问题的,因此类标记 . 假设函数(hypothesis functi ...

  5. TableView,自定义TableViewCell

    自定义Table 原理: http://blog.jobbole.com/67272/ http://www.cnblogs.com/wangxiaofeinin/p/3532831.html 补充: ...

  6. hosts 位置和功能

    什么是HOST文件: Hosts是一个没有扩展名的系统文件,其基本作用就是将一些常用的网址域名与其对应的IP地址建立一个关联“数据库”,当用户在浏览器中输入一个需要登录的网址时,系统会首先自动从Hos ...

  7. [BZOJ3613][Heoi2014]南园满地堆轻絮 二分答案

    Description 小 Z 是 ZRP(Zombies’ Republic of Poetry,僵尸诗歌共和国)的一名诗歌爱好者,最近 他研究起了诗词音律的问题.   在过去,诗词是需要编成曲子唱 ...

  8. 全网最详细Apache Kylin1.5安装(单节点)和测试案例

    转:http://blog.itpub.net/30089851/viewspace-2121221/ 微视频链接: Apache Kylin初识      1.版本(当前实验版本组合,版本一定要兼容 ...

  9. C++作业:Circle_area

    Github链接: Circle_area 代码: main.cpp #include "circle_area.h" #include <iostream> #inc ...

  10. LA 4254 处理器(二分+贪心)

    https://icpcarchive.ecs.baylor.edu/index.php?option=com_onlinejudge&Itemid=8&page=show_probl ...