Hadoop生产环境搭建

1. 将安装包hadoop-2.x.x.tar.gz存放到某一目录下,并解压。
2. 修改解压后的目录中的文件夹etc/hadoop下的配置文件(若文件不存在,自己创建。)
包括hadoop-env.sh,mapred-site.xml,core-site.xml,hdfs-site.xml,yarn-site.xml
3. 格式化并启动HDFS
4. 启动YARN
以上整个过程与Hadoop单机Hadoop测试环境搭建基本一致,不同的是步骤2中配置文件设置内容以及步骤3的详细过程。 HDFS2.0的HA配置方法(主备NameNode)
注意事项:
1)主备Namenode有多种配置方法,本次使用JournalNode方式。至少准备三个节点作为JournalNode
2)主备两个Namenode应放于不同的机器上,独享机器。(HDFS2.0中吴煦配置secondaryNamenode,备NameNode已经代替它完成相应的功能)
3)主备NameNode之间有两种切换方式,手动切换和自动切换。其中自动切换是借助Zookeeper实现的。因此需要单独部署一个Zookeeper集群,通常为奇数个,至少3个。 ==================================================================================
HSFS HA部署架构和流程 HSFS HA部署架
三个JournalNode
两个NameNode
N个DataNode HDFS HA部署流程——hdfs-site.xml配置
dfs.nameservices 集群中命名服务列表(自定义)
dfs.ha.namenodes.${ns}命名服务中的namenode逻辑名称(自定义)
dfs.namenode.rpc-address.${ns}.${nn} 命名服务中逻辑名称对应的RPC地址
dfs.namenode.http-address.${ns}.${nn} 命名服务中逻辑名称对应的HTTP地址
dfs.namenode.name.dir NameNode fsimage存放目录
dfs.namenode.shared.edits.dir 主备NameNode同步元信息的共享存储系统
dfs.journalnode.edits.dir Journal Node数据存放目录 HDFS HA部署流程——hdfs-site.xml配置实例
<?xml version="1.0" encoding="UTF-8"?>
<configuration>
<property>
<name>dfs.nameservices</name>
<value>hadoop-rokid</value>
</property>
<property>
<name>dfs.ha.namenodes.hadoop-rokid</name>
<value>nn1,nn2</value>
</property>
<property>
<name>dfs.namenode.rpc-adress.hadoop-rokid.nn1</name>
<value>nn1:8020</value>
</property>
<property>
<name>dfs.namenode.rpc-adress.hadoop-rokid.nn2</name>
<value>nn2:8020</value>
</property>
<property>
<name>dfs.namenode.http-adress.hadoop-rokid.nn1</name>
<value>nn1:50070</value>
</property>
<property>
<name>dfs.namenode.http-adress.hadoop-rokid.nn2</name>
<value>nn2:50070</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///home/zhangzhenghai/cluster/hadoop/dfs/name</value>
</property>
<property>
<name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://jnode1:8485;jnode2:8485;jnode3:8485/hadoop-rokid</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:///home/zhangzhenghai/cluster/hadoop/dfs/data</value>
</property>
<property>
<name>dfs.ha.automatic-failover.enabled</name>
<value>false</value>
</property>
<property>
<name>dfs.journalnode.edits.dir</name>
<value>/home/zhangzhenghai/cluster/hadoop/dfs/journal</value>
</property>
</configuration>
HDFS HA部署流程——core-site.xml配置实例
<?xml version="1.0" encoding="UTF-8"?>
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://nn1:8020</value>
</property>
</configuration>
HDFS HA部署流程——slaves配置实例
列出集群中的所有机器名称列表 启动顺序:
Hadoop2.x上机实践(部署多机-HDFS HA+YARN)
HA
注意:所有操作均在Hadoop部署目录下进行。
启动Hadoop集群:
step1:
在各个JournalNode节点上,输入以下命令启动journalNode服务,
sbin/hadoop-daemon.sh start journalnode step2:
在[nn1]上,对其进行格式化,并启动,
bin/hdfs namenode -format
sbin/hadoop-daemon.sh start namenode step3:
在[nn2]上,同步nn1的元数据信息,
bin/hdfs namenode -bootstrapStandby step4:
启动[nn2],
sbin/hadoop-daemon.sh start namenode 经过以上四步骤,nn1和nn2均处于standby状态 step5:
将[nn1]切换成Active
bin/hdfs haadmin -transitionToActive nn1 step6:
在[nn1]上,启动所有datanode
sbin/hadoop-daemons.sh start datanode ==================================================================================
Hadoop HA+Federation部署架构和流程 HSFS HA+Federation部署架构
三个JournalNode
四个Namenode(每两个互备)
N个DataNode HDFS HA+Federation部署流程——hdfs-site.xml配置 <?xml version="1.0" encoding="UTF-8"?>
<configuration>
<property>
<name>dfs.nameservices</name>
<value>hadoop-rokid1,hadoop-rokid2</value>
</property>
<!-- hadoop-rokid1 -->
<property>
<name>dfs.ha.namenodes.hadoop-rokid1</name>
<value>nn1,nn2</value>
</property>
<property>
<name>dfs.namenode.rpc-adress.hadoop-rokid1.nn1</name>
<value>nn1:8020</value>
</property>
<property>
<name>dfs.namenode.rpc-adress.hadoop-rokid1.nn2</name>
<value>nn2:8020</value>
</property>
<property>
<name>dfs.namenode.http-adress.hadoop-rokid1.nn1</name>
<value>nn1:50070</value>
</property>
<property>
<name>dfs.namenode.http-adress.hadoop-rokid1.nn2</name>
<value>nn2:50070</value>
</property>
<!-- hadoop-rokid2 -->
<property>
<name>dfs.ha.namenodes.hadoop-rokid2</name>
<value>nn3,nn4</value>
</property>
<property>
<name>dfs.namenode.rpc-adress.hadoop-rokid2.nn3</name>
<value>nn3:8020</value>
</property>
<property>
<name>dfs.namenode.rpc-adress.hadoop-rokid2.nn4</name>
<value>nn4:8020</value>
</property>
<property>
<name>dfs.namenode.http-adress.hadoop-rokid2.nn3</name>
<value>nn3:50070</value>
</property>
<property>
<name>dfs.namenode.http-adress.hadoop-rokid2.nn4</name>
<value>nn4:50070</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///home/zhangzhenghai/cluster/hadoop/dfs/name</value>
</property>
<!-- hadoop-rokid1 JournalNode配置 两者配置不一样 每一个namespace下 只存其一-->
<property>
<name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://jnode1:8485;jnode2:8485;jnode3:8485/hadoop-rokid1</value>
</property>
<!-- hadoop-rokid2 JournalNode配置 两者配置不一样 每一个namespace下 只存其一-->
<property>
<name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://jnode1:8485;jnode2:8485;jnode3:8485/hadoop-rokid2</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:///home/zhangzhenghai/cluster/hadoop/dfs/data</value>
</property>
<property>
<name>dfs.ha.automatic-failover.enabled</name>
<value>false</value>
</property>
<property>
<name>dfs.journalnode.edits.dir</name>
<value>/home/zhangzhenghai/cluster/hadoop/dfs/journal</value>
</property>
</configuration> 启动顺序:
在nn1和nn2两个节点上进行如下操作:
步骤1:在各个JournalNode节点上,输入以下命令启动JournalNode服务:
sbin/hadoop-daemon.sh start journalnode
步骤2:在[nn1]上,对其进行格式化,并启动:
bin/hdfs namenode -format -clusterId hadoop-rokid1
sbin/hadoop-daemon.sh start namenode
步骤3:在[nn2]上,同步nn1的元数据信息
bin/hdfs namenode bootstrapStandby
步骤4:在[nn2]上,启动NameNode
sbin/hadooop-daemon.sh start namenode
(经过以上四个步骤,nn1和nn2均处于standby状态)
步骤5:在[nn1]上,将NameNode切换为Active
bin/hdfs haadmin -ns hadoop-rokid1 -transitionToActive nn1
在nn3和nn4两个节点上进行如下操作:
步骤1:在各个JournalNode节点上,输入以下命令启动JournalNode服务:
sbin/hadoop-daemon.sh start journalnode
步骤2:在[nn3]上,对其进行格式化,并启动:
bin/hdfs namenode -format -clusterId hadoop-rokid2
sbin/hadoop-daemon.sh start namenode
步骤3:在[nn4]上,同步nn3的元数据信息
bin/hdfs namenode bootstrapStandby
步骤4:在[nn4]上,启动NameNode
sbin/hadooop-daemon.sh start namenode
(经过以上四个步骤,nn3和nn4均处于standby状态)
步骤5:在[nn3]上,将NameNode切换为Active
bin/hdfs haadmin -ns hadoop-rokid2 -transitionToActive nn3
最后:在[nn1]上,启动所有datanode
sbin/hadoop-daemons.sh start datanode
==================================================================================
Yarn部署架构
ResourceManager
N个NodeManager yarn-site.xml配置实例
<?xml version="1.0" encoding="UTF-8"?>
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>YARN001</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>${yarn.resourcemanager.hostname}:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>${yarn.resourcemanager.hostname}:8030</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>${yarn.resourcemanager.hostname}:8088</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.https.address</name>
<value>${yarn.resourcemanager.hostname}:8090</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>${yarn.resourcemanager.hostname}:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>${yarn.resourcemanager.hostname}:8033</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value>
</property>
<property>
<name>yarn.scheduler.fair.allocation.file</name>
<value>${yarn.home.dir}/etc/hadoop/fairscheduler.xml</value>
</property>
<property>
<name>yarn.nodemanager.local-dirs</name>
<value>/home/zhangzhenghai/cluster/hadoop/yarn/local</value>
</property>
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<property>
<name>yarn.nodemanager.remote-app-log-dir</name>
<value>/tmp/logs</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>30720</value>
</property>
<property>
<name>yarn.nodemanager.resource.cpu-vcores</name>
<value>12</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration> fairscheduler.xml配置实例
<?xml version="1.0" encoding="UTF-8"?>
<allocations>
<queue name="basic">
<minResources>102400 mb, 50 vcores</minResources>
<maxResources>153600 mb, 100 vcores</maxResources>
<maxRunningApps>200</maxRunningApps>
<minSharePreemptionTimeout>300</minSharePreemptionTimeout>
<weight>1.0</weight>
<aclSubmitApps>root,yarn,search,hdfs</aclSubmitApps>
</queue>
<queue name="queue1">
<minResources>102400 mb, 50 vcores</minResources>
<maxResources>153600 mb, 100 vcores</maxResources>
</queue>
<queue name="queue2">
<minResources>102400 mb, 50 vcores</minResources>
<maxResources>153600 mb, 100 vcores</maxResources>
</queue>
</allocations> mapred-site.xml配置实例
<?xml version="1.0" encoding="UTF-8"?>
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
<description>The runtime framework for executing MapReduce jobs. Can be one of local classic or yarn.</description>
</property>
<!-- jobhistory properties -->
<property>
<name>mapreduce.jobhistory.address</name>
<value>jobhistory:10020</value>
<description>MapReduce JobHistory Server IPC host:port</description>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>jobhistory:19888</value>
<description>MapReduce JobHistory Server Web UI host:port</description>
</property>
</configuration> YARN启动/停止步骤
在YARN001上执行以下命令
启动YARN:
sbin/start-yarn.sh
停止YARN:
sbin/stop-yarn.sh
启动MR-JobHistory:
sbin/mr-jobhistory-daemon.sh start historyserver #############################OVER#####################################################################

Hadoop生产环境搭建(含HA、Federation)的更多相关文章

  1. Hadoop 学习笔记 (十) hadoop2.2.0 生产环境部署 HDFS HA Federation 含Yarn部署

    其他的配置跟HDFS-HA部署方式完全一样.但JournalNOde的配置不一样>hadoop-cluster1中的nn1和nn2和hadoop-cluster2中的nn3和nn4可以公用同样的 ...

  2. 攻城狮在路上(陆)-- hadoop分布式环境搭建(HA模式)

    一.环境说明: 操作系统:Centos6.5 Linux node1 2.6.32-431.el6.x86_64 #1 SMP Fri Nov 22 03:15:09 UTC 2013 x86_64 ...

  3. linux 生产环境搭建

    Linux基础命令杂记   今天又一次搞Linux生产环境搭建.这是种步骤很多,很繁琐而且又不得不做的事情.虽然做过很多次,但还是有很多步骤.命令不记得,每一次到处找资料很麻烦,于是将一些步骤记下,以 ...

  4. Hadoop之环境搭建

    初学Hadoop之环境搭建   阅读目录 1.安装CentOS7 2.安装JDK1.7.0 3.安装Hadoop2.6.0 4.SSH无密码登陆 本文仅作为学习笔记,供大家初学Hadoop时学习参考. ...

  5. 【HADOOP】| 环境搭建:从零开始搭建hadoop大数据平台(单机/伪分布式)-下

    因篇幅过长,故分为两节,上节主要说明hadoop运行环境和必须的基础软件,包括VMware虚拟机软件的说明安装.Xmanager5管理软件以及CentOS操作系统的安装和基本网络配置.具体请参看: [ ...

  6. Hadoop单机Hadoop测试环境搭建

    Hadoop单机Hadoop测试环境搭建: 1. 安装jdk,并配置环境变量,配置ssh免密码登录 2. 下载安装包hadoop-2.7.3.tar.gz 3. 配置/etc/hosts 127.0. ...

  7. 分享知识-快乐自己:大数据(hadoop)环境搭建

    大数据 hadoop 环境搭建: 一):大数据(hadoop)初始化环境搭建 二):大数据(hadoop)环境搭建 三):运行wordcount案例 四):揭秘HDFS 五):揭秘MapReduce ...

  8. Hadoop分布环境搭建步骤,及自带MapReduce单词计数程序实现

    Hadoop分布环境搭建步骤: 1.软硬件环境 CentOS 7.2 64 位 JDK- 1.8 Hadoo p- 2.7.4 2.安装SSH sudo yum install openssh-cli ...

  9. Hadoop —— 单机环境搭建

    一.前置条件 Hadoop的运行依赖JDK,需要预先安装,安装步骤见: Linux下JDK的安装 二.配置免密登录 Hadoop组件之间需要基于SSH进行通讯. 2.1 配置映射 配置ip地址和主机名 ...

随机推荐

  1. DNS正反向区域解析(二)

    域名查询工具 Nslookup命令 >server 202.106.0.20 #指定DNS服务器 >set q=A #指定要查询的类型(A,PTR,MX,CNAME,NS) >www ...

  2. (四)github之Git的初始设置

    设置姓名与邮箱地址 这里的姓名和邮箱地址会用在git的提交日志之中,在github上公开git仓库时会随着提交日志一起公开. 有两种方式, 第一种,在git bash下设置 第二种, 通过直接编辑.g ...

  3. 20145122《Java面向对象程序设计》实验二实验报告

    实验名称: Java面向对象程序设计 实验内容: 初步掌握单元测试和TDD 理解并掌握面向对象三要素:封装.继承.多态 初步掌握UML建模 熟悉S.O.L.I.D原则 了解设计模式 PSP时间 步骤 ...

  4. STM32唯一的ID

    请看如下程序: /*------------------------------------------------------------------------------------------ ...

  5. Python3基础 tuple 创建空元组或者只有一个元素的元组 并 用乘法成倍扩充

             Python : 3.7.0          OS : Ubuntu 18.04.1 LTS         IDE : PyCharm 2018.2.4       Conda ...

  6. 安装PYthon+Kivy环境(记录)

    在线翻译 https://www.bing.com/translator/ Cython 0.27 发布了.准确说Cython是单独的一门语言,专门用来写在Python里面import用的扩展库.实际 ...

  7. HDU 1863 畅通工程 (最小生成树

    看卿学姐视频学到的题目 kruskal算法实现最小生成树 #include<bits/stdc++.h> using namespace std; ; typedef long long ...

  8. 论文笔记:Mastering the game of Go with deep neural networks and tree search

    Mastering the game of Go with deep neural networks and tree search Nature 2015  这是本人论文笔记系列第二篇 Nature ...

  9. BZOJ 1009: [HNOI2008]GT考试(kmp+dp+矩阵优化)

    http://www.lydsy.com/JudgeOnline/problem.php?id=1009 题意: 思路:真的是好题啊! 对于这种题目,很有可能就是dp,$f[i][j]$表示分析到第 ...

  10. LA 3135 阿格斯(优先队列)

    https://vjudge.net/problem/UVALive-3135 题意: 你的任务是编写一个称为Argus的系统.该系统支持一个Register的命令 Register Q_num Pe ...