大数据系列之Hadoop分布式集群部署

本节目的：搭建Hadoop分布式集群环境

环境准备
1. LZ用OS X系统 ,安装两台Linux虚拟机，Linux系统用的是CentOS6.5；Master Ip：10.211.55.3 ,Slave Ip:10.211.55.4
3. 各虚拟机环境配置好Jdk1.8（1.7+即可）
资料准备
1. hadoop-2.7.3.tar.gz
虚拟机配置步骤
1. 以下操作都在两台虚拟机 root用户下操作，切换至root用户命令
3. 配置Master hostname 为Master ;
```
vi /etc/sysconfig/network
```
4. 生效hostname
```
hostname master
```
  检测主机名是否修改成功命令如下，在操作之前需要关闭当前终端，重新打开一个终端：即可看到终端命令前是[user@hostname]
5. 按照步骤6+7 配置Slave hostname 为 Slave；
6. 关闭Slave防火墙
```
service iptables stop
```
7. 各虚拟机配置hosts列表，
```
vi /etc/hosts
```
  添加内容(LZ master Ip是10.211.55.3，Salve Ip 是10.211.55.4)
9. 验证
```
ping slave

ping master
```
  如图表示修改成功
11. 免密钥登录配置（此部分操作均在用户mfz下操作，切换至用户:su mfz）
  1. Master节点上操作：
```
ssh-keygen -t rsa      （多次回车（Enter）即可）
```
  3. 复制公钥文件
```
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
```
  4. 执行 ll查看
  5. 修改authorized_keys文件的权限，命令如下：
```
chmod  ~/.ssh/authorized_keys   (执行后文件权限为 -rw------- )
```
    　　　　
  6. 将authorized_keys文件复制到slave节点，命令如下：
```
scp ~/.ssh/authorized_keys mfz@slave:~/       (如果提示输入yes/no的时候，输入yes，回车密码是mfz slave登录密码)
```
  7. slave节点上操作
  8. 在终端生成密钥，命令如下（一路点击回车生成密钥）
```
ssh-keygen -t rsa
```
    将authorized_keys文件移动到.ssh目录
```
mv authorized_keys ~/.ssh/
```
  9. 修改authorized_keys文件的权限，命令如下：
```
cd ~/.ssh
chmod  authorized_keys
```
  10. 验证免密钥登录 ,在master节点上执行命令如下
```
ssh slave
```
    如果还提示输入slave登录密码则配置出错。检查步骤。

Hadoop配置

每个节点上的Hadoop配置基本相同，在HadoopMaster节点操作，然后完成复制到另一个节点。下面所有的操作都使用mfz用户，切换mfz用户的命令是：su mfz
资源包上传到 /home/mfz/resources/下
1. 　　
执行命令，最后如果显示目录如下图则表示操作成功

cp /home/mfz/resources/hadoop-2.7..tar.gz /home/mfz/

cd /home/mfz

tar -xzvf hadoop-2.7..tar.gz

ll hadoop-2.7.

修改配置环境变量hadoop-env.sh 环境变量
```
vi /home/mfz/hadoop-2.7./etc/hadoop/hadoop-env.sh
```

配置hdfs-site.xml，添加\替换如下

<configuration>

        <property>

        <name>dfs.replication</name>

        <value></value>

        </property>

</configuration>

配置core-site.xml ，添加\替换如下

<configuration>

    <property>

        <name>fs.defaultFS</name>

        <value>hdfs://master:9000</value>

    </property>

    <property>

       <name>hadoop.tmp.dir</name>

       <value>/home/mfz/hadoopdata</value>

    　　<description>A base for other temporary directories.</description>

    </property>

</configuration>

修改yarn-env.sh 环境变量
```
vi yarn-env.sh
```

配置yarn-site.xml

<configuration>

    <property>

        <name>yarn.nodemanager.aux-services</name>

        <value>mapreduce_shuffle</value>

    </property>

    <property>

        <name>yarn.resourcemanager.address</name>

        <value>master:</value>

    </property>

    <property>

        <name>yarn.resourcemanager.scheduler.address</name>

        <value>master:</value>

    </property>

    <property>

        <name>yarn.resourcemanager.resource-tracker.address</name>

        <value>master:</value>

    </property>

    <property>

        <name>yarn.resourcemanager.admin.address</name>

        <value>master:</value>

    </property>

    <property>

        <name>yarn.resourcemanager.webapp.address</name>

        <value>master:</value>

    </property>

</configuration>

配置计算框架mapred-site.xml

cp mapred-site.xml.template mapred-site.xml

vi mapred-site.xm

--添加/替换 如下

<configuration>

    <property>

        <name>mapreduce.framework.name</name>

        <value>yarn</value>

    </property>

</configuration>

修改slaves文件,插入slave 节点hostname （可配置多个slave）

vi /home/mfz/hadoop-2.7./etc/hadoop/slaves

cat /home/mfz/hadoop-2.7./etc/hadoop/slaves

复制到从节点(使用下面的命令将已经配置完成的Hadoop复制到从节点HadoopSlave上) （可复制到多个slave）
```
cd

scp -r hadoop-2.7. slave:~/

--注意：因为之前已经配置了免密钥登录，这里可以直接远程复制。
```

运行验证-启动Hadoop集群
1. 该节的配置需要同时在两个节点（HadoopMaster和HadoopSlave）上进行操作
2. 操作命令如下：（LZ 环境变量统一放在了/etc/profile 下，也可放于单个用户~/.base_profile 下）
```
cd

vi /etc/profile

添加如下内容

#HADOOP

export HADOOP_HOME=/home/mfz/hadoop-2.7.

export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH     

生效配置

source /etc/profile
```
3. 创建数据目录（该节的配置需要同时在两个节点（HadoopMaster和HadoopSlave）上进行操作。）
  1. ```
  cd 
  mkdir hadoopdata   
     说明：(在用户mfz主目录下操作，此hadoopData目录是hadoop-2.7.3/etc/hadoop/core-site.xml 中hadoop.tmp.dir 的 value)
```
2. 格式化文件系统 ---格式化命令如下，该操作需要在HadoopMaster节点上执行：
```
  hdfs namenode -format
```
3. 如果出现ERROR/Exception 则表示出现问题了。自行百度解决。。。
4. Master节点上启动hadoop 集群
```
  cd /home/mfz/hadoop-2.7./
  
  sbin/start-all.sh
```
  在master的终端执行jps命令，在打印结果中会看到4个进程，分别是ResourceManager、Jps、NameNode和SecondaryNameNode，如下图所示。如果出现了这4个进程表示主节点进程启动成功。
  
  在slave的终端执行jps命令，在打印结果中会看到3个进程，分别是NodeManager、DataNode和Jps，如下图所示。如果出现了这3个进程表示从节点进程启动成功。

大数据系列之Hadoop分布式集群部署的更多相关文章

Hadoop分布式集群部署(单namenode节点)
Hadoop分布式集群部署系统系统环境: OS: CentOS 6.8 内存:2G CPU:1核 Software:jdk-8u151-linux-x64.rpm hadoop-2.7.4.tar. ...
Hadoop教程(五)Hadoop分布式集群部署安装
Hadoop教程(五)Hadoop分布式集群部署安装 1 Hadoop分布式集群部署安装在hadoop2.0中通常由两个NameNode组成,一个处于active状态,还有一个处于standby状态 ...
hadoop分布式集群部署①
Linux系统的安装和配置.(在VM虚拟机上) 一:安装虚拟机VMware Workstation 14 Pro 以上,虚拟机软件安装完成. 二:创建虚拟机. 三:安装CentOS系统 (1)上面步 ...
大数据平台搭建-hadoop/hbase集群的搭建
版本要求 java 版本:1.8.*(1.8.0_60) 下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downl ...
Hadoop实战：Hadoop分布式集群部署（一）
一.系统参数优化配置 1.1 系统内核参数优化配置修改文件/etc/sysctl.conf,使用sysctl -p命令即时生效. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 ...
大数据【三】YARN集群部署
一概述 YARN是一个资源管理.任务调度的框架,采用master/slave架构,主要包含三大模块:ResourceManager(RM).NodeManager(NM).ApplicationMa ...
Hadoop分布式集群部署
环境准备 IP HOSTNAME SYSTEM 192.168.131.129 hadoop-master CentOS 7.6 192.168.131.135 hadoop-slave1 CentO ...
CentOS6安装各种大数据软件第四章：Hadoop分布式集群配置
相关文章链接 CentOS6安装各种大数据软件第一章:各个软件版本介绍 CentOS6安装各种大数据软件第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件第三章:Linux基础 ...
基于Hadoop分布式集群YARN模式下的TensorFlowOnSpark平台搭建
1. 介绍在过去几年中,神经网络已经有了很壮观的进展,现在他们几乎已经是图像识别和自动翻译领域中最强者[1].为了从海量数据中获得洞察力,需要部署分布式深度学习.现有的DL框架通常需要为深度学习设置 ...

随机推荐

origin从图中获得数据
有Origin的原图,即利用Origin的"copy page"功能直接拷贝到文字处理软件的数据图,对于这种图,双击用Origin打开后,双击要导出数据的权限,打开"pl ...
oc是一个全动态语言，oc的一切都是基于runtime实现的！
oc是一个全动态语言,oc的一切都是基于runtime实现的! 从以下三方面来理解runtime吧! 1. 传统的面向过程的语言开发,例如c语言.实现c语言编译器很简单,只要按照语法规则实现一个LAL ...
Intent的属性及Intent-filter配置——Action、Category属性与intent-filter属性
Intent的Action.Category属性都是一个普通的字符串,其中Action代表该Intent所要完成的一个抽象“动作”,而Category则用于为Action增加额外的附加列别的信息.通常 ...
使用ProgressDialog创建进度对话框
ProgressDialog代表了进度对话框,程序只要创建ProgressDialog实例,并将它显示出来就是一个进度对画框.使用ProgressDialog创建进度对话框有如下两种方式. ①如果只是 ...
js判断浏览器在PC中打开还是移动设备中打开
var browser = { versions: function () { va ...
SSH系统介绍
SSH的系统中,对象的调用流程是:JSP->Action->Service->DAO->Hibernate,数据的流向是ActionFormBean接受用户的数据,Action ...
Treeview显示磁盘下的文件，并且可操作
#region TreeView树形显示磁盘下文件夹 /// <summary> /// IconIndexs类对应ImageList中5张图片的序列 /// </summary& ...
QQ18年，解密8亿月活的QQ后台服务接口隔离技术
作者:shane,腾讯后台开发高级工程师 QQ18年 1999年2月10日,腾讯QQ横空出世.光阴荏苒,那个在你屏幕右下角频频闪动的企鹅已经度过了18个年头.随着QQ一同成长的你,还记得它最初的摸样吗 ...
记录UITextField删除状态
self.testTextField.leftView = [[UIView alloc] initWithFrame:CGRectMake(, , , )]; self.testTextField. ...
读书笔记 effective c++ Item 6 如果你不想使用编译器自动生成的函数，你需要明确拒绝
问题描述-阻止对象的拷贝现实生活中的房产中介卖房子,一个服务于这个中介的软件系统很自然的会有一个表示要被销售的房屋的类: class HomeForSale { ... }; 每个房产中介会立刻指出 ...

大数据系列之Hadoop分布式集群部署

创建数据目录（该节的配置需要同时在两个节点（HadoopMaster和HadoopSlave）上进行操作。）

大数据系列之Hadoop分布式集群部署的更多相关文章

随机推荐

热门专题