Hadoop集群环境搭建

-----------------------------------------------------------

自学记录，交流学习请发送邮件至gxz1984@gmail.com

【各节点的防火墙一定要关闭！】

-----------------------------------------------------------

2015-3-26

环境：

操作系统ubuntu 14.10

Hadoop 2.60

JDK 1.7

节点说明：

192.168.47.133 master
192.168.47.134 slave1
192.168.47.135 slave2

1、安装JDK

下载jdk1.7，解压，复制【三个节点都需要安装】

tar -xvzf jdk-7u75-linux-x64.tar.gz

mkdir /opt/Java

mv jdk1.7.0_75/ /opt/Java/jdk1.7

环境变量设置

vi .bashrc

export JAVA_HOME=/opt/Java/jdk1.7

export CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$CLASSPATH

export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH

source .bashrc

测试安装是否成功
java -version

2、创建hadoop用户

sudo useradd hadoop

sudo passwd hadoop

sudo mkdir /home/hadoop

sudo chown hadoop:hadoop /home/hadoop

#赋予hadoop用户sudo的权限

sudo adduser hadoop sudo

3、网络配置【修改机器名】

sudo vim /etc/hostname

sudo vim /etc/hosts

192.168.47.133  master

192.168.47.134  slave1

192.168.47.135  slave2

4、安装SSH server、配置SSH无密码登陆

安装openssh

sudo apt-get install openssh-server

生成密钥

ssh-keygen -t rsa

cd .ssh/

cp id_rsa.pub authorized_keys

cd ..

scp -r .ssh hadoop@slave1:/home/hadoop

scp -r .ssh hadoop@slave2:/home/hadoop

5、配置集群/分布式环境

所有配置任务在master节点上完成，将配置好的程序拷贝到slave节点即可

安装：

sudo tar -zxvf ~/下载/hadoop-2.6.0.tar.gz -C /usr/local   # 解压到/usr/local中

sudo mv /usr/local/hadoop-2.6.0/ /usr/local/hadoop      # 将文件名改为hadoop

sudo chown -R hadoop:hadoop /usr/local/hadoop       # 修改文件权限

配置/usr/local/hadoop/etc/hadoop中的配置文件

（1）文件slaves、masters

192.168.47.134

192.168.47.135

masters没有，新建该文件，里面输入master节点的ip地址即可

（2）文件 core-site.xml

<configuration>

  <property>

    <name>fs.default.name</name>

    <value>hdfs://master:9000</value>

  </property>

  <property>

    <name>hadoop.tmp.dir</name>

    <value>file:///usr/local/hadoop/tmp</value>

    <description>Abase for other temporary directories.</description>

  </property>

</configuration>

（3）文件hdfs-site.xml，因为有两个Slave，所以dfs.replication的值设为2。

<configuration>

<property>

    <name>dfs.nameservices</name>

    <value>hadoop-cluster1</value>

</property>

<property>

    <name>dfs.namenode.secondary.http-address</name>

    <value>master:50090</value>

</property>

<property>

    <name>dfs.namenode.name.dir</name>

    <value>file:///usr/local/hadoop/tmp/dfs/name</value>

</property>

<property>

    <name>dfs.datanode.data.dir</name>

    <value>file:///usr/local/hadoop/tmp/dfs/data</value>

</property>

<property>

    <name>dfs.replication</name>

    <value>2</value>

</property>

</configuration>

（4）

文件mapred-site.xml，这个文件不存在，首先需要从模板中复制一份：

cp mapred-site.xml.template mapred-site.xml

然后配置修改如下

<configuration>

  <property>

    <name>mapreduce.framework.name</name>

    <value>yarn</value>

  </property>

  <property>

    <name>mapreduce.jobtracker.http.address</name>

    <value>master:50030</value>

  </property>

  <property>

    <name>mapreduce.jobhistory.address</name>

    <value>master:10020</value>

  </property>

</configuration>

（5）文件yarn-site.xml

<configuration>

<!-- Site specific YARN configuration properties -->

<property>

    <name>yarn.resourcemanager.hostname</name>

    <value>master</value>

</property>

<property>

    <name>yarn.nodemanager.aux-services</name>

    <value>mapreduce_shuffle</value>

</property>

</configuration>

（6）文件hadoop-env.sh

指定JAVA_HOME的路径

export JAVA_HOME=/opt/Java/jdk1.7/

完成配置，将hadoop整个目录发送到slave节点即可

===================================================

6、启动hadoop

在master节点上：

cd /usr/local/hadoop/

bin/hdfs namenode -format       # 首次运行需要执行初始化，后面不再需要

sbin/start-all.sh

通过jps查看各节点启动的服务

可以看到Master节点启动了NameNode、ResourceManager进程。

Slave节点则启动了DataNode和NodeManager进程。

停止服务

sbin/stop-all.sh

7、测试

执行WordCount实例过程首先创建所需的几个目录

bin/hdfs dfs -mkdir /user

bin/hdfs dfs -mkdir /user/hadoop

将etc/hadoop中的文件作为输入文件复制到分布式文件系统中

bin/hdfs dfs -put etc/hadoop input

接着就可以运行MapReduce作业了

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar grep input output 'dfs[a-z.]+'

同样可以通过Web界面查看任务进度 http://master:8088/cluster

参考教程：http://www.powerxing.com/install-hadoop-cluster-2-4-1/

=======================================

2017-07-16

如果master节点的防火墙没有关闭，slave节点的logs会一直报错误：Problem connecting to server: master/192.168.138.101:9000

然后一直在retry connect master

关闭master的防火墙即可

---------------------------------------------

如果slave节点的防火墙没有关闭，hadoop fs -put时没法执行成功，slave节点的防火墙关闭即可

【再次重新安装忘了关闭防火墙捣鼓了一晚上！】

======================================

Hadoop集群环境搭建的更多相关文章

hadoop集群环境搭建之zookeeper集群的安装部署
关于hadoop集群搭建有一些准备工作要做,具体请参照hadoop集群环境搭建准备工作 (我成功的按照这个步骤部署成功了,经实际验证,该方法可行) 一.安装zookeeper 1 将zookeeper ...
hadoop集群环境搭建之安装配置hadoop集群
在安装hadoop集群之前,需要先进行zookeeper的安装,请参照hadoop集群环境搭建之zookeeper集群的安装部署 1 将hadoop安装包解压到 /itcast/ (如果没有这个目录 ...
hadoop集群环境搭建准备工作
一定要注意hadoop和linux系统的位数一定要相同,就是说如果hadoop是32位的,linux系统也一定要安装32位的. 准备工作: 1 首先在VMware中建立6台虚拟机(配置默认即可).这是 ...
Hadoop集群环境搭建步骤说明
Hadoop集群环境搭建是很多学习hadoop学习者或者是使用者都必然要面对的一个问题,网上关于hadoop集群环境搭建的博文教程也蛮多的.对于玩hadoop的高手来说肯定没有什么问题,甚至可以说事“ ...
大数据 -- Hadoop集群环境搭建
首先我们来认识一下HDFS, HDFS(Hadoop Distributed File System )Hadoop分布式文件系统.它其实是将一个大文件分成若干块保存在不同服务器的多个节点中.通过联网 ...
Spark集群环境搭建——Hadoop集群环境搭建
Spark其实是Hadoop生态圈的一部分,需要用到Hadoop的HDFS.YARN等组件. 为了方便我们的使用,Spark官方已经为我们将Hadoop与scala组件集成到spark里的安装包,解压 ...
简单Hadoop集群环境搭建
最近大数据课程需要我们熟悉分布式环境,每组分配了四台服务器,正好熟悉一下hadoop相关的操作. 注:以下带有(master)字样为只需在master机器进行,(ALL)则表示需要在所有master和 ...
Hadoop集群环境搭建(一)
1集群简介 HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起 HDFS集群: 负责海量数据的存储,集群中的角色主要有 NameNode / DataN ...
Java+大数据开发——Hadoop集群环境搭建(一)
1集群简介 HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起 HDFS集群: 负责海量数据的存储,集群中的角色主要有 NameNode / DataN ...
Hadoop(4)-Hadoop集群环境搭建
准备工作开启全部三台虚拟机,确保hadoop100的机器已经配置完成分发脚本操作hadoop100 新建一个xsync的脚本文件,将下面的脚本复制进去 vim xsync #这个脚本使用的是rs ...

随机推荐

DOM概述
<!-- DOM:Document Object Model 文档对象模型用来将标记型文档封装成对象,并将标记型文档中的所有内容(标签,文本,属性等)都封装成对象封装成对象的目的是为了更为方 ...
EL表达式Expression Language
表达式语言Expression Language目的:简化jsp代码 EL内置对象 1.pageContext2.pageScope3.requestScope4.sessionScope5.appl ...
Yii2 发送邮件
http://www.cnblogs.com/wwolf/p/5438691.html?utm_source=tuicool&utm_medium=referral
JDBC 基本操作
1. 简介 JDBC(Java DataBase Connectivity) 是有一些接口和类构成的API JDBC是J2SE的一部分, 又java.sql: javax.sql包组成. 应用程序 ...
史上最臭名昭著五大软件Bug
在现今数字年代,计算机bug不但困扰着每个程序员,更会无可避免影响我们的生活,小到每个人的衣食住行,大到国家经济,世界局势.随着我们的生活方式渐渐的数字化.互联网化,数字世界的找虫和杀虫就变得越来越重 ...
ArrayBlockingQueue，BlockingQueue分析
BlockingQueue接口定义了一种阻塞的FIFO queue,每一个BlockingQueue都有一个容量,让容量满时往BlockingQueue中添加数据时会造成阻塞,当容量为空时取元素操作会 ...
弹出框以及提示插件lghdialog.js的使用
以下使用方法 swfupload的使用
【转】Ubuntu下查看软件版本及安装位置
查看软件版本:aptitude show xxx 也可用apt-show-versions (要先安装sudo apt-get install apt-show-versions) 查看软件安装位置: ...
IntelliJ IDEA Community Edition 14.1.4下使用 Apache-Subversion搭建代码管理环境
当前我的idea 版本是14.1.4. 1,)SVN Server下载与安装(https://www.visualsvn.com/server/): 因为我开发机是x64的,所以我优先下载 x64的 ...
bootstrap入门-2.固定的内置样式
HTML5文档类型(Doctype) Bootstrap使用了一些HTML5元素和CSS属性,所以需要使用HTML5文档类型. <!DOCTYPE html> <html> . ...

Hadoop集群环境搭建

Hadoop集群环境搭建的更多相关文章

随机推荐

热门专题