安装Hadoop

解压安装

登录master, 下载解压hadoop 2.6.2压缩包到/home/hm/文件夹. (也可以从主机拖拽或者psftp压缩包到master)

[hm@master ~]$ tar -xzvf hadoop-2.6.2.tar.gz -C ~

[hm@master ~]$ mv hadoop-2.6.2 hadoop
[hm@master ~]$ cd hadoop/

修改环境变量

[hm@master hadoop]$ vi etc/hadoop/hadoop-env.sh

找到export JAVA_HOME=${JAVA_HOME}, 修改为绝对路径:

# The java implementation to use.

export JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.95.x86_64

建议同时把etc/hadoop/yarn-env.sh和mapred-env.sh的JAVA_HOME也相应修改.

Optional - 修改$PATH

方便在任何路径下执行hadoop命令和Java命令

[hm@master hadoop]$ cd ~

[hm@master ~]$ vi .bash_profile

修改为:

# User specific environment and startup programs

export HADOOP_PREFIX=/home/hm/hadoop

export JAVA_HOME=/usr/lib/jvm/java-1.7.-openjdk-1.7.0.95.x86_64

PATH=$PATH:$HOME/bin:$HADOOP_PREFIX/bin:$HADOOP_PREFIX/sbin:$JAVA_HOME/bin

export PATH

使更改立即生效:

[hm@master ~]$ source .bash_profile

测试环境变量设置

[hm@master hadoop]$ bin/hadoop

可以看到hadoop命令的usage信息.

[hm@master ~]$ jps

可以看到jvm中的进程信息.

配置分布式Hadoop集群

修改配置文件

hadoop/etc/hadoop/core-site.xml

创建tmp目录, 用于放置hdfs产生的临时文件, 不配置的话, 默认位置是/tmp/hadoop-{username}/, 导致机器重启后每次都需要重新format NameNode.

[hm@master hadoop]$ mkdir tmp

<configuration>

    <property>

        <name>fs.defaultFS</name>

        <value>hdfs://master:9100</value>

    </property>

    <property>

      <name>hadoop.tmp.dir</name>

      <value>file:/home/hm/hadoop/tmp</value>

    </property>

</configuration>

file: 代表在本地文件系统中, hdfs: 则代表在分布式文件系统中.

注意提前查看端口是否有被占用

[hm@master hadoop]$ netstat -nap | grep 9100

hadoop/etc/hadoop/hdfs-site.xml

创建hdfs文件系统目录:

[hm@master hadoop]$ mkdir dfs

修改配置文件

<configuration>

    <property>

        <name>dfs.namenode.name.dir</name>

        <value>file:/home/hm/hadoop/dfs/name</value>

        <description>  </description>

    </property>

    <property>

        <name>dfs.datanode.data.dir</name>

        <value>file:/home/hm/hadoop/dfs/data</value>

        <description> </description>

    </property>

    <property>

        <name>dfs.replication</name>

        <value>2</value>

    </property>

</configuration>

hadoop/etc/hadoop/mapred-site.xml

默认不存在, 需要从template复制或者改名

[hm@master hadoop]$ cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml

<configuration>

    <property>

        <name>mapreduce.framework.name</name>

        <value>yarn</value>

    </property>

</configuration>

hadoop/etc/hadoop/yarn-site.xml

<configuration>

<!-- Site specific YARN configuration properties -->

    <property>

        <description>The hostname of the RM.</description>

        <name>yarn.resourcemanager.hostname</name>

        <value>master</value>

    </property>

    <property>

        <name>yarn.nodemanager.aux-services</name>

        <value>mapreduce_shuffle</value>

    </property>

    <property>

        <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>

        <value>org.apache.hadoop.mapred.ShuffleHandler</value>

    </property>

</configuration>

添加master, slave节点的hostname, 或者ip

该文件主要被hadoop的某些脚本调用, 作用是从master一次性向多台slave发生命令. 因此前提是ssh免密码登录必须配置好.

[hm@master hadoop]$ vi etc/hadoop/slaves

修改为:

slave1

slave2

Optional - 实现机架感知 (rack-aware)

http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/RackAwareness.html

Logging

通过修改etc/hadoop/log4j.properties可以自定义hadoop daemons的log设置

将配置好的Hadoop安装包拷贝到Slaves

这样可以节省很多安装部署的时间, 但必须要保证slave和master拥有同样的文件目录结构, 用户和用户组的名字以及权限.

[hm@master hadoop]$ scp -r hadoop/ hm@slave1:~

[hm@master hadoop]$ scp -r hadoop/ hm@slave2:~

此外, 记得修改slave机器上的环境变量, e.g. .bash_profile文件, 内容和master保持一致.

启动HDFS

格式化分布式文件系统

[hm@master hadoop]$ bin/hdfs namenode -format

关闭防火墙

CentOS 6.7, 默认会有防火墙开启, DataNode发给NameNode的心跳信息会被挡在防火墙外.

需要去防火墙里设置master, slave对应的端口, 或者不考虑安全性的话, 直接关闭所有集群虚拟机的防火墙. 步骤:

1. 检查防火墙状态

[hm@master ~]$ sudo /etc/init.d/iptables status

2. 停止防火墙

[hm@master ~]$ sudo /etc/init.d/iptables stop

可以把防火墙设置为开机不自启

[hm@master hadoop]$ sudo chkconfig iptables off
[hm@master hadoop]$ chkconfig --list iptables

启动HDFS

[hm@master hadoop]$ sbin/start-dfs.sh

检查启动结果:

在master上, 输入jps, 可以看到NameNode和SecondaryNameNode两个daemon

[hm@master hadoop]$ jps

24440 Jps

24153 NameNode

24325 SecondaryNameNode

在slave1和slave2上, 输入jps, 可以看到DataNode的daemon

[hm@slave1 hadoop]$ jps

23852 DataNode

23927 Jps

检查集群状态

[hm@master hadoop]$ bin/hdfs dfsadmin -report

或者登录 http://master:50070 查看. Live DataNodes应该>0. 否则查看DataNode节点的log看具体原因.

启动YARN

[hm@master hadoop]$ sbin/start-yarn.sh

此时查看jps结果, 在master上可以看到多了ResourceManager的daemon

[hm@master hadoop]$ jps

24153 NameNode

24762 Jps

24506 ResourceManager

24325 SecondaryNameNode

在slave上则多了NodeManager的daemon

[hm@slave1 hadoop]$ jps

23852 DataNode

23971 NodeManager

24082 Jps

至此, 整个集群环境配置完成.

Web Interface

http://master:50070 NameNode信息, 应该可以看到slave1, slave2的信息.

http://master:8088 ResourceManager信息

注意: 如果虚拟机启用了proxy, 必须把master加入到proxy的Ignored Hosts里面, 否则上述URL无法访问.

运行MapReduce Job

这里以自带的wordcount为例.

准备工作

在hdfs里创建input文件夹: (/user/hm是hm用户在hdfs的默认home)

[hm@master hadoop]$ bin/hdfs dfs -mkdir -p /user/hm/input/wordcount

创建一个测试文件, 添加些内容, 并上传到hdfs里

[hm@master hadoop]$ vi tmp/helloworld
hello hadoop
hello master
hello slave
hello slave too

[hm@master hadoop]$ bin/hdfs dfs -put tmp/helloworld input/wordcount

查看内容是否成功上传到hdfs

[hm@master hadoop]$ bin/hdfs dfs -ls input/wordcount

或者想看看内容是否一致

[hm@master hadoop]$ bin/hdfs dfs -text input/wordcount/helloworld

重复上述步骤, 多上传几个文件.

运行wordcount程序

[hm@master hadoop]$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.2.jar wordcount input/wordcount output/wordcount

查看运行输出结果:

[hm@master hadoop]$ bin/hdfs dfs -cat output/wordcount/*

hadoop    1

hello     4

master    1

slave     2

too       1

停止YARN和HDFS

运行结束, 不再需要执行其他任务了, 就可以关闭守护进程:

[hm@master hadoop]$ sbin/stop-yarn.sh

[hm@master hadoop]$ sbin/stop-dfs.sh

如果希望下次重新格式化hdfs, 最好把相关的文件删除, 然后重启机器. 也建议删除不再需要的log文件释放虚拟机空间.

[hm@master hadoop]$ rm -rf dfs/

[hm@master hadoop]$ rm -rf tmp/*

[hm@master hadoop]$ rm -rf logs/*

整个环境配置和java app运行都没有问题了. 接下来要进行debug, 参见搭建Hadoop集群 (三)

搭建Hadoop集群 (二)的更多相关文章

搭建Hadoop集群 (三)
通过搭建Hadoop集群 (二), 我们已经可以顺利运行自带的wordcount程序. 下面学习如何创建自己的Java应用, 放到Hadoop集群上运行, 并且可以通过debug来调试. 有多少种D ...
搭建Hadoop集群 (一)
上面讲了如何搭建Hadoop的Standalone和Pseudo-Distributed Mode(搭建单节点Hadoop应用环境), 现在我们来搭建一个Fully-Distributed Mode的 ...
Hadoop集群(二) HDFS搭建
HDFS只是Hadoop最基本的一个服务,很多其他服务,都是基于HDFS展开的.所以部署一个HDFS集群,是很核心的一个动作,也是大数据平台的开始. 安装Hadoop集群,首先需要有Zookeeper ...
Linux 搭建Hadoop集群成功
内容基于(自己的真是操作步骤编写) Linux 搭建Hadoop集群---Jdk配置 Linux 搭建Hadoop集群 ---SSH免密登陆一:下载安装 Hadoop 1.1:下载指定的Hadoop ...
阿里云搭建hadoop集群服务器，内网、外网访问问题（详解。。。）
这个问题花费了我将近两天的时间,经过多次试错和尝试,现在想分享给大家来解决此问题避免大家入坑,以前都是在局域网上搭建的hadoop集群,并且是局域网访问的,没遇见此问题. 因为阿里云上搭建的hadoo ...
虚拟机搭建Hadoop集群
安装包准备操作系统:ubuntu-16.04.3-desktop-amd64.iso 软件包:VirtualBox 安装包:hadoop-3.0.0.tar.gz,jdk-8u161-linux-x ...
在搭建Hadoop集群环境时遇到的一些问题
最近在学习搭建hadoop集群环境,在搭建的过程中遇到很多问题,在这里做一些记录.1. SSH相关的问题问题一: ssh: connect to host localhost port 22: Co ...
使用Docker搭建Hadoop集群(伪分布式与完全分布式)
之前用虚拟机搭建Hadoop集群(包括伪分布式和完全分布式:Hadoop之伪分布式安装),但是这样太消耗资源了,自学了Docker也来操练一把,用Docker来构建Hadoop集群,这里搭建的Hado ...
Spark集群环境搭建——Hadoop集群环境搭建
Spark其实是Hadoop生态圈的一部分,需要用到Hadoop的HDFS.YARN等组件. 为了方便我们的使用,Spark官方已经为我们将Hadoop与scala组件集成到spark里的安装包,解压 ...

随机推荐

自学Xpath的几个例子
Xpath可以对XML文件中的信息进行查找,并对XML文件树形结构进行遍历.详细语法请转:http://www.w3school.com.cn/xpath/index.asp 例子:利用在JavaSc ...
uri 和 url 的区别
uri 统一资源标识符,值是唯一标识资源的任意字符,比如guid url 统一资源定位符,值是标识资源的字符串,但是包含定位信息,比如http://localhost/index.html
Java程序执行Linux命令
Java程序中要执行linux命令主要依赖2个类:Process和Runtime 首先看一下Process类: ProcessBuilder.start() 和 Runtime.exec 方法创建一个 ...
ecshop开发日志之手机端虚拟商品自动发货
在ecshop官方模版收,web端的虚拟商品购买后不能像pc端那般直接在付款后出现虚拟商品的卡号,密码,截止日期一下为让手机购买也可以在付款后自动显示发货并能显示卡号密码截止日期首先找到pc端的fl ...
Ubuntu安装Mysql及使用
(1)在线安装:sudo apt-get install mysql-server(2)管理mysql: sudo /etc/init.d/mysql start===========>开启my ...
JQuery表格展开与内容筛选
单击分类的时候,可以关闭打开相对应的内容.例如点击前台设计组,则只显示前台设计组的内容.再次点击则收缩. 筛选的话就是匹配输入框的内容,如果某行数据存在,则显示出来. <html> < ...
在网页中使用javascript提供反馈信息
一,使用document.write() 二,使用window方法,prompt(),alert()和confirm() <html lang="en"> < ...
转：Server.MapPath相关
如果你从Page类继承的类中执行这条语句,才可以简单地使用 DataBase = Server.MapPath("data.mdb");否则写全命名空间:System.Web.Ht ...
Nginx修改配置实现图片防盗链
一般情况下,防盗链是针对软件下载和图片的,由于一般的站点不提供资源下载,所以本文主要是针对图片的防盗链 1.如果对全站图片做防盗链,至少需要一个另外的域名存放指向图片.因为如果对全站图片做了防盗链,包 ...
python初学笔记（三）
Unicode字符串字符串还有一个编码问题. 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理.最早的计算机在设计时采用8个比特(bit)作为一个字节 (byte),所以,一 ...

搭建Hadoop集群 (二)

安装Hadoop

解压安装

修改环境变量

Optional - 修改$PATH

测试环境变量设置

配置分布式Hadoop集群

修改配置文件

hadoop/etc/hadoop/core-site.xml

hadoop/etc/hadoop/hdfs-site.xml

hadoop/etc/hadoop/mapred-site.xml

hadoop/etc/hadoop/yarn-site.xml

添加master, slave节点的hostname, 或者ip

Optional - 实现机架感知 (rack-aware)

Logging

更多配置

将配置好的Hadoop安装包拷贝到Slaves

启动HDFS

格式化分布式文件系统

关闭防火墙

启动HDFS

启动YARN

Web Interface

运行MapReduce Job

准备工作

运行wordcount程序

停止YARN和HDFS

搭建Hadoop集群 (二)的更多相关文章

随机推荐

热门专题