Hadoop伪分布模式配置部署

一、实验介绍

1.1 实验内容

hadoop配置文件介绍及修改
hdfs格式化
启动hadoop进程，验证安装

1.2 实验知识点

hadoop核心配置文件
文件系统的格式化
测试WordCount程序

1.3 实验环境

hadoop2.7.6
CentOS6终端

1.4 适合人群

本课程难度为一般，属于初级级别课程，适合具有hadoop基础的用户。

二、Hadoop伪分布式模式配置

注意：本实验需要按照上一节单机模式部署后继续进行操作，因此您必须先完成上一节实验。

2.1 相关配置文件修改

（若文件中没有添加的配置项，则系统为默认值，不会对该实验产生影响）

1).修改`.bashrc`:

由于平台环境与该实验hadoop版本不匹配问题，需要对.bashr文件中末尾处的环境变量做修改

$ vim /home/hadoop/.bashrc

修改为：

export HADOOP_HOME=/home/hadoop/hdfs

export PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/home/hadoop/hdfs/bin:/home/hadoop/hdfs/sbin

由于本实验不会用到hbase和hive，所以相关环境变量删除。

提醒:修改了配置文件后，如何使变量生效？上一节我们有使用到过，大家自行回顾一下。

2).修改`core-site.xml`:

$ vim /home/hadoop/hdfs/etc/hadoop/core-site.xml

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>

    <property>

        <name>fs.defaultFS</name>

        <value>hdfs://localhost:9000</value>

    </property>

    <property>

        <name>hadoop.tmp.dir</name>

        <value>/home/hadoop/tmp</value>

   </property>

</configuration>

常用配置项说明：

fs.defaultFS这是默认的HDFS路径。当有多个HDFS集群同时工作时，用户在这里指定默认HDFS集群，该值来自于hdfs-site.xml中的配置。
fs.default.name这是一个描述集群中NameNode结点的URI(包括协议、主机名称、端口号)，集群里面的每一台机器都需要知道NameNode的地址。DataNode结点会先在NameNode上注册，这样它们的数据才可以被使用。独立的客户端程序通过这个URI跟DataNode交互，以取得文件的块列表。

hadoop.tmp.dir 是hadoop文件系统依赖的基础配置，很多路径都依赖它。如果hdfs-site.xml中不配置namenode和datanode的存放位置，默认就放在/tmp/hadoop-${user.name}这个路径中。

更多说明请参考core-default.xml，包含配置文件所有配置项的说明和默认值。

3).修改`hdfs-site.xml`:

$ vim /home/hadoop/hdfs/etc/hadoop/hdfs-site.xml

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>

    <property>

        <name>dfs.replication</name>

        <value>1</value>

    </property>

</configuration>

常用配置项说明：

dfs.replication它决定着系统里面的文件块的数据备份个数。对于一个实际的应用，它应该被设为3（这个数字并没有上限，但更多的备份可能并没有作用，而且会占用更多的空间）。少于三个的备份，可能会影响到数据的可靠性(系统故障时，也许会造成数据丢失)
dfs.data.dir这是DataNode结点被指定要存储数据的本地文件系统路径。DataNode结点上的这个路径没有必要完全相同，因为每台机器的环境很可能是不一样的。但如果每台机器上的这个路径都是统一配置的话，会使工作变得简单一些。默认的情况下，它的值为file://${hadoop.tmp.dir}/dfs/data这个路径只能用于测试的目的，因为它很可能会丢失掉一些数据。所以这个值最好还是被覆盖。
dfs.name.dir这是NameNode结点存储hadoop文件系统信息的本地系统路径。这个值只对NameNode有效，DataNode并不需要使用到它。上面对于/temp类型的警告，同样也适用于这里。在实际应用中，它最好被覆盖掉。

更多说明请参考hdfs-default.xml，包含配置文件所有配置项的说明和默认值。

4).修改`mapred-site.xml`:

$ cp /home/hadoop/hdfs/etc/hadoop/mapred-site.xml.template /home/hadoop/hdfs/etc/hadoop/mapred-site.xml

$ vim /home/hadoop/hdfs/etc/hadoop/mapred-site.xml

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>

    <property>

        <name>mapreduce.framework.name</name>

        <value>yarn</value>

    </property>

</configuration>

常用配置项说明：

mapred.job.trackerJobTracker的主机（或者IP）和端口。

更多说明请参考mapred-default.xml，包含配置文件所有配置项的说明和默认值

5).修改`yarn-site.xml`:

$ vim /home/hadoop/hdfs/etc/hadoop/yarn-site.xml

<configuration>

    <property>

        <name>yarn.nodemanager.aux-services</name>

        <value>mapreduce_shuffle</value>

    </property>

</configuration>

常用配置项说明：

yarn.nodemanager.aux-services通过该配置，用户可以自定义一些服务

更多说明请参考yarn-default.xml，包含配置文件所有配置项的说明和默认值

6). 修改 `hadoop-env.sh`:

$ sudo vim /home/hadoop/hdfs/etc/hadoop/hadoop-env.sh

修改 JAVA_HOME 如下：

export JAVA_HOME=/usr/lib/jvm/java-8-oracle

export HADOOP_CONF_DIR=/home/hadoop/hdfs/etc/hadoop

这样简单的伪分布式模式就配置好了。

三、格式化HDFS文件系统

在使用hadoop前，必须格式化一个全新的HDFS安装，通过创建存储目录和NameNode持久化数据结构的初始版本，格式化过程创建了一个空的文件系统。由于NameNode管理文件系统的元数据，而DataNode可以动态的加入或离开集群，因此这个格式化过程并不涉及DataNode。同理，用户也无需关注文件系统的规模。集群中DataNode的数量决定着文件系统的规模。DataNode可以在文件系统格式化之后的很长一段时间内按需增加。

3.1 格式化HDFS文件系统

$ hadoop namenode -format

会输出如下信息，则表格式化HDFS成功：

DEPRECATED: Use of this script to execute hdfs command is deprecated.

Instead use the hdfs command for it.

INFO namenode.NameNode: STARTUP_MSG:

/************************************************************

STARTUP_MSG: Starting NameNode

STARTUP_MSG:   host = [你的主机名]/[你的ip]

STARTUP_MSG:   args = [-format]

STARTUP_MSG:   version = 2.7.6

...

...

INFO util.GSet: Computing capacity for map NameNodeRetryCache

INFO util.GSet: VM type       = 64-bit

INFO util.GSet: 0.029999999329447746% max memory 889 MB = 273.1 KB

INFO util.GSet: capacity      = 2^15 = 32768 entries

INFO namenode.NNConf: ACLs enabled? false

INFO namenode.NNConf: XAttrs enabled? true

INFO namenode.NNConf: Maximum size of an xattr: 16384

INFO namenode.FSImage: Allocated new BlockPoolId: BP-549895748-192.168.42.3-1489569976471

INFO common.Storage: Storage directory /home/hadoop/hadop2.6-tmp/dfs/name has been successfully formatted.

INFO namenode.NNStorageRetentionManager: Going to retain 1 images with txid >= 0

NFO util.ExitUtil: Exiting with status 0

INFO namenode.NameNode: SHUTDOWN_MSG:

/************************************************************

SHUTDOWN_MSG: Shutting down NameNode at [你的主机名]//[你的ip]

************************************************************/

hadoop@c81af9a07ade:/opt/hadoop-2.7.6/bin$ jps

四、Hadoop集群启动

4.1 启动hdfs守护进程，分别启动NameNode和DataNode

$ start-dfs.sh

输出如下（可以看出分别启动了namenode, datanode, secondarynamenode，因为我们没有配置secondarynamenode，所以地址为0.0.0.0）：

Starting namenodes on []

hadoop@localhost's password:

localhost: starting namenode, logging to /usr/local/hadoop/logs/hadoop-hadoop-namenode-G470.out

hadoop@localhost's password:

localhost: starting datanode, logging to /usr/local/hadoop/logs/hadoop-hadoop-datanode-G470.out

localhost: OpenJDK 64-Bit Server VM warning: You have loaded library /usr/local/hadoop/lib/native/libhadoop.so.1.0.0 which might have disabled stack guard. The VM will try to fix the stack guard now.

localhost: It's highly recommended that you fix the library with 'execstack -c <libfile>', or link it with '-z noexecstack'.

Starting secondary namenodes [0.0.0.0]

hadoop@0.0.0.0's password:

0.0.0.0: starting secondarynamenode, logging to /usr/local/hadoop/logs/hadoop-hadoop-secondarynamenode-G470.out

4.2 启动yarn,使用如下命令启ResourceManager和NodeManager:

$ start-yarn.sh

4.3 检查是否运行成功

打开浏览器

输入：http://localhost:8088进入ResourceManager管理页面
输入：http://localhost:50070进入HDFS页面

可能出现的问题及调试方法：

启动伪分布后，如果活跃节点显示为零，说明伪分布没有真正的启动。原因是有的时候数据结构出现问题会造成无法启动datanode。如果使用hadoop namenode -format重新格式化仍然无法正常启动，原因是/tmp中的文件没有清除，则需要先清除/tmp/hadoop/*再执行格式化，即可解决hadoop datanode无法启动的问题。具体步骤如下所示：

# 删除hadoop:/tmp

$ hadoop fs -rmr /tmp

# 停止hadoop

$ stop-all.sh

# 删除/tmp/hadoop*

$ rm -rf /tmp/hadoop*

# 格式化

$ hadoop namenode -format

# 启动hadoop

$ start-all.sh

五、测试验证

测试验证还是使用上一节的 WordCount。

不同的是，这次是伪分布模式，使用到了 hdfs，因此我们需要把文件拷贝到 hdfs 上去。

首先创建相关文件夹（要一步一步的创建）：

$ hadoop dfs -mkdir /user

$ hadoop dfs -mkdir /user/hadoop

$ hadoop dfs -mkdir /user/hadoop/input

创建多层目录的简便方法：

$ hadoop dfs -mkdir -p /user/hadoop/input

5.1 创建输入的数据，采用/etc/protocols文件作为测试

先将文件拷贝到 hdfs 上：

$ hadoop dfs -put /etc/protocols /user/hadoop/input

5.2 执行Hadoop WordCount应用（词频统计）

# 如果存在上一次测试生成的output，由于hadoop的安全机制，直接运行可能会报错，所以请手动删除上一次生成的output文件夹

$ hadoop jar /home/hadoop/hdfs/share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.7.6-sources.jar wordcount /user/hadoop/input output

执行过程截图（部分）：

5.3 查看生成的单词统计数据

$ hadoop dfs -cat /user/hadoop/output/*

六、关闭服务

$ stop-dfs.sh

$ stop-yarn.sh

七、小结

本实验讲解如何在单机模式下继续部署Hadoop为伪分布模式。

八、思考题

伪分布模式和单机模式配置上的区别主要是哪些？是否可以推论出如何部署真实的分布式Hadoop环境？

九、参考文档

本实验参考下列文档内容制作：

http://www.cnblogs.com/kinglau/p/3796164.html

实验楼练习平台：http://www.shiyanlou.com/register?inviter=NTY0MzE5NjA1NjM3

3-2 Hadoop集群伪分布模式配置部署的更多相关文章

Spark新手入门——2.Hadoop集群(伪分布模式)安装
主要包括以下三部分,本文为第二部分: 一. Scala环境准备查看二. Hadoop集群(伪分布模式)安装三. Spark集群(standalone模式)安装查看 Hadoop集群(伪分布模式 ...
3-3 Hadoop集群完全分布式配置部署
Hadoop集群完全分布式配置部署下面的部署步骤,除非说明是在哪个服务器上操作,否则默认为在所有服务器上都要操作.为了方便,使用root用户. 1.准备工作 1.1 centOS6服务器3台手动指 ...
Hadoop伪分布模式配置部署
.实验环境说明注意:本实验需要按照上一节单机模式部署后继续进行操作 1. 环境登录无需密码自动登录,系统用户名 shiyanlou,密码 shiyanlou 2. 环境介绍本实验环境采用带桌面的 ...
使用Docker搭建Hadoop集群(伪分布式与完全分布式)
之前用虚拟机搭建Hadoop集群(包括伪分布式和完全分布式:Hadoop之伪分布式安装),但是这样太消耗资源了,自学了Docker也来操练一把,用Docker来构建Hadoop集群,这里搭建的Hado ...
一脸懵逼学习基于CentOs的Hadoop集群安装与配置
1:Hadoop分布式计算平台是由Apache软件基金会开发的一个开源分布式计算平台.以Hadoop分布式文件系统(HDFS)和MapReduce(Google MapReduce的开源实现)为核心的 ...
一脸懵逼学习基于CentOs的Hadoop集群安装与配置（三台机器跑集群）
1:Hadoop分布式计算平台是由Apache软件基金会开发的一个开源分布式计算平台.以Hadoop分布式文件系统(HDFS)和MapReduce(Google MapReduce的开源实现)为核心的 ...
大数据中Hadoop集群搭建与配置
前提环境是之前搭建的4台Linux虚拟机,详情参见 Linux集群搭建该环境对应4台服务器,192.168.1.60.61.62.63,其中60为主机,其余为从机软件版本选择: Java:JDK1 ...
Hadoop集群_Hadoop安装配置
1.集群部署介绍 1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台.以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesy ...
Spark在Hadoop集群上的配置(spark-1.1.0-bin-hadoop2.4)
运行Spark服务,需要在每个节点上部署Spark. 可以先从主节点上将配置修改好,然后把Spark直接scp到其他目录. 关键配置修改conf/spark-env.sh文件: export JAV ...

随机推荐

从头开始学Maven【仓库】
仓库的分类本地仓库改setting.xml 文件中的 <localRepository/> 远程仓库远程仓库的配置远程仓库的认证部署至远程仓库中央仓库在$M2_HOME/li ...
ActiveMQ简单使用
// 第一步:创建ConnectionFactory对象,需要指定服务端ip及端口号. //brokerURL服务器的ip及端口号 ConnectionFactory connectionFactor ...
poj1847 Tram（最短路dijkstra）
描述: Tram network in Zagreb consists of a number of intersections and rails connecting some of them. ...
php 多维数组转二维数组
array(3) { ["money"]=> string(6) "255.00" ["id"]=> string(1) &qu ...
mysql5.7版本开始创建用户需要create user
mysql5.7版本开始创建用户需要create user 5.7版本之后,直接使用:grant select on MySQL.test01 to hug@localhost; 是不行的,会报错: ...
mysql 与 oracle 的时间查询
关于时间区间查询 1.mysql select * from t_date a where date_format (a.delete_time,'%Y-%m-%d') <date_format ...
Intellij IDEA 代码格式化/保存时自动格式化
这里介绍使用google style 一.安装插件 1.settings -> plugins 选择 Browse repositories… 2.搜索google-java-format 和 ...
.net基础学java系列（二）IDE
上一篇文章.net基础学java系列(一)视野废话: "视野"这篇文章,管理员说它比较空洞!也许初学者看不懂表格中的大部分内容!多年的neter估计也有很多不知道的! 有.net ...
ansible安装使用介绍
1.介绍安装 a.介绍 Ansible:—基于 Python paramiko 开发,分布式,无需客户端,轻量级,配置语法使用 YMAL 及 Jinja2模板语言,更强的远程命令执行操作. b.安装 ...
RESTful-3架构详解
1. 什么是REST REST全称是Representational State Transfer,中文意思是表述(编者注:通常译为表征)性状态转移. 它首次出现在2000年Roy Fielding的 ...

3-2 Hadoop集群伪分布模式配置部署

Hadoop伪分布模式配置部署

一、实验介绍

1.1 实验内容

1.2 实验知识点

1.3 实验环境

1.4 适合人群

1.5 相关文件

二、Hadoop伪分布式模式配置

注意：本实验需要按照上一节单机模式部署后继续进行操作，因此您必须先完成上一节实验。

2.1 相关配置文件修改

1).修改`.bashrc`:

2).修改`core-site.xml`:

3).修改`hdfs-site.xml`:

4).修改`mapred-site.xml`:

5).修改`yarn-site.xml`:

6). 修改 `hadoop-env.sh`:

三、格式化HDFS文件系统

3.1 格式化HDFS文件系统

四、Hadoop集群启动

4.1 启动hdfs守护进程，分别启动NameNode和DataNode

4.2 启动yarn,使用如下命令启ResourceManager和NodeManager:

4.3 检查是否运行成功

可能出现的问题及调试方法：

五、测试验证

5.1 创建输入的数据，采用/etc/protocols文件作为测试

5.2 执行Hadoop WordCount应用（词频统计）

5.3 查看生成的单词统计数据

六、关闭服务

七、小结

八、思考题

九、参考文档

3-2 Hadoop集群伪分布模式配置部署的更多相关文章

随机推荐

热门专题

3-2 Hadoop集群伪分布模式配置部署

Hadoop伪分布模式配置部署

一、实验介绍

1.1 实验内容

1.2 实验知识点

1.3 实验环境

1.4 适合人群

1.5 相关文件

二、Hadoop伪分布式模式配置

注意：本实验需要按照上一节单机模式部署后继续进行操作，因此您必须先完成上一节实验。

2.1 相关配置文件修改

1).修改.bashrc:

2).修改core-site.xml:

3).修改hdfs-site.xml:

4).修改mapred-site.xml:

5).修改yarn-site.xml:

6). 修改 hadoop-env.sh:

三、格式化HDFS文件系统

3.1 格式化HDFS文件系统

四、Hadoop集群启动

4.1 启动hdfs守护进程，分别启动NameNode和DataNode

4.2 启动yarn,使用如下命令启ResourceManager和NodeManager:

4.3 检查是否运行成功

可能出现的问题及调试方法：

五、测试验证

5.1 创建输入的数据，采用/etc/protocols文件作为测试

5.2 执行Hadoop WordCount应用（词频统计）

5.3 查看生成的单词统计数据

六、关闭服务

七、小结

八、思考题

九、参考文档

3-2 Hadoop集群伪分布模式配置部署的更多相关文章

随机推荐

热门专题

1).修改`.bashrc`:

2).修改`core-site.xml`:

3).修改`hdfs-site.xml`:

4).修改`mapred-site.xml`:

5).修改`yarn-site.xml`:

6). 修改 `hadoop-env.sh`: