Hadoop: 单节点安装

目标

本文描述了如何安装和配置单机的 Hadoop，这样你可以使用 Hadoop MapReduce 和 Hadoop 分布式文件系统（HDFS）快速地尝试简单的操作。

前提

支持的平台

支持 GNU/Linux 作为开发平台和生产环境。经实战检验，Hadoop 能运行在包含 2000 台 GNU/Linux 机器组成的集群上。
同样支持 Windows，但后续步骤只适用于 Linux。要在 Windows 上安装 Hadoop，请查阅百科文档。

需要的软件

Linux 平台需要的软件包括：

Java 一定要安装。推荐的 Java 版本参见 Hadoop Java 版本。
如果要执行 Hadoop 可选的启停脚本来管理远端的 Hadoop 守护进程，ssh 一定要安装。此外，推荐安装 pdsh 以更好地管理 ssh 资源。

安装软件

如果你的集群没有上述软件，你必须先安装它们。

在 Ubuntu Linux 上可执行：

 $ sudo apt-get install ssh

 $ sudo apt-get install pdsh

下载

为了获得 Hadoop 发行包，请从 Apache 下载镜像中任意一家下载最近的稳定版本。

准备启动 Hadoop 集群

解压下载的 Hadoop 发行包，编辑文件 etc/hadoop/hadoop-env.sh 以定义如下的参数：

 # 给定 Java 安装的根目录

 export JAVA_HOME=/usr/java/latest

执行如下命令：

$ bin/hadoop

屏幕将显示 Hadoop 脚本的使用文档。

现在，你可以任选以下三种模式之一来启动你的 Hadoop 集群：

本地模式
伪分布式模式
完全分布式模式

本地模式

默认情况，Hadoop 以一个 Java 进程的形态运行在非分布式模式下，这对于调试很有帮助。

以下示例复制解压后的配置目录作为输入，查询所有匹配正则表达式的文本，结果被写到给定的输出目录中。

$ mkdir input

$ cp etc/hadoop/*.xml input

$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.1.jar grep input output 'dfs[a-z.]+'

$ cat output/*

伪分布式模式

Hadoop 同样可以在单机上以伪分布式模式运行，此时每个 Hadoop 守护进程是一个独立的 Java 进程。

配置

修改文件内容如下：

etc/hadoop/core-site.xml

<configuration>

    <property>

        <name>fs.defaultFS</name>

        <value>hdfs://localhost:9000</value>

    </property>

</configuration>

etc/hadoop/hdfs-site.xml

<configuration>

    <property>

        <name>dfs.replication</name>

        <value>1</value>

    </property>

</configuration>

etc/hadoop/hadoop-env.sh

# 添加如下环境变量

export HDFS_DATANODE_USER=root

export HDFS_NAMENODE_USER=root

export HDFS_SECONDARYNAMENODE_USER=root

export YARN_RESOURCEMANAGER_USER=root

export YARN_NODEMANAGER_USER=root

配置免密码的 ssh

现在，检查你是否可以 ssh 登录到本机而无需密码：

$ ssh localhost

如果无法免密登录，请执行如下命令：

$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

$ chmod 0600 ~/.ssh/authorized_keys

执行

执行后续命令以本地运行一个 MapReduce 作业。如果你想在 Yarn 上执行一个作业，请参阅单机运行 Yarn。

格式化文件系统：
```
$ bin/hdfs namenode -format
```
启动 NameNode 守护进程和 DataNode 守护进程：
```
$ sbin/start-dfs.sh
```
Hadoop 守护进程的日志输出目录是 $HADOOP_LOG_DIR，其默认值是 $HADOOP_HOME/logs。
浏览 NameNode 的网页，地址默认是：
- NameNode - http://localhost:9870/

创建运行 MapReduce 作业必需的 HDFS 目录：

$ bin/hdfs dfs -mkdir /user

$ bin/hdfs dfs -mkdir /user/<username>

复制输入文件到分布式文件系统中：

$ bin/hdfs dfs -mkdir input

$ bin/hdfs dfs -put etc/hadoop/*.xml input

运行提供的示例程序：

$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.1.jar grep input output 'dfs[a-z.]+'

从分布式文件系统中复制文件到本地文件系统，验证输出的结果：
```
$ bin/hdfs dfs -get output output

$ cat output/*
```
或者直接查看分布式文件系统的输出文件：
```
$ bin/hdfs dfs -cat output/*
```
完成以上步骤后，执行一下命令来停止所有的守护进程：
```
$ sbin/stop-dfs.sh
```

单机运行 Yarn

在伪分布式模式中，只需设定很少的参数，你就可以用 Yarn 运行一个 MapReduce 作业，并激活 ResourceManager 守护进程和 NodeManager 守护进程。

后续指令假定上述指令的第 1 ~ 4 步已被执行：

如下配置参数：

etc/hadoop/mapred-site.xml

<configuration>

    <property>

        <name>mapreduce.framework.name</name>

        <value>yarn</value>

    </property>

</configuration>

<configuration>

    <property>

        <name>mapreduce.application.classpath</name>

        <value>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*</value>

    </property>

</configuration>

etc/hadoop/yarn-site.xml

<configuration>

    <property>

        <name>yarn.nodemanager.aux-services</name>

        <value>mapreduce_shuffle</value>

    </property>

    <property>

        <name>yarn.nodemanager.env-whitelist</name>

        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>

    </property>

</configuration>

启动 ResourceManager 守护进程和 NodeManager 守护进程：
```
$ sbin/start-yarn.sh
```
浏览 ResourceManager 的网页，地址默认是：
- ResourceManager - http://localhost:8088/
运行一个 MapReduce 作业。
完成以上步骤后，执行一下命令来停止所有的守护进程：
```
$ sbin/stop-yarn.sh
```

完全分布式模式

如果想要安装完全分布式的、非试验性的集群，请参阅文档集群安装。

Hadoop 3.1.1 - 概述 - 单节点安装的更多相关文章

Hadoop介绍及最新稳定版Hadoop 2.4.1下载地址及单节点安装
Hadoop介绍 Hadoop是一个能对大量数据进行分布式处理的软件框架.其基本的组成包括hdfs分布式文件系统和可以运行在hdfs文件系统上的MapReduce编程模型,以及基于hdfs和MapR ...
【大数据系列】hadoop单节点安装官方文档翻译
Hadoop: Setting up a Single Node Cluster. HADOOP:建立单节点集群 Purpose Prerequisites Supported Platforms R ...
一、hadoop单节点安装测试
一.hadoop简介相信你或多或少都听过hadoop这个名字,hadoop是一个开源的.分布式软件平台.它主要解决了分布式存储(hdfs)和分布式计算(mapReduce)两个大数据的痛点问题,在h ...
Flume 学习笔记之 Flume NG概述及单节点安装
Flume NG概述: Flume NG是一个分布式,高可用,可靠的系统,它能将不同的海量数据收集,移动并存储到一个数据存储系统中.轻量,配置简单,适用于各种日志收集,并支持 Failover和负载均 ...
二、hdfs单节点安装
一.准备环境在配置hdfs之前,我们需要先安装好hadoop的配置,本文主要讲述hdfs单节点的安装配置. hadoop的单节点安装配置请参考:https://www.cnblogs.com/lay ...
Hadoop 3.1.1 - 概述 - 集群安装
Hadoop 集群安装目标本文描述了如何从少数节点到包含上千节点的大规模集群上安装和配置 Hadoop 集群.如果只是为了尝试,你可以先从单台机器上安装开始(参阅单节点安装). 本文并不包含诸如安 ...
hbase伪分布式安装（单节点安装）
hbase伪分布式安装(单节点安装) http://hbase.apache.org/book.html#quickstart 1. 前提配置好java,环境java变量上传jdk ...
vertica单节点安装教程
[准备] 1.CentOS 7.6的镜像盘(下载地址:官网) 2.vertica-9.1.0-0.x86_64.RHEL6(下载地址:https://pan.baidu.com/s/1IjWBUTku ...
Centos7 单节点安装 FastDFS + FastDHT服务
Centos7 单节点安装 FastDFS + FastDHT服务 1.安装gcc(编译时需要) FastDFS是C语言开发,安装FastDFS需要先将官网下载的源码进行编译,编译依赖gcc环境,如果 ...

随机推荐

进程与线程 .Net Core系列-多线程
进程与线程进程: 狭义定义:进程是正在运行的程序的实例广义定义:进程是一个具有一定独立功能的程序关于某个数据集合的一次运行活动.它是操作系统动态执行的基本单元,在传统的操作系统中,进程既是基本的分 ...
Maven项目无法下载JAR包，输入mvn help:system出现No plugin found for prefix 'help' in the current project and in the plugin groups的解决方案
这个问题困扰了我很久,一直无法解决:我在虚拟机里面按照同样的步骤配置了三次maven项目,每次都能成功:可一旦到外面maven项目总是创建失败,输入mvn help:system总是出现No plug ...
Redis 底层数据结构之字典
文章参考 <Redis 设计与实现>黄建宏字典在字典中,每个键都是独一无二的,程序可以在字典中根据键查找与之相关联的值,或者通过键来更新和删除值. 字典在 Redis 中的应用相当广泛 ...
Tomcat：tomcat部署war包配置SSL访问
Linux-CentOS7部署 war放置 war放到tomcat的webapps目录内修改配置修改tomcat的server.xml文件 HTTP: 找到Connector元素,修改端口 HTT ...
java：编写jar包加密工具，防止反编译
懒人方案网盘: 链接:https://pan.baidu.com/s/1x4OB1IF2HZGgtLhd1Kr_AQ提取码:glx7 网盘内是已生成可用工具,下载可以直接使用,使用前看一下READ. ...
vsftpd配置（转）
# # The default compiled in settings are fairly paranoid. This sample file # loosens things up a b ...
看看PHP迭代器的内部执行过程（转）
1 class myIterator implements Iterator { 2 private $position = 0; 3 private $array = array( 4 &quo ...
Nginx PHP测试装
Nginx yum -y install gcc gcc-c++ make automake autoconf pcre pcre-devel zlib zlib-devel openssl open ...
小刻也能看懂的Unraid系统使用手册：基础篇
小刻也能看懂的Unraid系统使用手册基础篇 Unraid系统简介 Unraid 的本体其实是 Linux,它主要安装在 NAS 和 All in One 服务器上,经常可以在 Linus 的视频里 ...
C语言:模拟密码输入显示星号
一个安全的程序在用户输入密码时不应该显示密码本身,而应该回显星号或者点号,例如······或******,这在网页.PC软件.ATM机.POS机上经常看到.但是C语言没有提供类似的功能,控制台上只能原 ...

Hadoop 3.1.1 - 概述 - 单节点安装