Hadoop: 单节点安装

目标

本文描述了如何安装和配置单机的 Hadoop,这样你可以使用 Hadoop MapReduce 和 Hadoop 分布式文件系统(HDFS)快速地尝试简单的操作。

前提

支持的平台

  • 支持 GNU/Linux 作为开发平台和生产环境。经实战检验,Hadoop 能运行在包含 2000 台 GNU/Linux 机器组成的集群上。
  • 同样支持 Windows,但后续步骤只适用于 Linux。要在 Windows 上安装 Hadoop,请查阅百科文档

需要的软件

Linux 平台需要的软件包括:

  1. Java 一定要安装。推荐的 Java 版本参见 Hadoop Java 版本
  2. 如果要执行 Hadoop 可选的启停脚本来管理远端的 Hadoop 守护进程,ssh 一定要安装。此外,推荐安装 pdsh 以更好地管理 ssh 资源。

安装软件

如果你的集群没有上述软件,你必须先安装它们。

在 Ubuntu Linux 上可执行:

 $ sudo apt-get install ssh
$ sudo apt-get install pdsh

下载

为了获得 Hadoop 发行包,请从 Apache 下载镜像中任意一家下载最近的稳定版本。

准备启动 Hadoop 集群

解压下载的 Hadoop 发行包,编辑文件 etc/hadoop/hadoop-env.sh 以定义如下的参数:

 # 给定 Java 安装的根目录
export JAVA_HOME=/usr/java/latest 

执行如下命令:

$ bin/hadoop

屏幕将显示 Hadoop 脚本的使用文档。

现在,你可以任选以下三种模式之一来启动你的 Hadoop 集群:

本地模式

默认情况,Hadoop 以一个 Java 进程的形态运行在非分布式模式下,这对于调试很有帮助。

以下示例复制解压后的配置目录作为输入,查询所有匹配正则表达式的文本,结果被写到给定的输出目录中。

$ mkdir input
$ cp etc/hadoop/*.xml input
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.1.jar grep input output 'dfs[a-z.]+'
$ cat output/*

伪分布式模式

Hadoop 同样可以在单机上以伪分布式模式运行,此时每个 Hadoop 守护进程是一个独立的 Java 进程。

配置

修改文件内容如下:

etc/hadoop/core-site.xml

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>

etc/hadoop/hdfs-site.xml

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>

etc/hadoop/hadoop-env.sh

# 添加如下环境变量
export HDFS_DATANODE_USER=root
export HDFS_NAMENODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

配置免密码的 ssh

现在,检查你是否可以 ssh 登录到本机而无需密码:

$ ssh localhost

如果无法免密登录,请执行如下命令:

$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys

执行

执行后续命令以本地运行一个 MapReduce 作业。如果你想在 Yarn 上执行一个作业,请参阅单机运行 Yarn

  1. 格式化文件系统:

    $ bin/hdfs namenode -format
  2. 启动 NameNode 守护进程和 DataNode 守护进程:

    $ sbin/start-dfs.sh

    Hadoop 守护进程的日志输出目录是 $HADOOP_LOG_DIR,其默认值是 $HADOOP_HOME/logs。

  3. 浏览 NameNode 的网页,地址默认是:

    • NameNode - http://localhost:9870/
  4. 创建运行 MapReduce 作业必需的 HDFS 目录:

    $ bin/hdfs dfs -mkdir /user
    $ bin/hdfs dfs -mkdir /user/<username>
  5. 复制输入文件到分布式文件系统中:

    $ bin/hdfs dfs -mkdir input
    $ bin/hdfs dfs -put etc/hadoop/*.xml input
  6. 运行提供的示例程序:

    $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.1.jar grep input output 'dfs[a-z.]+'
  7. 从分布式文件系统中复制文件到本地文件系统,验证输出的结果:

    $ bin/hdfs dfs -get output output
    $ cat output/*

    或者直接查看分布式文件系统的输出文件:

    $ bin/hdfs dfs -cat output/*
  8. 完成以上步骤后,执行一下命令来停止所有的守护进程:

    $ sbin/stop-dfs.sh

单机运行 Yarn

在伪分布式模式中,只需设定很少的参数,你就可以用 Yarn 运行一个 MapReduce 作业,并激活 ResourceManager 守护进程和 NodeManager 守护进程。

后续指令假定上述指令的第 1 ~ 4 步已被执行:

  1. 如下配置参数:

    etc/hadoop/mapred-site.xml

    <configuration>
    <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
    </property>
    </configuration> <configuration>
    <property>
    <name>mapreduce.application.classpath</name>
    <value>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*</value>
    </property>
    </configuration>

    etc/hadoop/yarn-site.xml

    <configuration>
    <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
    </property>
    <property>
    <name>yarn.nodemanager.env-whitelist</name>
    <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
    </configuration>
  2. 启动 ResourceManager 守护进程和 NodeManager 守护进程:

    $ sbin/start-yarn.sh
  3. 浏览 ResourceManager 的网页,地址默认是:

    • ResourceManager - http://localhost:8088/
  4. 运行一个 MapReduce 作业。

  5. 完成以上步骤后,执行一下命令来停止所有的守护进程:

    $ sbin/stop-yarn.sh

完全分布式模式

如果想要安装完全分布式的、非试验性的集群,请参阅文档集群安装

Hadoop 3.1.1 - 概述 - 单节点安装的更多相关文章

  1. Hadoop介绍及最新稳定版Hadoop 2.4.1下载地址及单节点安装

     Hadoop介绍 Hadoop是一个能对大量数据进行分布式处理的软件框架.其基本的组成包括hdfs分布式文件系统和可以运行在hdfs文件系统上的MapReduce编程模型,以及基于hdfs和MapR ...

  2. 【大数据系列】hadoop单节点安装官方文档翻译

    Hadoop: Setting up a Single Node Cluster. HADOOP:建立单节点集群 Purpose Prerequisites Supported Platforms R ...

  3. 一、hadoop单节点安装测试

    一.hadoop简介 相信你或多或少都听过hadoop这个名字,hadoop是一个开源的.分布式软件平台.它主要解决了分布式存储(hdfs)和分布式计算(mapReduce)两个大数据的痛点问题,在h ...

  4. Flume 学习笔记之 Flume NG概述及单节点安装

    Flume NG概述: Flume NG是一个分布式,高可用,可靠的系统,它能将不同的海量数据收集,移动并存储到一个数据存储系统中.轻量,配置简单,适用于各种日志收集,并支持 Failover和负载均 ...

  5. 二、hdfs单节点安装

    一.准备环境 在配置hdfs之前,我们需要先安装好hadoop的配置,本文主要讲述hdfs单节点的安装配置. hadoop的单节点安装配置请参考:https://www.cnblogs.com/lay ...

  6. Hadoop 3.1.1 - 概述 - 集群安装

    Hadoop 集群安装 目标 本文描述了如何从少数节点到包含上千节点的大规模集群上安装和配置 Hadoop 集群.如果只是为了尝试,你可以先从单台机器上安装开始(参阅单节点安装). 本文并不包含诸如安 ...

  7. hbase伪分布式安装(单节点安装)

    hbase伪分布式安装(单节点安装) http://hbase.apache.org/book.html#quickstart   1.    前提配置好java,环境java变量     上传jdk ...

  8. vertica单节点安装教程

    [准备] 1.CentOS 7.6的镜像盘(下载地址:官网) 2.vertica-9.1.0-0.x86_64.RHEL6(下载地址:https://pan.baidu.com/s/1IjWBUTku ...

  9. Centos7 单节点安装 FastDFS + FastDHT服务

    Centos7 单节点安装 FastDFS + FastDHT服务 1.安装gcc(编译时需要) FastDFS是C语言开发,安装FastDFS需要先将官网下载的源码进行编译,编译依赖gcc环境,如果 ...

随机推荐

  1. mturoute 最大传输单元路由检测Host

    mturoute检测mtu字符 下载地址:https://www.elifulkerson.com/projects/mturoute.php mturoute.exe                ...

  2. Docker笔记--ubuntu安装docker

    Docker笔记--ubuntu安装docker 1.更换国内软件源,推荐中国科技大学的源,稳定速度快(可选) sudo cp /etc/apt/sources.list /etc/apt/sourc ...

  3. ceph-csi源码分析(5)-rbd driver-nodeserver分析(上)

    更多 ceph-csi 其他源码分析,请查看下面这篇博文:kubernetes ceph-csi分析目录导航 ceph-csi源码分析(5)-rbd driver-nodeserver分析(上) 当c ...

  4. MySQL基本sql语句总结

    目录 约束 表操作 查看表结构与修改表名 修改字段名与字段数据类型 添加与删除字段 修改字段的排列位置 删除表的外键约束 增删改 插入数据 更新数据 删除数据 查询 单表查询 连接查询 子查询 视图 ...

  5. nginx负载均衡与反向代理

    1.集群的特点 (1)高性能 (2)价格有效性 (3)可伸缩性 (4)高可用性 (5)透明性 2.负载均衡概述 负载均衡,英文名称为Load Balance,其含义就是指将负载(工作任务)进行平衡.分 ...

  6. 让你发布的nuget包支持源代码调试

    前情概要 在不久的从前(也还是要以年为单位哈), 我们如果需要调试第三方代码, 或者框架代码很麻烦. 需要配置symbols, 匹配原始代码路径等. 为此, MS推出了 Source Link 功能, ...

  7. lms微服务的rpc通信框架

    RPC的概念 RPC 全称 Remote Procedure Call--远程过程调用.是为了解决远程调用服务的一种技术,使得调用者像调用本地服务一样方便透明.简单的说,RPC就是从一台机器(客户端) ...

  8. centos 8 下解压.tar.gz文件

    执行命令 tar 参数 文件名 参数: -c :建立一个压缩文件的参数指令(create 的意思): -x :解开一个压缩文件的参数指令: -t :查看 tarfile 里面的文件: 特别注意,在参数 ...

  9. 创建Maven项目骨架并使用

    1.archetype是什么? archetype 字面意思是 原型.可以理解为archetype相当于一个脚手架/模板,通过这个脚手架/模板我们可以快速的创建出一个项目. 比如下图中的这些就是mav ...

  10. Spring Boot中文文档(官方文档翻译 基于1.5.2.RELEASE)

    作者:Phillip Webb, Dave Syer, Josh Long, Stéphane Nicoll, Rob Winch, Andy Wilkinson, Marcel Overdijk, ...