Hadoop: 单节点安装

目标

本文描述了如何安装和配置单机的 Hadoop,这样你可以使用 Hadoop MapReduce 和 Hadoop 分布式文件系统(HDFS)快速地尝试简单的操作。

前提

支持的平台

  • 支持 GNU/Linux 作为开发平台和生产环境。经实战检验,Hadoop 能运行在包含 2000 台 GNU/Linux 机器组成的集群上。
  • 同样支持 Windows,但后续步骤只适用于 Linux。要在 Windows 上安装 Hadoop,请查阅百科文档

需要的软件

Linux 平台需要的软件包括:

  1. Java 一定要安装。推荐的 Java 版本参见 Hadoop Java 版本
  2. 如果要执行 Hadoop 可选的启停脚本来管理远端的 Hadoop 守护进程,ssh 一定要安装。此外,推荐安装 pdsh 以更好地管理 ssh 资源。

安装软件

如果你的集群没有上述软件,你必须先安装它们。

在 Ubuntu Linux 上可执行:

 $ sudo apt-get install ssh
$ sudo apt-get install pdsh

下载

为了获得 Hadoop 发行包,请从 Apache 下载镜像中任意一家下载最近的稳定版本。

准备启动 Hadoop 集群

解压下载的 Hadoop 发行包,编辑文件 etc/hadoop/hadoop-env.sh 以定义如下的参数:

 # 给定 Java 安装的根目录
export JAVA_HOME=/usr/java/latest 

执行如下命令:

$ bin/hadoop

屏幕将显示 Hadoop 脚本的使用文档。

现在,你可以任选以下三种模式之一来启动你的 Hadoop 集群:

本地模式

默认情况,Hadoop 以一个 Java 进程的形态运行在非分布式模式下,这对于调试很有帮助。

以下示例复制解压后的配置目录作为输入,查询所有匹配正则表达式的文本,结果被写到给定的输出目录中。

$ mkdir input
$ cp etc/hadoop/*.xml input
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.1.jar grep input output 'dfs[a-z.]+'
$ cat output/*

伪分布式模式

Hadoop 同样可以在单机上以伪分布式模式运行,此时每个 Hadoop 守护进程是一个独立的 Java 进程。

配置

修改文件内容如下:

etc/hadoop/core-site.xml

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>

etc/hadoop/hdfs-site.xml

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>

etc/hadoop/hadoop-env.sh

# 添加如下环境变量
export HDFS_DATANODE_USER=root
export HDFS_NAMENODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

配置免密码的 ssh

现在,检查你是否可以 ssh 登录到本机而无需密码:

$ ssh localhost

如果无法免密登录,请执行如下命令:

$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys

执行

执行后续命令以本地运行一个 MapReduce 作业。如果你想在 Yarn 上执行一个作业,请参阅单机运行 Yarn

  1. 格式化文件系统:

    $ bin/hdfs namenode -format
  2. 启动 NameNode 守护进程和 DataNode 守护进程:

    $ sbin/start-dfs.sh

    Hadoop 守护进程的日志输出目录是 $HADOOP_LOG_DIR,其默认值是 $HADOOP_HOME/logs。

  3. 浏览 NameNode 的网页,地址默认是:

    • NameNode - http://localhost:9870/
  4. 创建运行 MapReduce 作业必需的 HDFS 目录:

    $ bin/hdfs dfs -mkdir /user
    $ bin/hdfs dfs -mkdir /user/<username>
  5. 复制输入文件到分布式文件系统中:

    $ bin/hdfs dfs -mkdir input
    $ bin/hdfs dfs -put etc/hadoop/*.xml input
  6. 运行提供的示例程序:

    $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.1.jar grep input output 'dfs[a-z.]+'
  7. 从分布式文件系统中复制文件到本地文件系统,验证输出的结果:

    $ bin/hdfs dfs -get output output
    $ cat output/*

    或者直接查看分布式文件系统的输出文件:

    $ bin/hdfs dfs -cat output/*
  8. 完成以上步骤后,执行一下命令来停止所有的守护进程:

    $ sbin/stop-dfs.sh

单机运行 Yarn

在伪分布式模式中,只需设定很少的参数,你就可以用 Yarn 运行一个 MapReduce 作业,并激活 ResourceManager 守护进程和 NodeManager 守护进程。

后续指令假定上述指令的第 1 ~ 4 步已被执行:

  1. 如下配置参数:

    etc/hadoop/mapred-site.xml

    <configuration>
    <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
    </property>
    </configuration> <configuration>
    <property>
    <name>mapreduce.application.classpath</name>
    <value>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*</value>
    </property>
    </configuration>

    etc/hadoop/yarn-site.xml

    <configuration>
    <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
    </property>
    <property>
    <name>yarn.nodemanager.env-whitelist</name>
    <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
    </configuration>
  2. 启动 ResourceManager 守护进程和 NodeManager 守护进程:

    $ sbin/start-yarn.sh
  3. 浏览 ResourceManager 的网页,地址默认是:

    • ResourceManager - http://localhost:8088/
  4. 运行一个 MapReduce 作业。

  5. 完成以上步骤后,执行一下命令来停止所有的守护进程:

    $ sbin/stop-yarn.sh

完全分布式模式

如果想要安装完全分布式的、非试验性的集群,请参阅文档集群安装

Hadoop 3.1.1 - 概述 - 单节点安装的更多相关文章

  1. Hadoop介绍及最新稳定版Hadoop 2.4.1下载地址及单节点安装

     Hadoop介绍 Hadoop是一个能对大量数据进行分布式处理的软件框架.其基本的组成包括hdfs分布式文件系统和可以运行在hdfs文件系统上的MapReduce编程模型,以及基于hdfs和MapR ...

  2. 【大数据系列】hadoop单节点安装官方文档翻译

    Hadoop: Setting up a Single Node Cluster. HADOOP:建立单节点集群 Purpose Prerequisites Supported Platforms R ...

  3. 一、hadoop单节点安装测试

    一.hadoop简介 相信你或多或少都听过hadoop这个名字,hadoop是一个开源的.分布式软件平台.它主要解决了分布式存储(hdfs)和分布式计算(mapReduce)两个大数据的痛点问题,在h ...

  4. Flume 学习笔记之 Flume NG概述及单节点安装

    Flume NG概述: Flume NG是一个分布式,高可用,可靠的系统,它能将不同的海量数据收集,移动并存储到一个数据存储系统中.轻量,配置简单,适用于各种日志收集,并支持 Failover和负载均 ...

  5. 二、hdfs单节点安装

    一.准备环境 在配置hdfs之前,我们需要先安装好hadoop的配置,本文主要讲述hdfs单节点的安装配置. hadoop的单节点安装配置请参考:https://www.cnblogs.com/lay ...

  6. Hadoop 3.1.1 - 概述 - 集群安装

    Hadoop 集群安装 目标 本文描述了如何从少数节点到包含上千节点的大规模集群上安装和配置 Hadoop 集群.如果只是为了尝试,你可以先从单台机器上安装开始(参阅单节点安装). 本文并不包含诸如安 ...

  7. hbase伪分布式安装(单节点安装)

    hbase伪分布式安装(单节点安装) http://hbase.apache.org/book.html#quickstart   1.    前提配置好java,环境java变量     上传jdk ...

  8. vertica单节点安装教程

    [准备] 1.CentOS 7.6的镜像盘(下载地址:官网) 2.vertica-9.1.0-0.x86_64.RHEL6(下载地址:https://pan.baidu.com/s/1IjWBUTku ...

  9. Centos7 单节点安装 FastDFS + FastDHT服务

    Centos7 单节点安装 FastDFS + FastDHT服务 1.安装gcc(编译时需要) FastDFS是C语言开发,安装FastDFS需要先将官网下载的源码进行编译,编译依赖gcc环境,如果 ...

随机推荐

  1. 小白学k8s(8)-Bazel部署go应用

    Bazel使用了解 Bazel产生的背景 什么是Bazel 快(Fast) 可伸缩(scalable) 跨语言(multi-language) 可扩展(extensible) Bazel中的主要文件 ...

  2. DBA入门相关知识介绍

    DBA(database administrator):数据库管理员                           DBMS(database management system):数据库管理系 ...

  3. Mysql优化(出自官方文档) - 第一篇(SQL优化系列)

    Mysql优化(出自官方文档) - 第一篇 目录 Mysql优化(出自官方文档) - 第一篇 1 WHERE Clause Optimization 2 Range Optimization Skip ...

  4. DDoS攻击的工具介绍

    1.低轨道离子加农炮(LOIC) 1.1 什么是低轨道离子加农炮(LOIC)? 低轨道离子加农炮是通常用于发起DoS和DDoS攻击的工具.它最初是由Praetox Technology作为网络压力测试 ...

  5. USB上位机通信:CyAPI

    至今的工作中,有USB接口通信的需求,记录一下. 建立一个USB设备对象 CCyUSBDevice *USBDevice = new CCyUSBDev(Handle): 打开USB设备 一个USB设 ...

  6. 26、samba搭建

    26.1.samba介绍: samba是一个网络服务器,基于linux操作系统,用于linux和windows之间数据的共享: Samba是一个能让Linux系统应用Microsoft网络通讯协议的软 ...

  7. Jquery手机点击其他地方隐藏控件问题

    因为不太懂mui的底部导航栏的操作,所以自己写了用很普通的方法实现手机底部导航栏,遇到了很多问题.比如:要实现点击底部菜单栏上某一个菜单,显示子菜单,然后点击手机空白处,隐藏菜单. 实现方法是: // ...

  8. 14个Java技术网站,程序员必备!

    先看再点赞,给自己一点思考的时间,如果对自己有帮助,微信搜索[程序职场]关注这个执着的职场程序员.我有什么:职场规划指导,技能提升方法,讲不完的职场故事,个人成长经验. 程序员都是无师自通?这就有点胡 ...

  9. ESP32音频输入-MAX4466,MAX9814,SPH0645LM4H,INMP441(翻译)

    有几种方法可以将模拟音频数据输入到ESP32中. 直接从内置的模数转换器(ADC)读取 这对于一次性读取很有用,但不适用于高采样率. 使用I2S通过DMA读取内置ADC 适用于模拟麦克风,例如MAX4 ...

  10. STM32笔记四

    1.时钟振荡器:产生时钟信号送给单片机内部各电路,并且控制这些电路,使它们有节拍的工作. 2.ROM是一种具有存储功能的电路,断电后信息不回丢失.RAM也是一种存储电路,断电后信息丢失. 3.串行通信 ...