一、Hadoop的三种运行模式（启动模式）

一.单机(非分布式)模式

　　这种模式在一台单机上运行，没有分布式文件系统，而是直接读写本地操作系统的文件系统。

默认情况下，Hadoop即处于该模式，用于开发和调式。
不对配置文件进行修改。
使用本地文件系统，而不是分布式文件系统。
Hadoop不会启动NameNode、DataNode、JobTracker、TaskTracker等守护进程，Map()和Reduce()任务作为同一个进程的不同部分来执行的。
用于对MapReduce程序的逻辑进行调试，确保程序的正确。

二.伪分布式运行模式

　　这种模式也是在一台单机上运行，但用不同的Java进程模仿分布式运行中的各类结点: (NameNode,DataNode,JobTracker,TaskTracker,SecondaryNameNode)

　　请注意分布式运行中的这几个结点的区别：

从分布式存储的角度来说，集群中的结点由一个NameNode和若干个DataNode组成,另有一个SecondaryNameNode作为NameNode的备份。
从分布式应用的角度来说，集群中的结点由一个JobTracker和若干个TaskTracker组成，JobTracker负责任务的调度，TaskTracker负责并行执行任务。TaskTracker必须运行在DataNode上，这样便于数据的本地计算。JobTracker和NameNode则无须在同一台机器上。一个机器上，既当namenode，又当datanode,或者说既是jobtracker,又是tasktracker。没有所谓的在多台机器上进行真正的分布式计算，故称为"伪分布式"。、

Hadoop的守护进程运行在本机机器，模拟一个小规模的集群。
在一台主机模拟多主机。
Hadoop启动NameNode、DataNode、JobTracker、TaskTracker这些守护进程都在同一台机器上运行，是相互独立的Java进程。
在这种模式下，Hadoop使用的是分布式文件系统，各个作业也是由JobTraker服务，来管理的独立进程。在单机模式之上增加了代码调试功能，允许检查内存使用情况，HDFS输入输出，以及其他的守护进程交互。类似于完全分布式模式，因此，这种模式常用来开发测试Hadoop程序的执行是否正确。
修改3个配置文件：core-site.xml（Hadoop集群的特性，作用于全部进程及客户端）、hdfs-site.xml（配置HDFS集群的工作属性）、mapred-site.xml（配置MapReduce集群的属性）
格式化文件系统

三.完全分布式模式

　　真正的分布式，由3个及以上的实体机或者虚拟机组件的机群。

Hadoop的守护进程运行在一个集群上。
Hadoop的守护进程运行在由多台主机搭建的集群上，是真正的生产环境。
在所有的主机上安装JDK和Hadoop，组成相互连通的网络。
在主机间设置SSH免密码登录，把各从节点生成的公钥添加到主节点的信任列表。
修改3个配置文件：core-site.xml、hdfs-site.xml、mapred-site.xml，指定NameNode和JobTraker的位置和端口，设置文件的副本等参数。
格式化文件系统

二、搭建Hadoop伪分布式集群

一.安装JDK，并配置环境变量

JAVA_HOME = C:\ProgramData\Java\jdk1.8.0_211

Path = %JAVA_HOME%\bin

二.安装hadoop

1）解压hadoop安装包

2）添加Hadoop环境变量(HADOOP_HOME、Path)

3）使用hadoop version命令测试是否配置成功

三.配置hadoop

1）在Hadoop安装路径(C:\ProgramData\hadoop-2.7.2\)下创建workplace目录，创建temp、nodename和datanode目录，用来保存数据

2）修改C:\ProgramData\hadoop-2.7.2\etc\hadoop下5个配置文件

hadoop-env.sh

export JAVA_HOME=${JAVA_HOME}

改为：

export JAVA_HOME=C:\ProgramData\Java\jdk1..0_211

core-site.xml（localhost为主节点所在主机的ip，而9000为端口）

    <property>

        <name>hadoop.tmp.dir</name>

        <value>C:\ProgramData\hadoop-2.7.\workplace\temp</value>

    </property>

    <property>

        <name>dfs.name.dir</name>

        <value>C:\ProgramData\hadoop-2.7.\workplace\namenode</value>

    </property>

    <property>

        <name>fs.default.name</name>

        <value>hdfs://localhost:9000</value>

    </property>

    <property>

        <name>fs.defaultFS</name>

        <value>hdfs://localhost:9000</value>

    </property>

hdfs-site.xml

<configuration>

    <property>

        <name>dfs.replication</name>

        <value></value>

    </property>

    <property>

        <name>dfs.data.dir</name>

        <value>C:\ProgramData\hadoop-2.7.\workplace\datanode</value>

    </property>

    <property>

        <name>dfs.namenode.name.dir</name>

        <value>C:\ProgramData\hadoop-2.7.\workplace\namenode</value>

    </property>

    <property>

        <name>dfs.datanode.data.dir</name>

        <value>C:\ProgramData\hadoop-2.7.\workplace\datanode</value>

    </property>

</configuration>

mapred-site.xml

<configuration>

    <property>

        <name>mapreduce.framework.name</name>

        <value>yarn</value>

    </property>

    <property>

        <name>mapred.job.tracker</name>

        <value>hdfs://localhost:9001</value>

    </property>

</configuration>

yarn-site.xml

<configuration>

    <!-- 指定reducer获取数据的方式-->

    <property>

        <name>yarn.nodemanager.aux-services</name>

        <value>mapreduce_shuffle</value>

    </property>

    <property>

        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

        <value>org.apache.hadoop.mapred.ShuffleHandler</value>

    </property>

    <property>

        <name>yarn.scheduler.minimum-allocation-mb</name>

        <value></value>

    </property>

    <property>

        <name>yarn.nodemanager.resource.memory-mb</name>

        <value></value>

    </property>

    <property>

        <name>yarn.nodemanager.resource.cpu-vcores</name>

        <value></value>

    </property>

</configuration>

3）启动Hadoop集群

1、格式化Hdfs

cd C:\ProgramData\hadoop-2.7.\bin

C:\ProgramData\hadoop-2.7.\bin>hdfs namenode -format(hadoop namenode -format)

2、进入Hadoop sbin目录，启动start-all.cmd（结束命令stop-all.cmd），输入jps查看java进程

cd C:\ProgramData\hadoop-2.7.\sbin
C:\ProgramData\hadoop-2.7.2\sbin>start-all.cmd
C:\ProgramData\hadoop-2.7.2\sbin>jps

同时，会跳出4个窗口

问题：Diagnostics: Failed to setup local dir C:\ProgramData\hadoop-2.7.\workplace\temp\nm-local-dir, which was marked as good.

解决：文件权限问题，用管理员模式运行cmd即可解决

3、WEB UI浏览
HDFS和YARN ResourceManager各自提供了Web接口，通过这些接口可查看HDFS集群和YARN集群的状态信息

Web方式查看Mapreduce Job http://localhost:8088

Web方式查看文件系统 http://localhost:50070/

四、测试Hadoop集群

1）测试文件上传下载功能

cd C:\ProgramData\hadoop-2.7.\bin

# 创建目录Demo

C:\ProgramData\hadoop-2.7.\bin>hdfs dfs -mkdir /Demo

# 查看创建情况

C:\ProgramData\hadoop-2.7.\bin>hdfs dfs -ls /

# 上传文件

C:\ProgramData\hadoop-2.7.\bin>hdfs dfs -put C:\Projects\HelloWorld\HelloWorld.py /Demo

# 查看

C:\ProgramData\hadoop-2.7.\bin>hdfs dfs -ls /Demo

# 下载文件
C:\ProgramData\hadoop-2.7.2\bin>hdfs dfs -get /Demo/HelloWorld.py C:\Projects

2）Yarn集群的操作-提交任务/作业-计算PI值(自带)

yarn jar C:\ProgramData\hadoop-2.7.\share\hadoop\mapreduce\hadoop-mapreduce-examples-2.7..jar pi

问题： org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.SafeModeException): Cannot create directory /user//QuasiMonteCarlo_1563868759312_1960410989/in. Name node is in safe mode.

解决：没有关闭安全模式，直接强制离开安全模式即可

hdfs dfsadmin -safemode leave

3）Hadoop集群的操作-提交任务/作业-Wordcount(自带)

1、创建word.txt

2、上传word.txt到Hdfs

hadoop fs -put C:\Projects\WordCount\word.txt /Demo/word.txt

3、进到mapreduce，运行wordcount

hadoop jar C:\ProgramData\hadoop-2.7.\share\hadoop\mapreduce\hadoop-mapreduce-examples-2.7..jar wordcount \Demo \output

4、查看词频统计结果

# 查看整个文件目录
hadoop fs -ls /
# 查看Demo目录下结构
hadoop fs -ls /output
# 查看output内容
hadoop fs -cat /output/part-r-00000

4）Browsing HDFS（http://localhost:50070/explorer.html# --> Utilities --> Browse the file system）

可以下载分布式文件系统上的word.txt

Hadoop单机模式/伪分布式模式/完全分布式模式的更多相关文章

Hadoop单机和伪分布式安装
本教程为单机版+伪分布式的Hadoop,安装过程写的有些简单,只作为笔记方便自己研究Hadoop用. 环境操作系统 Centos 6.5_64bit 本机名称 hadoop001 本机IP ...
Hadoop单机、伪分布式、分布式集群搭建
JDK安装设置hostname [root@bigdata111 ~]# vi /etc/hostname 设置机器hosts [root@bigdata111 ~]# vi /etc/hosts ...
Hadoop三种安装模式：单机模式，伪分布式，真正分布式
Hadoop三种安装模式:单机模式,伪分布式,真正分布式一单机模式standalone单机模式是Hadoop的默认模式.当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守 ...
hadoop 单机模式伪分布式完全分布式区别
1.单机(非分布式)模式这种模式在一台单机上运行,没有分布式文件系统,而是直接读写本地操作系统的文件系统,一般仅用于本地MR程序的调试 2.伪分布式运行模式这种模式也是在一台单机上运行,但用不同的 ...
2.hadoop基本配置,本地模式,伪分布式搭建
2. Hadoop三种集群方式 1. 三种集群方式本地模式 hdfs dfs -ls / 不需要启动任何进程伪分布式所有进程跑在一个机器上完全分布式每个机器运行不同的进程 2. 服务器基本配 ...
云计算课程实验之安装Hadoop及配置伪分布式模式的Hadoop
一．实验目的 1. 掌握Linux虚拟机的安装方法. 2. 掌握Hadoop的伪分布式安装方法. 二．实验内容 (一)Linux基本操作命令 Linux常用基本命令包括: ls,cd,mkdir,rm ...
Ubuntu 14.04 (32位)上搭建Hadoop 2.5.1单机和伪分布式环境
引言一直用的Ubuntu 32位系统(准备下次用Fedora,Ubuntu越来越不适合学习了),今天准备学习一下Hadoop,结果下载Apache官网上发布的最新的封装好的2.5.1版,配置完了根本 ...
Ubuntu上搭建Hadoop环境（单机模式+伪分布模式）
首先要了解一下Hadoop的运行模式: 单机模式(standalone) 单机模式是Hadoop的默认模式.当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选 ...
Hadoop：Hadoop单机伪分布式的安装和配置
http://blog.csdn.net/pipisorry/article/details/51623195 因为lz的linux系统已经安装好了很多开发环境,可能下面的步骤有遗漏. 之前是在doc ...

随机推荐

MQTT 连接服务端失败，报错客户机未连接（32104）
和同事协同开发项目,在启动项目时偶尔报错连接不到MQTT 服务器. 原因是两个人开发同一个项目,连接MQTT时配置的 client-id 相同,在使用一个client-id连接到MQTT服务器后,再使 ...
Laravel 中如何区别 Model 或者是 Builder？
User::where('id',1)->update([]) 和 User::find(1)->update([]) 有异曲同工之效. 额? 当你通过 Laravel 与数据库交 ...
vue 混入 mixin，自定义指令，过滤器
vue 混入 mixin ,分发 vue 组件中重复的功能局部的书写格式 // mixin.js var mymixin = { // 这是一个对象:对象里面的写法与组件里面的写法一模一样,组件该 ...
vue-lazyload 的vue 懒加载的使用
vue-lazyload vue 图片懒加载的使用下载 vue-lazyload npm i vue-lazyload -S 使用 vue-lazyload 在 src 下面的 main.js 的文 ...
ThinkPhp sql语句执行方法
ThinkPHP内置的ORM和ActiveRecord模式实现了方便的数据存取操作,而且新版增加的连贯操作功能更是让这个数据操作更加清晰,但是ThinkPHP仍然保留了原生的SQL查询和执行操作支持, ...
html添加注释怎么弄？
HTML 注释:  这是一段普通的段落. 快捷键: 我用的是 Notpad++ 添加行注释 Ctrl+K 取消行注释 Ctrl+Shif ...
Redis常见报错之 Redis::CommandError （MISCONF Redis is configured to save RDB snapshots, but it is currently not able to persist on disk）
在Redis运行过程中,报错信息如下: Redis::CommandError (MISCONF Redis is configured to save RDB snapshots, but it i ...
内存数据库：memcached与redis技术的对比试验
本文以高性能nginx服务器为应用背景,想利用缓存技术来减轻系统负荷,加快响应时间,从而增加web服务器的吞吐量. redis是一种分布式内存数据库,memcached是一种内存缓存技术,它们都采用k ...
小D课堂 - 新版本微服务springcloud+Docker教程_2_04微服务下电商项目基础模块设计
笔记 4.微服务下电商项目基础模块设计简介:微服务下电商项目基础模块设计分离几个模块,课程围绕这个基础项目进行学习小而精的方式学习微服务 1.用户服务 ...
FICO相关号码范围IMG设定
一.定义会计文件号码范围——FBN1 二.定义总账检视的文件号码范围——FAGL_DOCNR 三.指派客户科目群组的号码范围四.定义供应商号码范围——XKN1 五.维护订单号码范围——KONK

Hadoop单机模式/伪分布式模式/完全分布式模式