概述

	1)资料查询(官方网址)
(1)官方网站:
http://hadoop.apache.org/
(2)各个版本归档库地址
https://archive.apache.org/dist/hadoop/common/hadoop-2.7.7/
(3)hadoop2.7.6版本详情介绍
https://hadoop.apache.org/docs/r2.7.6/
2)Hadoop运行模式
(1)本地模式(默认模式):
不需要启用单独进程,直接可以运行,测试和开发时使用。
(2)伪分布式模式:
等同于完全分布式,只有一个节点。
(3)完全分布式模式:
多个节点一起运行。

1. 本地文件运行Hadoop 示例

	1.1 运行官方grep案例
1)创建在hadoop-2.7.7文件下面创建一个input文件夹
2)将hadoop的xml配置文件复制到input
3)执行share目录下的mapreduce程序
4)查看输出结果

代码示例:

    [shaofei@hadoop128 hadoop-2.7.7]$ mkdir input
[shaofei@hadoop128 hadoop-2.7.7]$ cp -r etc/hadoop/*.xml input/
[shaofei@hadoop128 hadoop-2.7.7]$ ll input/
[shaofei@hadoop128 hadoop-2.7.7]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar grep input/ output 'dfs[a-z.]+'
[shaofei@hadoop128 hadoop-2.7.7]$ cat output/*
	1.2 官方wordcount案例
1)创建在hadoop-2.7.7文件下面创建一个wcinput文件夹
2)在wcinput文件下创建一个wc.input文件
3)编辑wc.input文件
4)回到hadoop目录/opt/module/hadoop-2.7.7
5)执行程序:
6)查看结果:

代码示例:

    [shaofei@hadoop128 hadoop-2.7.7]$ mkdir wcinput
[shaofei@hadoop128 hadoop-2.7.7]$ vim wcinput/input.input java
java
java
hadoop
hadoop
python
pyfysf
upuptop
java
lll
haha
helloworld :wq [shaofei@hadoop128 hadoop-2.7.7]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount wcinput/ wcoutput [shaofei@hadoop128 hadoop-2.7.7]$ cat wcoutput/* hadoop 2
haha 1
helloworld 1
java 4
lll 1
pyfysf 1
python 1
upuptop 1

2 伪分布式运行Hadoop 案例

    2.1 启动HDFS并运行MapReduce 程序
1)执行步骤
(1)配置集群
(a)配置:hadoop-env.sh
Linux系统中获取jdk的安装路径:
修改JAVA_HOME 路径:
(b)配置:core-site.xml
(c)配置:hdfs-site.xml
(2)启动集群
(a)格式化namenode(第一次启动时格式化,以后就不要总格式化)
(b)启动namenode
(c)启动datanode
(3)查看集群
(a)查看是否启动成功
(b)查看产生的log日志
(c)web端查看HDFS文件系统
(4)操作集群
(a)在hdfs文件系统上创建一个input文件夹
(b)将测试文件内容上传到文件系统上
(c)查看上传的文件是否正确
(d)运行mapreduce程序
(e)查看输出结果
命令行查看:
浏览器查看
浏览器查看.png
(f)将测试文件内容下载到本地
(g)删除输出结果

代码示例

1)配置集群

配置hadoop-env 里面的JAVA_HOME
[shaofei@hadoop128 hadoop-2.7.7]$ vim etc/hadoop/hadoop-env.sh # The java implementation to use.
export JAVA_HOME=/opt/module/jdk1.8.0_191 配置core-site.xml
[shaofei@hadoop128 hadoop-2.7.7]$ vim etc/hadoop/core-site.xml <configuration>
<!-- 指定HDFS中NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop128:9000</value>
</property> <!-- 指定hadoop运行时产生文件的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-2.7.7/data/tmp</value>
</property>
</configuration> 配置hdfs-site.xml
[shaofei@hadoop128 hadoop-2.7.7]$ vim etc/hadoop/hdfs-site.xml <configuration> <!-- 指定HDFS副本的数量 -->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>

2)启动集群

格式化namenode
[shaofei@hadoop128 hadoop-2.7.7]$ bin/hdfs namenode -format 启动namenode
[shaofei@hadoop128 hadoop-2.7.7]$ sbin/hadoop-daemon.sh start namenode 确认是否开启成功
[shaofei@hadoop128 hadoop-2.7.7]$ jps
2323 NameNode
2392 Jps 启动datanode
[shaofei@hadoop128 hadoop-2.7.7]$ sbin/hadoop-daemon.sh start datanode 确认是否开启成功
[shaofei@hadoop128 hadoop-2.7.7]$ jps
2417 DataNode
2323 NameNode
2492 Jps

3)查看集群

查看生成的日志log
[shaofei@hadoop128 hadoop-2.7.7]$ cat logs/hadoop-shaofei-datanode-hadoop128.log 在web端查看HDFS文件系统[ip 为linux服务器ip]
http://hadoop128:50070
http://ip:50070 http://hadoop128:50070/explorer.html#/

4)操作集群

在hdfs文件系统上创建一个wcinput文件夹
[shaofei@hadoop128 hadoop-2.7.7]$ bin/hdfs dfs -mkdir -p /user/shaofei/wcinput 查看是否创建成功
[shaofei@hadoop128 hadoop-2.7.7]$ bin/hdfs dfs -ls /user 复制本地的 wcinput/input.input 到 hdfs系统中的wcinput中 并查看是否上传成功 [shaofei@hadoop128 hadoop-2.7.7]$ bin/hdfs dfs -put wcinput/input.input /user/shaofei/wcinput [shaofei@hadoop128 hadoop-2.7.7]$ bin/hdfs dfs -ls /user/shaofei/wcinput 执行MapReduce程序
[shaofei@hadoop128 hadoop-2.7.7]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount /user/shaofei/wcinput/ /user/shaofei/wcoutput 将结果下载到本地查看
[shaofei@hadoop128 hadoop-2.7.7]$ bin/hdfs dfs -get /user/shaofei/wcoutput
[shaofei@hadoop128 hadoop-2.7.7]$ cat wcoutput/*

在web中查看hdfs系统

/user/shaofei
/user/shaofei/wcinput
/user/shaofei/wcoutput



	 2.2 YARN上运行MapReduce 程序
1)执行步骤
(1)配置集群
(a)配置yarn-env.sh
配置一下JAVA_HOME
(b)配置yarn-site.xml
(c)配置:mapred-env.sh
配置一下JAVA_HOME
(d)配置: (对mapred-site.xml.template重新命名为) mapred-site.xml
(2)启动集群
(a)启动前必须保证namenode和datanode已经启动
(b)启动resourcemanager
(c)启动nodemanager
(3)集群操作
(a)yarn的浏览器页面查看
http://192.168.1.101:8088/cluster
(b)删除文件系统上的output文件
(c)执行mapreduce程序
(d)查看运行结果

代码示例

1)配置集群

    配置yarn-evn.sh中的JAVA_HOME
[shaofei@hadoop128 hadoop-2.7.7]$ vim etc/hadoop/yarn-env.sh
# some Java parameters
export JAVA_HOME=/opt/module/jdk1.8.0_191 配置yarn-site.xml
[shaofei@hadoop128 hadoop-2.7.7]$ vim etc/hadoop/yarn-site.xml
<configuration>
<!-- Site specific YARN configuration properties -->
<!-- reducer获取数据的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property> <!-- 指定YARN的ResourceManager的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop128</value>
</property>
</configuration> 配置mapred-env.sh中的JAVA_HOME
[shaofei@hadoop128 hadoop-2.7.7]$ vim etc/hadoop/mapred-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_191 对mapred-site.xml.template 重命名
[shaofei@hadoop128 hadoop-2.7.7]$ mv etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml 配置mapred-site.xml
[shaofei@hadoop128 hadoop-2.7.7]$ vim etc/hadoop/mapred-site.xml <configuration>
<!-- 指定mr运行在yarn上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

2)启动集群

    启动yarn之前需要确定namenode和datanode是启动状态
[shaofei@hadoop128 hadoop-2.7.7]$ jps
3184 Jps
2417 DataNode
2323 NameNode 启动ResourceManager
[shaofei@hadoop128 hadoop-2.7.7]$ sbin/yarn-daemon.sh start resourcemanager 启动NodeManager
[shaofei@hadoop128 hadoop-2.7.7]$ sbin/yarn-daemon.sh start nodemanager 查看启动程序列表
[shaofei@hadoop128 hadoop-2.7.7]$ jps
2417 DataNode
3217 ResourceManager
3587 Jps
2323 NameNode
3465 NodeManager 在浏览器中查看
http://[ip]:8088/cluster

2)执行MapReduce

    删除文件系统上的output文件
[shaofei@hadoop128 hadoop-2.7.7]$ bin/hdfs dfs -rm -r /user/shaofei/wcoutput 执行mapreduce程序
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount /user/shaofei/wcinput /user/shaofei/wcoutput 查看运行结果
[shaofei@hadoop128 hadoop-2.7.7]$ hadoop fs -cat /user/shaofei/wcoutput/*

3 完全分布式

集群部署规划

hadoop132 hadoop133 hadoop134
HDFS NameNode、DataNode DataNode SecondaryNameNode、DataNode
YARN NodeManager ResourceManager、NodeManager NodeManager

配置文件

core-site.xml

<!-- 指定 HDFS 中 NameNode 的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop132:9000</value>
</property>
<!-- 指定 hadoop 运行时产生文件的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>

hadoop-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_144

hdfs-site.xml

<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop134:50090</value>
</property>
</configuration>

slaves

hadoop132
hadoop133
hadoop134

yarn

yarn-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_144

yarn-site.xml

<configuration>
<!-- reducer 获取数据的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 指定 YARN 的 ResourceManager 的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop133</value>
</property>
</configuration>

mapreduce

mapred-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_144

mapred-site.xml

<configuration>
<!-- 指定 mr 运行在 yarn 上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

集群同步以上配置文件

启动集群

如果集群是第一次启动,需要格式化 namenode
$ bin/hdfs namenode -format
$ sbin/start-dfs.sh 第二台机器上启动yarn
$ sbin/start-yarn.sh

注意:Namenode 和 ResourceManger 如果不是同一台机器,不能在 NameNode 上启动 yarn,应该在 ResouceManager 所在的机器上启动 yarn。

本博客仅为博主学习总结,感谢各大网络平台的资料。蟹蟹!!

hadoop的运行模式的更多相关文章

  1. hadoop本地运行模式调试

    一:简介 最近学习hadoop本地运行模式,在运行期间遇到一些问题,记录下来备用:以运行hadoop下wordcount为例子. hadoop程序是在集群运行还是在本地运行取决于下面两个参数的设置,第 ...

  2. Hadoop之运行模式

    Hadoop运行模式包括:本地模式.伪分布式以及完全分布式模式. 一.本地运行模式 1.官方Grep案例 1)在hadoop-2.7.2目录下创建一个 input 文件夹 [hadoop@hadoop ...

  3. 大数据-Hadoop 本地运行模式

    Grep案例 1. 创建在hadoop-2.7.2文件下面创建一个input文件夹 [atguigu@hadoop101 hadoop-2.7.2]$ mkdir input 2. 将Hadoop的x ...

  4. Hadoop系列004-Hadoop运行模式(上)

    title: Hadoop系列004-Hadoop运行模式(上) date: 2018-11-20 14:27:00 updated: 2018-11-20 14:27:00 categories: ...

  5. Hadoop系列005-Hadoop运行模式(下)

    本人微信公众号,欢迎扫码关注! Hadoop运行模式(下) 2.3.完全分布式部署Hadoop 1)分析: 1)准备3台客户机(关闭防火墙.静态ip.主机名称) 2)安装jdk 3)配置环境变量 4) ...

  6. 大数据学习之Hadoop运行模式

    一.Hadoop运行模式 (1)本地模式(默认模式): 不需要启用单独进程,直接可以运行,测试和开发时使用. (2)伪分布式模式: 等同于完全分布式,只有一个节点. (3)完全分布式模式: 多个节点一 ...

  7. ubuntu上Hadoop三种运行模式的部署

    Hadoop集群支持三种运行模式:单机模式.伪分布式模式,全分布式模式,下面介绍下在Ubuntu下的部署 (1)单机模式 默认情况下,Hadoop被配置成一个以非分布式模式运行的独立JAVA进程,适合 ...

  8. Hadoop运行模式

    Hadoop运行模式 (1)本地模式(默认模式): 不需要启用单独进程,直接可以运行,测试和开发时使用. 即在一台机器上进行操作,仅为单机版. 本地运行Hadoop官方MapReduce案例 操作命令 ...

  9. 啃掉Hadoop系列笔记(03)-Hadoop运行模式之本地模式

    Hadoop的本地模式为Hadoop的默认模式,不需要启用单独进程,直接可以运行,测试和开发时使用. 在<啃掉Hadoop系列笔记(02)-Hadoop运行环境搭建>中若环境搭建成功,则直 ...

随机推荐

  1. Elevate Web Builder for Web Developers(类似于unigui的东西)

    推荐一款pascal 语言的web 开发工具 这几天仔细研究了一款使用Pascal 语言开发web 的工具 具体介绍可以参照这里. 先上几张他开发的页面照.

  2. 社会不是承认有学历的人, 而是承认努力过得人, 而且是真正努力过不是穷忙的人(没有学历就要多付出一倍的努力)good

    送你一句 这就是你水平差的理由? 楼主你工资低是因为你技术不行, 不想努力然后怪罪学历, 为什么学历高的混得好, 因为学历高的人努力过, 你没学历技术还不行, 凭什么证明你努力过, 社会不是承认有学历 ...

  3. QT多个UI文件加入一个项目

    这样可在多个UI界面上进行分部开发.避免都在一个UI下太凌乱…… 在网上找了一些资料,很少有介绍这方面的,以及类似这样项目的源码. 看 一些基本控件的使用时,想到了一种方法:使用gridLayout控 ...

  4. QThread多线程编程经典案例分析(三种方法,解释了为什么使用moveToThread的根本原因,即为了避免调用QThread::exec() )

    传统的图形界面应用程序都只有一个线程执行,并且一次执行一个操作.如果用户调用一个比较耗时的操作,就会冻结界面响应. 一个解决方法是按照事件处理的思路: 调用 Void QApplication::pr ...

  5. spring boot中使用servlet、listener和filter

    spring boot中支持使用java Web三大组件(servlet.listener和filter),但是坑比较多,主要是spring boot内嵌tomcat和独立tomcat服务器有一些细节 ...

  6. HTML连载16-颜色控制属性2&标签选择器

    一.颜色控制属性(上接连载15) (4)十六进制 在前端开发中通过十六进制来表示颜色,其实本质就是RGB,十六进制中是通过每两位表示一个颜色. 例如:#FFEE00,其中FF代表的是R,EE代表的G, ...

  7. 对shell脚本进行加密

    用shell脚本对系统进行自动化维护,简单,便捷而且可移植性好.但shell脚本是可读写的,很有可能会泄露敏感信息,如用户名,密码,路径,IP等.同样,在shell脚本运行时会也泄露敏感信息.请问如何 ...

  8. vue路由传参query和params的区别(详解!)

    1.query使用path和name传参都可以,而params只能使用name传参. query传参: 页面: this.$router.push({ path:'/city',name:'City' ...

  9. Liunx 安装 Nessus

    Liunx 安装 Nessus   啥子是Nessus 它是一款系统漏洞扫描与分析软件,可以扫描服务器存在哪些漏洞,页面简介美观,非常Nice. 获取激活码 首先访问如下网站 https://www. ...

  10. kafka 名词概念

    ProducerConsumerBrokerTopicPartitionConsumer Group分布式 Broker     Kafka集群包含一个或多个服务器,这种服务器被称为brokerTop ...