Hadoop完整搭建过程(二):伪分布模式
1 伪分布模式
伪分布模式是运行在单个节点以及多个Java进程上的模式。相比起本地模式,需要进行更多配置文件的设置以及ssh
、YARN
相关设置。
2 Hadoop
配置文件
修改Hadoop
安装目录下的三个配置文件:
etc/hadoop/core-site.xml
etc/hadoop/hdfs-site.xml
etc/hadoop/hadoop-env.sh
2.1 core-site.xml
首先修改core-site.xml
:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/tmp</value>
</property>
</configuration>
fs.defaultFS
设置的是HDFS
的地址,设置运行在本地的9000
端口上hadoop.tmp.dir
设置的是临时目录,如果没有设置的话默认在/tmp/hadoop-${user.name}
中,系统重启后会导致数据丢失,因此修改这个临时目录的路径
接着创建该临时目录:
mkdir -p /usr/local/hadoop/tmp
2.2 hdfs-site.xml
接着修改hdfs-site.xml
:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
dfs.replication
设置的是HDFS
存储的临时备份数量,因为伪分布模式中只有一个节点,所以设置为1
。
2.3 hadoop-env.sh
修改该文件添加JAVA_HOME
环境变量,就算JAVA_HOME
在
~/.bashrc
~/.bash_profile
/etc/profile
等中设置了,运行时也是会提示找不到JAVA_HOME
,因此需要手动在hadoop-env.sh
中设置JAVA_HOME
:
3 本地无密码ssh
连接
下一步需要设置本地无密码ssh
连接,首先先检查确保开启sshd
服务:
systemctl status sshd
开启后可以直接localhost
连接:
ssh localhost
输入自己的用户密码后就可以访问了,但是这里需要的是无密码连接,因此配置密钥认证连接的方式:
ssh-keygen -t ed25519 -a 100
cat ~/.ssh/id_25519.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys
这里生成公私钥后把公钥添加到authorized_keys
中,并且修改权限,需要注意600
权限,只能本用户有写权限。
然后直接ssh localhost
就可以连接本地主机了。
4 运行
4.1 格式化HDFS
这里以单一节点的模式运行,首先格式化HDFS
:
# HADOOP为Hadoop安装目录
HADOOP/bin/hdfs namenode -format
格式化是对HDFS
中的DataNode
进行分块,统计所有分块后的初始元数据,存储在NameNode
中。
格式化成功后会在上面配置文件中设置的临时目录中生成dfs
目录,如下所示:
里面只有一个目录:dfs/name/current
,其中tmp/dfs/name/current
的文件如下:
文件说明如下:
fsimage
:NameNode
元数据在内存满后,持久化保存到的文件fsimage*.md5
:校验文件,用于校验fsimage
的完整性seen_txid
:存放transactionID
文件,format
之后为0,表示NameNode
里面的edits_*
文件的尾数VERSION
:保存创建时间,namespaceID
、blockpoolID
、storageType
、cTime
、clusterID
、layoutVersion
关于VERSION
的说明:
namespaceID
:HDFS
唯一标识符,在HDFS
首次格式化后生成blockpoolID
:标识一个block pool
,跨集群全局唯一storageType
:存储什么进程的数据结构信息cTime
:创建时间clusterID
:系统生成或指定的集群ID
,可以使用-clusterid
指定layoutVersion
:表示HDFS
永久性数据结构版本的信息
4.2 启动NameNode
HADOOP/sbin/start-dfs.sh
然后可以通过
localhost:9870
访问NameNode
:
4.3 测试
生成输入目录,并使用配置文件作为输入:
bin/hdfs dfs -mkdir /user
bin/hdfs dfs -mkdir /user/USER_NAME # USER_NAME为您的用户名
bin/hdfs dfs -mkdir input
bin/hdfs dfs -put etc/hadoop/*.xml input
测试:
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.0.jar grep input output 'dfs[a-z.]+'
获取输出:
bin/hdfs dfs -get output output # 复制输出到output目录
cat output/*
停止:
sbin/stop-hdfs.sh
5 使用YARN
配置
除了可以将单个节点以伪分布模式启动,还可以通过YARN
统一调度,只需要适当修改配置文件。
5.1 配置文件
修改以下文件:
HADOOP/etc/hadoop/mapred-site.xml
HADOOP/etc/hadoop/yarn-site.xml
5.1.1 mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.application.classpath</name>
<value>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*</value>
</property>
</configuration>
mapreduce.framework.name
指定了MapReduce
运行在YARN
上mapreduce.application.classpath
指定了类路径
5.1.2 yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.env-whitelist</name>
<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
</property>
</configuration>
yarn.nodemanager.aux-services
:运行在NodeManager
上运行的附属服务yarn.nodemanager.env-whitelist
:环境变量通过从NodeManagers
的容器继承的环境属性
5.2 运行
sbin/start-yarn.sh
运行后就可以通过
localhost:8088
访问:
停止:
sbin/stop-yarn.sh
6 参考
- Hadoop3.3.0官方文档
- CSDN-GitChat·大数据 | 史上最详细的Hadoop环境搭建
- CSDN-Hadoop Namenode元数据文件 Fsimage、editlog、seen_txid说明
Hadoop完整搭建过程(二):伪分布模式的更多相关文章
- 本地+分布式Hadoop完整搭建过程
1 概述 Hadoop在大数据技术体系中极为重要,被誉为是改变世界的7个Java项目之一(剩下6个是Junit.Eclipse.Spring.Solr.HudsonAndJenkins.Android ...
- Hadoop完整搭建过程(三):完全分布模式(虚拟机)
1 完全分布模式 完全分布模式是比本地模式与伪分布模式更加复杂的模式,真正利用多台Linux主机来进行部署Hadoop,对集群进行规划,使得Hadoop各个模块分别部署在不同的多台机器上,这篇文章介绍 ...
- Hadoop完整搭建过程(四):完全分布模式(服务器)
1 概述 上一篇文章介绍了如何使用虚拟机搭建集群,到了这篇文章就是实战了,使用真实的三台不同服务器进行Hadoop集群的搭建.具体步骤其实与虚拟机的差不多,但是由于安全组以及端口等等一些列的问题,会与 ...
- Hadoop完整搭建过程(一):本地模式
1 本地模式 本地模式是最简单的模式,所有模块都运行在一个JVM进程中,使用本地文件系统而不是HDFS. 本地模式主要是用于本地开发过程中的运行调试用,下载后的Hadoop不需要设置默认就是本地模式. ...
- Ubuntu上搭建Hadoop环境(单机模式+伪分布模式) (转载)
Hadoop在处理海量数据分析方面具有独天优势.今天花了在自己的Linux上搭建了伪分布模式,期间经历很多曲折,现在将经验总结如下. 首先,了解Hadoop的三种安装模式: 1. 单机模式. 单机模式 ...
- 转载——Asp.Net MVC+EF+三层架构的完整搭建过程
转载http://www.cnblogs.com/zzqvq/p/5816091.html Asp.Net MVC+EF+三层架构的完整搭建过程 架构图: 使用的数据库: 一张公司的员工信息表,测试数 ...
- Ubuntu上搭建Hadoop环境(单机模式+伪分布模式)
首先要了解一下Hadoop的运行模式: 单机模式(standalone) 单机模式是Hadoop的默认模式.当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选 ...
- Ubuntu上搭建Hadoop环境(单机模式+伪分布模式)【转】
[转自:]http://blog.csdn.net/hitwengqi/article/details/8008203 最近一直在自学Hadoop,今天花点时间搭建一个开发环境,并整理成文. 首先要了 ...
- 【Hadoop离线基础总结】伪分布模式环境搭建
伪分布模式环境搭建 服务规划 适用于学习测试开发集群模式 步骤 第一步:停止单节点集群,删除/export/servers/hadoop-2.7.5/hadoopDatas,重新创建文件夹 停止单节点 ...
随机推荐
- 死磕Spring之IoC篇 - Bean 的“前身”
该系列文章是本人在学习 Spring 的过程中总结下来的,里面涉及到相关源码,可能对读者不太友好,请结合我的源码注释 Spring 源码分析 GitHub 地址 进行阅读 Spring 版本:5.1. ...
- WPF 之绘画(十一)
一.WPF 绘画 WPF 可以绘制线段(Line).矩形(Rectange).椭圆(Ellipse).路径(Path).具体使用如下所示: <!--(1)线段:Line--> <Li ...
- vue学习遇到的问题
1.vue脚手架的安装,解决链接:https://www.cnblogs.com/qcq0703/p/14439467.html2.2.2.0+ 的版本里,当在组件上使用 v-for 时,key 现在 ...
- Spring—Document root element "beans", must match DOCTYPE root "null"分析及解决方法
网上很多人说要把applicationContex.xml文件中加上如下第二行的<!DOCTYPE/>标签,说明DTD.<?xml version="1.0" e ...
- MySQL 导出 select 结果集
reference: https://blog.csdn.net/huaishuming/article/details/74762652法一:SELECT * from jc_archives wh ...
- 2021-2-26:为什么需要 System.gc() ?
JVM 默认启动参数中,DisableExplicitGC 为 false,ExplicitGCInvokesConcurrent 为 false,对于大多数 GC (除了 ZGC 的其他 GC,包括 ...
- 行业动态 | 通过使用Apache Cassandra实现实时供应链管理
借助基于Apache Cassandra的DataStax Enterprise,C&S Wholesale确实得到了他们所需要的东西--一个持续在线的仓库运作整体视图. 视图中包含了原本 ...
- 企业安全_监控Github关键字
目录 Hawkeye GSIL Hawkeye github: https://github.com/0xbug/Hawkeye 教程: https://my.oschina.net/adailinu ...
- 剑指 Offer 04. 二维数组中的查找 (思维)
剑指 Offer 04. 二维数组中的查找 题目链接 本题的解法是从矩阵的右上角开始寻找目标值. 根据矩阵的元素分布特性, 当目标值大于当前位置的值时将row行号++,因为此时目标值一定位于当前行的下 ...
- 关于 C++ 中的强制转换 - 基础篇
引言 假设有基类 A,包含了虚函数 func1,以及有派生类 B,继承于类 A,派生类 B 中实现了函数 func1.此时可以用 A 类型的指针指向 B 类型的对象,并用 A 类型的指针调用 B 类型 ...