2，Hadoop部署

前期准备

（1）JAVA_HOME：因为Hadoop的配置文件中依赖 $JAVA_HOME。修改/etc/profile文件。

（2）hostname：修改主机名，方便管理。/etc/sysconfig/network。

（3）ip hostname：方便管理，hadoop默认是使用hostname作为ip的域名。/etc/hosts。

（4）iptables stop：关闭防火墙，由于集群需要用到的端口比较多，所以最好是先关掉。7版本：systemctl stop firewalld

（5）visudo：赋予sudo权限，CentOS中其他用户都没有sudo权限。/etc/sudoers。

（6）chown：更改hadoop文件夹的所有者。sudo chown -R user:group hadoop。

（7）验证：在hadoop根目录输入 bin/hadoop，验证是否配置正常。

（8）hadoop-env.sh添加 JAVA_HOME变量。

1，单机部署

··· 以wordcount为例：

（1）输入数据：在根目录下创建 wcinput文件夹，并添加word.txt文件。

（2）执行命令：bin/hadoop jar share/hadoop/mapreduce/......jar wordcount wcinput wcoutput # 注意：根目录不能存在wcoutput目录，必须由hadoop创建。

（3）查看输出：cat wcoutput/part-00000。

2，伪分布式部署

··· 以wordcount为例：

（1）修改core-site.xml 文件

<!-- 用来指定默认文件系统的名称以及NameNode服务的主机和端口号

注意:下面的mini主机名要改成你本机的实际的hostname -->

<name>fs.defaultFS</name>

<value>hdfs://hostname:8020</value>

</property>

<!-- 配置hadoop临时保存目录

注意:目录名和你安装的目录名要对应 -->

<name>hadoop.tmp.dir</name>

<value>/opt/app/hadoop/data/tmp</value>

</property>

</configuration>

（2）修改hdfs-site.xml文件

<!-- 用来指定Hadoop中每一个数据的副本数,默认都是3,但是在伪分布式中只有一个节点,所以这个

值必须设置为1 -->

<name>dfs.replication</name>

</property>

</configuration>

（3）对HDFS进行格式化

bin/hadoop namendoe -format

注意：只可以格式化一次，如果再次格式化，需要删除配置的临时文件目录 data文件夹

（4）启动NameNode和DataNode进程

sbin/hadoop-daemon.sh start namenode

sbin/hadoop-daemon.sh start datanode

注意：

启动NameNode时一定要联网。

可以通过jps查看进程是否启动。

可以通过web访问HDFS（http://主机IP(或域名):50070/explorer.html#

（5）上传文件到HDFS

创建文件夹：bin/hdfs dfs -mkdir /input

添加文件到HDFS的input目录：bin/hdfs dfs -put input.txt /input

查看是否上传成功：bin/hdfs dfs -ls /input

（6）运行与查看

运行：bin/hadoop jar share/..../....jar wordcount /input /output

查看结果：bin/hdfs dfs -cat /output/par*

··· 在YARN上运行MapReduce

（1）复制一份 mapred-site.xml文件

cp mapred-site.xml.template mapred-site.xml

（2）配置 MapReduce的计算框架为yarn

<name>mapreduce.framework.name</name>

</property>

（3）配置yarn-site.xml文件

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

（4）启动

sbin/yarn-daemon.sh start resourcemanager

sbin/yarn-daemon.sh start nodemanager

或者：start-yarn.sh

通过：http://hostname:8088 查看yarn上执行的程序。

··· 配置历史服务器和日志聚集：

（1）配置mapred-site.xml文件

<name>mapreduce.jobhistory.address</name>

</property>

<name>mapreduce.jobhistory.webapp.address</name>

</property>

（2）启动

sbin/mr-jobhistory-daemon.sh start historyserver # 启动历史服务器

查看：http://hadoop11:19888

（3）日志聚集

作用：在MR任务运行结束后，将相关的运行日志上传到HDFS文件系统中。

配置yarn-site.xml文件：

<name>yarn.log-aggregation-enable</name>

</property>

<name>yarn.log-aggregation.retain-seconds</name>

</property>

配置完后需要重启历史服务器和 yarn

··· 注意事项：

· start-dfs.sh 可以一次启动NameNode、DataNode和 SecondaryNameNode，但是需要输入三次密码，可以通过设置本地免密登录，来面输密码；ssh-copy-id -i ~/.ssh/id_rsa.pub shendeng@hadoop11(本地主机名)。

· start-yarn.sh 可以一次启动 resourcemanager和nodemanager。

3，完全分布式

··· 集群规划

hadoop11	hadoop22	hadoop33
NameNode	ResourceManager	SecondaryNameNode
DataNode	DataNode	DataNode
NodeManager	NodeManager	NodeManager
		HistoryServer

··· 5个配置文件

· core-site.xml：配置hadoop的文件系统为hdfs以及地址、临时文件夹位置。

· hdfs-site.xml：配置SecondaryNameNode的主机地址、NameNode的web地址、关闭文件系统的权限控制。

· yarn-site.xml：配置ResourceManager主机的位置、shuffle服务、开启日志聚集功能、日志保存的时间。

· mapred-site.xml：配置MapReduce的计算框架为yarn、MapReduce历史记录地址、历史记录web地址。

· slaves：在该文件中添加从节点的主机名(注意不能有空格)。

具体配置文件提取码：0gkn

··· 启动

· 复制配置文件：

将配置文件复制到其他节点上。scp -r /opt/app/hadoop27/etc/hadoop/ hadoop22:/opt/app/hadoop27/etc/

· 初始化NameNode节点：

注意：必须删除 /tmp和 hadoop根目录中的 data/tmp文件，否则无法初始化

在部署NameNode的节点上初始化NameNode。hadoop namenode -format

· 启动守护进程

在部署NameNode的节点上启动 HDFS。start-hdfs.sh

在部署resourcemanager的节点上启动YARN。start-yarn.sh

2，Hadoop部署的更多相关文章

hadoop部署小结的命令
hadoop部署总结的命令学习笔记,转自:hadoop部署总结的命令http://www.aboutyun.com/thread-5385-1-1.html(出处: about云开发)
Hadoop 部署文档
Hadoop 部署文档 1 先决条件 2 下载二进制文件 3 修改配置文件 3.1 core-site.xml 3.2 hdfs-site.xml 3.3 mapred-site.xml 3.4 ya ...
hadoop进阶----hadoop经验(一)-----生产环境hadoop部署在超大内存服务器的虚拟机集群上vs几个内存较小的物理机
生产环境 hadoop部署在超大内存服务器的虚拟机集群上好还是几个内存较小的物理机上好? 虚拟机集群优点虚拟化会带来一些其他方面的功能. 资源隔离.有些集群是专用的,比如给你三台设备只跑一个 ...
Hadoop部署方式-完全分布式(Fully-Distributed Mode)
Hadoop部署方式-完全分布式(Fully-Distributed Mode) 作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 本博客搭建的虚拟机是伪分布式环境(https://w ...
Hadoop部署方式-伪分布式(Pseudo-Distributed Mode)
Hadoop部署方式-伪分布式(Pseudo-Distributed Mode) 作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.下载相应的jdk和Hadoop安装包 JDK:h ...
Hadoop部署方式-本地模式(Local (Standalone) Mode)
Hadoop部署方式-本地模式(Local (Standalone) Mode) 作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. Hadoop总共有三种运行方式.本地模式(Local ...
hadoop部署中遇到ssh设置的问题
尽管hadoop和一些培训视频课程上讲分布式部署比较详细,但是在部署时仍遇到了一些小问题,在此mark一下: 1.linux的namenode主机上安装了ssh,也启动了ssh,并且执行了: /etc ...
hadoop部署工具与配置工具
https://github.com/xianglei/phpHiveAdmin 随着Hadoop的推出,大数据处理实现了技术上的落地.但是对于一般的公司和开发者而言,Hadoop依旧是一个陌生或者难 ...
hadoop部署、启动全套过程
Hadoop是Apache基金会的开源项目,为开发者提供了一个分布式系统的基础架构,用户可以在不了解分布式系统的底层细节的情况下开发分布式的应用,充分利用集群的强大功能,实现高速运算和存储.Hadoo ...
hadoop部署错误
hadoop的单机部署很简单也不容易出错,但是对生产环境的价值和意义不大,但是可以快速用于开发. 部署hadoop的错误原因不少,并且很奇怪. 比如,用户名不同,造成客户端和服务器通讯产生认证失败的错 ...

随机推荐

sqlalchemy 单表增删改查
1.连接数据库,并创建session from sqlalchemy.orm import sessionmaker from sqlalchemy import create_engine engi ...
Egret学习-初次创建项目
最近无聊,好久没有写游戏了,决定学习下egret,主要原因:egret是h5框架,相比android和iPhone或cocos2dx来说不需要安装可以直接运行. 下面进入正题,开始学习egret 简单 ...
C语言进阶——结构体，联合，枚举
----------------------------------------------------------我是一条划分线----------------------------------- ...
【洛谷4424】[HNOI_AHOI2018]寻宝游戏（我也不知道括号里该写啥）
题目洛谷 4424 分析感觉思路比较神仙. 对于按位与和按位或两种运算,显然每一位是独立的,可以分开考虑. 对于某一位,「与 $0$」会将这一位变成 $0$,「或 $1$」会将这一位变 ...
java小心机(3)| 浅析finalize()
每天进步一丢丢,连接梦与想如果你停止就是谷底,如果你还在努力就是上坡系列文章 java"小心机"(1)[资源彩蛋!] java小心机(2)| 重载和构造器的小细节预备知识 J ...
Python学习，第三课 - 数据类型
前言. 本次针对Python中的数据类型,做详细的总结 1.数字 2 是一个整数的例子. 长整数不过是大一些的整数. 3.23和52.3E-4是浮点数的例子.E标记表示10的幂.在这里,52.3E- ...
Vmware上安装Linux（centos7）图文教程
Vmware上安装Linux(centos7)图文教程一.准备安装文件(vmware && centos7 镜像) 1.下载 vmware workstations :链接: ...
tcpdump用法说明
tcpdump采用命令行方式对接口的数据包进行筛选抓取,其丰富特性表现在灵活的表达式上. 不带任何选项的tcpdump,默认会抓取第一个网络接口,且只有将tcpdump进程终止才会停止抓包. 例如: ...
工具之wc
wc命令的功能为统计指定文件中的字节数.字数.行数, 并将统计结果显示输出. 语法:wc [选项] 文件… 说明:该命令统计给定文件中的字节数.字数.行数.如果没有给出文件名,则从标准输入读取.wc同 ...
Docker三剑客之compose
简介 Compose 项目是 Docker 官方的开源项目,负责实现对 Docker 容器集群的快速编排.从功能上看,跟 OpenStack 中的 Heat 十分类似.其代码目前在 https://g ...

2，Hadoop部署

2，Hadoop部署的更多相关文章

随机推荐

热门专题