Hadoop2.6 安装布置问题总结(单机、分布式)
在debian7虚拟机上安装hadoop2.6,期间遇到一些问题在此记录一下。
安装参考:
Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04
Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu/CentOS
1、安装后出现
...
master: Error: JAVA_HOME is not set and could not be found.
...
需要看下对应日志的详细错误信息,在安装hadoop目录下(我的设置 HADOOP_PREFIX=/usr/local/hadoop) $HADOOP_PREFIX/logs/hadoop-hadoop-node-debian.log,根据信息可知道hadoop在运行环境中找不到 JAVA_HOME 变量,找不到jdk的位置
输入 env 发现我们已经设置了,但是hadoop发现不了,解决方法修改hadoop的环境设置文件,使用jdk的绝对路径:
在 $HADOOP_PREFIX/etc/hadoop/hadoop-env.sh 中,可以发现
export JAVA_HOME=${JAVA_HOME}
将${JAVA_HOME} 改成jdk绝对路径(我的jdk路径为 /usr/lib/jvm/jdk1.8.0_111),即
export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_111
修改后重启hadoop,问题解决
2、启动 start-dfs.sh 失败
启动dfs时(sh ./sbin/start-dfs.sh)出现报错
...
Syntax error: word unexpected (expecting “)”)”
...
根据其信息找到对应的脚步文件发现并没有问题,最后发现是bash的问题,sh 等同于 bash --posix,直接启动或使用bash启动就正常了:
./sbin/start-dfs.sh
或
bash ./sbin/start-dfs.sh
参考:https://blog.csdn.net/qq_16018407/article/details/78899796
3、启动start-dfs.sh后,使用jps发现 namesecondary进程不在,其对应报错:
...
... FATAL org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode: Failed to start secondary namenode
java.net.BindException: Port in use: 0.0.0.0:50090
...
发现端口已存在被占用,应该是前面启动失败时导致的问题解决方法就是找到对应的进程id然后kill掉:
sudo lsof -i:50090 -P //找到对应的进程id
sudo kill -9 PID //kill掉对应的进程
再重启 start-dfs.sh即可(先执行stop-dfs.sh),问题解决
参考:
Hadoop 安装配置错误总结
更新至 2018-6-5
最近搭了一个四台虚拟机的分布式集群,和进行了一次动态增加节点,故把遇到的问题分享一下。
4、克隆虚拟机:
我使用的是VMware Workstation,右键配置好的虚拟机--》管理--》克隆--》一直下一步到命名新虚拟机,指定安装位置--》完成
之后要编辑虚拟机--》网络适配器--》高级--》重新生成Mac地址--》确定。
5、指定ip和主机名
编辑 /etc/network/interfaces 文件可指定ip 和 网关等信息,然后可以使用 /etc/init.d/networking restart 重启生效;
编辑 /etc/hostname 文件可指定主机名,同时还需要修改 /etc/hosts 文件修改集群中的 ip和name关系,方便使用;
6、同步时间ntp
先下载ntp:
apt-get install ntp
然后修改ntp设置:
server [ip] iburst
重启:
/etc/init.d/ntp restart
查看结果:
ntpq -p
7、动态增加节点步骤:
- a、修改新服hostname和hosts文件,hosts文件需要同步到集群所有服务器
- b、设置所有namendoe免密登录到新服
- c、修改主节点slave文件,添加新增节点的ip信息(集群重启时使用)
- d、将hadoop的配置文件scp到新的节点上
- e、添加datanode:
在新增的节点上,运行sbin/hadoop-daemon.sh start datanode即可
然后在namenode通过hdfs dfsadmin -report查看集群情况
(后面3步没用到)
最后还需要对hdfs负载设置均衡,因为默认的数据传输带宽比较低,可以设置为64M,即hdfs dfsadmin -setBalancerBandwidth 67108864即可
默认balancer的threshold为10%,即各个节点与集群总的存储使用率相差不超过10%,我们可将其设置为5%
然后启动Balancer,sbin/start-balancer.sh -threshold 5,等待集群自均衡完成即可
- f、添加nodemanager:
- 在新增节点,运行sbin/yarn-daemon.sh start nodemanager即可
- 在ResourceManager,通过yarn node -list查看集群情况
参考:
Hadoop 2.6.0动态添加节点
更新至2018-7-12
Hadoop2.6 安装布置问题总结(单机、分布式)的更多相关文章
- Hadoop安装教程_单机/伪分布式配置_CentOS6.4/Hadoop2.6.0
Hadoop安装教程_单机/伪分布式配置_CentOS6.4/Hadoop2.6.0 环境 本教程使用 CentOS 6.4 32位 作为系统环境,请自行安装系统.如果用的是 Ubuntu 系统,请查 ...
- Hadoop三种安装模式:单机模式,伪分布式,真正分布式
Hadoop三种安装模式:单机模式,伪分布式,真正分布式 一 单机模式standalone单 机模式是Hadoop的默认模式.当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守 ...
- Hadoop安装教程_伪分布式
文章更新于:2020-04-09 注1:hadoop 的安装及单机配置参见:Hadoop安装教程_单机(含Java.ssh安装配置) 注2:hadoop 的完全分布式配置参见:Hadoop安装教程_分 ...
- 安装配置 Kafka Manager 分布式管理工具
Kafka Manager 特性,它支持以下内容(官方译解): 管理多个群集容易检查集群状态(主题,消费者,偏移量,经纪人,副本分发,分区分配)运行首选副本选举使用选项生成分区分配,以选择要使用的代理 ...
- 在Centos 7上安装配置 Apche Kafka 分布式消息系统集群
Apache Kafka是一种颇受欢迎的分布式消息代理系统,旨在有效地处理大量的实时数据.Kafka集群不仅具有高度可扩展性和容错性,而且与其他消息代理(如ActiveMQ和RabbitMQ)相比,还 ...
- 在 Linux 多节点安装配置 Apache Zookeeper 分布式集群
规划: 三台物理服务器就形成了(法定人数).对于高可用性集群,您可以使用高于3的任何奇数.例如,如果设置5台服务器,则集群可以处理两个故障节点等. 物理服务器需要开启的端口 2888 , 3888 和 ...
- 转载:Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04
原文 http://www.powerxing.com/install-hadoop/ 当开始着手实践 Hadoop 时,安装 Hadoop 往往会成为新手的一道门槛.尽管安装其实很简单,书上有写到, ...
- Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04
摘自: http://www.cnblogs.com/kinglau/p/3796164.html http://www.powerxing.com/install-hadoop/ 当开始着手实践 H ...
- Hadoop安装教程_单机/伪分布式配置
环境 本教程使用 CentOS 6.4 32位 作为系统环境,请自行安装系统(可参考使用VirtualBox安装CentOS).如果用的是 Ubuntu 系统,请查看相应的 Ubuntu安装Hadoo ...
随机推荐
- Mweb发布博客
1.设置 + 选择红色 2 输入该输入的帐号和密码  博客网址就是你的博客文章页的地址,然后输入帐号和密码 3 API 地址在 设置-->博客设置,红色标记就是API地址 4 发布, ...
- HTTP 请求/响应报文结构
请求报文和响应报文都是由以下4部分组成: 1.请求行/响应行 2.请求头/响应头 3.空行 4.消息主体(请求体/响应体) 请求报文结构 请求行 格式为:Method Request-URI HTTP ...
- 基于Vue+Spring MVC+MyBatis+Shiro+Dubbo开发的分布式后台管理系统
本文项目代码: 服务端:https://github.com/lining90567/dubbo-demo-server 前端:https://github.com/lining90567/dubbo ...
- 利用Smith圆图设计匹配网络
要实现射频最大的功率传输,必须使负载阻抗与源阻抗相匹配(即信号源阻抗与负载阻抗共轭相等),实现匹配的通常做法是在源和负载之间插入一个匹配网络,该网络不仅仅为减少功率损耗而设计,还可减少噪声干扰.提高功 ...
- 推荐一个娱乐化学习python的网站
https://py.checkio.org/ 这个网站通过解决一些小任务引导初学者了解和使用python来处理一些实际需求.在coding的过程中还可以通过查看提示,帮助完成任务. 不过需要一点英文 ...
- 基于Redis实现分布式锁(续)
代码实现: redis实现分布式锁(lock:通过间隔时间段去请求Redis,来实现阻塞占用,一直到获取锁,或者超时. unlock:删除redis中key)
- Markdown 版本演进
本文作为 Markdown 系列的第二篇,对上一篇使用 Markdown 写技术博客,我踩过的 6个坑博客提到的版本变迁进行简要的提纲说明. 如果不想读文章,请直接看思维导图,使用 Atom + ma ...
- md5sum命令详解
基础命令学习目录首页 原文链接:https://blog.csdn.net/cbbbc/article/details/48563023 前言 在网络传输.设备之间转存.复制大文件等时,可能会出现传输 ...
- API验证
API验证说明 API验证: a. 发令牌: 静态 PS: 隐患 key被别人获取 b. 动态令牌 PS: (问题越严重)用户生成的每个令牌被黑客获取到,都会破解 c. 高级版本 PS: 黑客网速快, ...
- CF 1100C NN and the Optical Illusion(数学)
NN is an experienced internet user and that means he spends a lot of time on the social media. Once ...