1.HDFS 修复

问题描述：其他部门在yarn平台上跑spark 程序错误的生成了海量的不到100K的小文件，导致namenode压力过大，其中一个namenode宕机后，没有及时发现使得edits文件大量积累，在namenode1宕机后，namenode2 随后在凌晨1点也宕机。

原因分析：NameNode 内存设置太低，之前内存设置在1G，后调高namenode 堆内存，调高到18G。编写程序的人员不应该生成海量的小文件落地HDFS，大量的小文件不适合存储在HDFS上。

问题解决方案：提高namenode 内存，由于edits文件太多，删除了edits文件，但是journalNode 上edits txid不一致，导致namenode 无法启动，后执行命令初始化edits文件的txid ，修复完毕！丢失了少量的文件。

2.Spark 客户端安装后Driver和Yarn无法通讯

问题描述：项目经理在10.10.26.7 机器上安装spark 客户端，但是dirver端和yarn无法通讯.一直报通讯超时

原因分析：由于客户端是centos6,服务端为centos7。底层通讯方式不相同

问题解决方案：升级客户端机器到centos7问题解决。

3.Phoenix 安装和Hive出现冲突

问题描述：把 phoenix-hbase-client.jar phoenix-hbase-core.jar phoenix-hbase-server.jar 放到了hbase的jar目录下，hbase 使用没有问题，phoenix使用没有问题，但是执行hive命令报错，hive无法使用。

原因分析：hive首先加载hive lib目录下的jar文件，然后加载hbase 下的jar文件，由于hbase下phoenix-hbase-client.jar文件中的一个java文件依赖的其他jar版本太低，hive版本太高，无法找到其中一个类，然后报ClassNotDef

问题解决方案：去掉phoenix-hbase-client.jar 即可，目前看来这个包没有什么用。

4.HDFS扩容升级

问题描述：新增加机器，扩容HDFS，已经扩容完毕，之后运维部重新挂载磁盘，HDFS出现逻辑卷错误

问题分析：日志显示挂载磁盘错误，实际是写数据的目录权限不足

问题解决方案：修改挂载的磁盘的所属用户为hadoop，重新启动dataNode即可

5.Yarn NodeManager OOM

问题描述：向集群提交大的作业 Yarn平台的NodeManager OOM ，OOM死掉后的NodeManager，存活的NodeManager 正在运行就会出现core使用出现负数。

问题分析：由于yarn进程所需的内存不足出现OOM

问题解决方案：在/opt/hadoop/libexe/hadoop_config.sh 在尾部添加

6. Impala 根据时间戳查询Hbase

问题描述：使用Impala 查询hbase中的数据，出现错误找不到列

问题分析：impala不支持根据hbase timestamp查询

问题解决方案：https://issues.apache.org/jira/browse/IMPALA-2121

7.HDFS 异构存储磁盘容量不一致

问题描述：由于HDFS dataNode节点的磁盘大小不一致，导致小容量的HDFS先打满，yarn跑任务出现问题

问题分析：尽量让数据一致

问题解决方案：开启HDFS让数据优先写入容量大的磁盘，优先写入容量的dataNode节点，开启rebalance

8.HDFS 机架感知不可以同时存在有机架和没有机架的节点

问题描述：机架感知不可以同时存在有机架和没有机架的节点

问题分析：开始以为是HDFS的topology.sh文件中的default-rack导致的，但是修改为已有的机架依旧不可以，观察HDFS源码发现hdfs源码中也有default-rack，如果没有机架配置默认使用default-rack即没有机架

问题解决方案：由于topology.data文件最后一行需要回车即可

9.Yarn NodeManager 宕机

问题描述：新增的NodeManager 机器NodeManager 进程一直宕

问题分析：观察日志问OOM，打开文件limit受限制

问题解决方案：修改linux系统其它用户打开文件数量的限制即可解决

10. HDFS NameNode无法和JournalNode通讯，NameNode宕机

问题描述：由于运维修改网络导致journalNode无法和nameNode 通讯,观察日志NameNode尝试与journalNode通讯10次失败后，NameNode直接宕机

问题分析: JournalNode网络通讯高可用需要保证

问题解决方案：重新启动nameNode问题解决

工作中Hadoop,Spark,Phoenix,Impala 集群中遇到坑及解决方案的更多相关文章

hadoop - spark on yarn 集群搭建
一.环境准备 1. 机器: 3 台虚拟机机器角色 l-qta3.sp.beta.cn0 NameNode,ResourceManager,spark的master l-querydiff1.sp ...
如果Apache Spark集群中没有分布式系统，则会？
若当连接到Spark的master之后,若集群中没有分布式文件系统,Spark会在集群中每一台机器上加载数据,所以要确保Spark集群中每个节点上都有完整数据. 通常可以选择把数据放到HDFS.S3或 ...
搭建Spark高可用集群
Spark简介官网地址:http://spark.apache.org/ Apache Spark™是用于大规模数据处理的统一分析引擎. 从右侧最后一条新闻看,Spark也用于AI人工智能 sp ...
spark教程(一)-集群搭建
spark 简介建议先阅读我的博客大数据基础架构 spark 一个通用的计算引擎,专门为大规模数据处理而设计,与 mapreduce 类似,不同的是,mapreduce 把中间结果写入 hdfs ...
针对负载均衡集群中的session解决方案的总结
在日常运维工作中,当给Web站点使用负载均衡之后,必须面临的一个重要问题就是Session的处理办法,无论是PHP.Python.Ruby还是Java语言环境,只要使用服务器保存Session,在做负 ...
负载均衡集群中的session解决方案
前言在我们给Web站点使用负载均衡之后,必须面临的一个重要问题就是Session的处理办法,无论是PHP.Python.Ruby还是Java,只要使用服务器保存Session,在做负载均衡时都需要考 ...
负载均衡集群中的session解决方案【转】
通常面临的问题从用户端来解释,就是当一个用户第一次访问被负载均衡代理到后端服务器A并登录后,服务器A上保留了用户的登录信息:当用户再次发送请求时, 根据负载均衡策略可能被代理到后端不同的服务器,例如 ...
Hadoop集群中添加硬盘
Hadoop工作节点扩展硬盘空间接到老板任务,Hadoop集群中硬盘空间不够用,要求加一台机器到Hadoop集群,并且每台机器在原有基础上加一块2T硬盘,老板给力啊,哈哈. 这些我把完成这项任务的步 ...
Hadoop学习之路（十二）分布式集群中HDFS系统的各种角色
NameNode 学习目标理解 namenode 的工作机制尤其是元数据管理机制,以增强对 HDFS 工作原理的理解,及培养 hadoop 集群运营中“性能调优”.“namenode”故障问题的分 ...

随机推荐

Ubuntu 中/etc/resolv.conf 文件修改丢失的解决方案
方法一 1.需要创建一个文件/etc/resolvconf/resolv.conf.d/tail sudo vi /etc/resolvconf/resolv.conf.d/tail 2.在该文件中写 ...
[Algorithm] Coding Interview Question and Answer: Longest Consecutive Characters
Given a string, find the longest subsequence consisting of a single character. Example: longest(&quo ...
[AngularJS] Angular 1.3 Anuglar hint
Read More: http://www.linkplugapp.com/a/953215 https://docs.google.com/document/d/1XXMvReO8-Awi1EZXA ...
【Python】nvshens按目录批量下载图片爬虫1.00(单线程版)
# nvshens按目录批量下载图片爬虫1.00(单线程版) from bs4 import BeautifulSoup import requests import datetime import ...
xcode 5 使用 XCTest 做单元测试
xcode 5 使用 XCTest 做单元测试什么是单元测试,请看百度百科单元测试一:在xcode5 之前,我们新建项目时,可以选择是否集成单元测试:如今在xcode5,我们新建立的项目默认就 ...
关于android的设备管理器-DevicePolicyManager（二）
上回分析到了/data/system/device_policies.xml这个文件是在package change事件发生的时候变化的.那么来看看它的内容. 依据以往的经验.在/data/syste ...
Python 更新dict
更新dict 对需要更新的key-value 直接赋值即可dict是可变的,也就是说,我们可以随时往dict中添加新的 key-value.比如已有dict:d = { 'Adam': 95, 'Li ...
Generator [ˈdʒenəreɪtə(r)] 函数结构
Generator函数是ES6新增的一种异步编程方案. 说明:Generator函数指的是一种新的语法结构,是一个遍历器对象生成器,它内部可以封装多个状态,非常适合用于异步操作. Generator函 ...
xftp Initialize Flexnet Service failed / Error code: 50003
xftp Initialize Flexnet Service failed / Error code: 50003 CreateTime--2018年5月3日15:47:05 Author:Ma ...
【APP接口开发】chrome浏览器DHC工具安装使用（亲测有效）
1.DHC文件获取地址:http://chromecj.com/web-development/2015-08/549/download.html 2.chrome安装DHC插件教程和步骤:http: ...

工作中Hadoop,Spark,Phoenix,Impala 集群中遇到坑及解决方案