云梯开发人员在云梯Yarn集群的搭建和维护过程中做了许多工作,本文选择这期间部分较为典型的问题,通过对这些问题的分析和解决方案,为大家分享分布式系统问题调查的经验。

调查的问题

1. 2013年初引入社区0.23时,调查ResourceManager运行过程汇总突然挂掉的问题

现象:监控报警,线上运行的RM突然挂掉,RM异常日志如下,

2012-12-17 17:20:28,294 FATAL org.apache.hadoop.yarn.server.resourcemanager.ResourceManager: Error in handling event type APP_REMOVED to the scheduler

java.lang.NullPointerException

at org.apache.hadoop.yarn.server.resourcemanager.scheduler.SchedulerApp.unreserve(SchedulerApp.java:390)

at org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler.completedContainer(FairScheduler.java:590)

at org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler.removeApplication(FairScheduler.java:546)

at org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler.handle(FairScheduler.java:871)

at org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler.handle(FairScheduler.java:80)=

at org.apache.hadoop.yarn.server.resourcemanager.ResourceManager$SchedulerEventDispatcher$EventProcessor.run(ResourceManager.java:340)

at java.lang.Thread.run(Thread.java:662)

处理方法:启动RM继续提供服务,记录bug,开始调查。

调查过程:社区暂无此问题,需要自己分析。

a.分析,查看异常之前的代码,还发现一些其他异常,Error in handling event type NODE_UPDATE to the scheduler,RM的调度器处理Node更新的时候出现NPE,根据异常和代码判断出在AppSchedulable#assignContainer中 在reserved=true的情况下,获取的container的priority和传入的priority不一致导致的。通俗的讲,就是调度器有预订机制,另外在分配资源的时候每个container都有优先级,如果一个应用有在一个NM上预订一个优先级为X的container,另外一个等待的container优先级为更高的Y,当这个NM发生心跳给RM说,可以向它调度一个container,这时调度器本想找一个优先级更高的Y调度到该节点上,却没有找到,导致NPE。

解决方案:调度器应该优先找一个已经预订在该节点上的container分配给该节点,其次才是选择高优先级的container。不过就在我们调查出并解决的时候Apache Hadoop社区也刚好遇到并提供解决方案,因此最终没有贡献给社区。

2. 调查某些情况下RM不调度的问题

现象:RM能接收提交的作业,但是集群中所有作业都无法被调度,日志也没有异常。

调查过程:Dump出RM的进程栈,发现RM处于死循环状态。查看死循环部分的代码,原因是 调度器每次分配一个container给NM,然后对app排序,继续下一次的分配,如果调度器只是把container预订到该NM上,调度器没有调度任务给该NM,对app排序,进行下一次分配,这样就RM进入了死循环,无法工作。

解决方案:如果把某个container预订到NM上,也应该认为分配了相应的任务,退出循环。贡献给社区,YARN-300。

3. 调查RM异常退出的问题

现象:监控报警,线上运行的RM突然挂掉,RM异常日志如下:

2012-12-30 17:14:17,171 FATAL org.apache.hadoop.yarn.server.resourcemanager.ResourceManager: Error in handling event type NODE_UPDATE to the scheduler

java.util.ConcurrentModificationException

分析过程:异常是两个线程同时对一个对象进行操作,一个线程有加锁,另外一个线程没有加锁,导致异常的出现。

解决方案:两个线程都在调用该对象前加锁。贡献给社区,YARN-301

4. 调查网页上显示FairScheduler调度资源不准确的问题

现象:RM网页上显示调度信息不准确,资源使用量越来越大,已经超过集群资源量(内存)。

原因:reserve的时候增加三次,unreserve的时候减少两次,导致数字越来越大。

解决:reserve与unreserve应该相对应,增加多少就得减少多少。社区也有相应的问题,暂未贡献给社区。

5. 客户端提交作业后一直hang着,没反应

现象:用户提交一个作业到RM的某个组,但是RM上配置这个组不接受这个用户作业,这时候客户端一直hang这没反应。

原因:原因是以为RM判断出不允许的作业时,没有做如何处理,导致客户端一直hang着。

解决:增加处理机制,返回给客户端相应的出错信息。贡献给社区 YARN-319。

还有一些RM挂掉的问题,社区刚好解决,我们直接引入,如

https://issues.apache.org/jira/browse/YARN-335 RM出现NPE挂掉

https://issues.apache.org/jira/browse/MAPREDUCE-4144 RM处理Node更新的时候出现NPE

6. 引入Cgroup使Yarn支持对CPU的调度和隔离。

问题:Spark应用是内存密集型,但是对CPU要求不高,而MPI对CPU要求多,只有内存的调度不够。

设计:社区提供的Cgroup,支持CPU的隔离和调度。引入这部分后,我们遇到一个比较严重的问题,它要求NM创建账户,这从运维角度上来说是不可行的,它的目的是为了安全性,但是对内部应用来说必要性不大,另外Cgroup对CPU的隔离不依赖多账户,因此通过修改一个container-executor.c,防止启动container的时候修改账户,而是使用一个统一的账户运行container,即能满足安全需要,又能减少运维人员的工作量。

7. MRApplicationMaster初始化性能优化

问题:MRApplicationMaster初始化很慢。

分析:通过调查发现慢在解析rack上,由于集群大,datanode多,MRApplicationMaster启动的时候会初始化map task,这时候会频繁调用解析脚本,导致初始化慢,严重影响作业的运行时间

解决方案:通过在每个NM上增加一个包含所有datanode的机器名和rack对应信息的文件,MRApplicationMaster启动的时候读取这个文件,防止频繁调用解析脚本,大大加快了作业初始化速度。

经验总结

Hadoop类似的分布式开源框架,出问题还是比较常见的,关键是出问题后如何解决,

a. 一般情况下首先到社区寻找类似的问题,如果已经解决则直接引入即可

b. 如果社区没有解决,那么就需要自己分析,如果是bug问题,则需要通过分析日志和代码,最好能在测试集群上重现相应的问题,若能重现,则通过远程调试或增加打印日志的方式分析相应的问题。找到原因后解决方案则是多种多样的,要结合自己的实际情况选择解决方案。

c. 如果是性能问题,则需要分析性能瓶颈,慢在哪一块,慢在哪一步,慢在哪行代码,多向自己提出这几个问题,则能一步步的定位性能瓶颈,然后就需要创新性的提出一些优化方案。

所以在分布式应用中,无论是bug调查还是性能问题,关键都在于定位原因,原因找到后解决才能确定解决方案。

YARN集群维护部分问题汇总的更多相关文章

  1. YARN集群的mapreduce测试(六)

    两张表链接操作(分布式缓存): ----------------------------------假设:其中一张A表,只有20条数据记录(比如group表)另外一张非常大,上亿的记录数量(比如use ...

  2. YARN集群的mapreduce测试(一)

    hadoop集群搭建中配置了mapreduce的别名是yarn [hadoop@master01 hadoop]$ mv mapred-site.xml.template mapred-site.xm ...

  3. 大数据入门第八天——MapReduce详解(三)MR的shuffer、combiner与Yarn集群分析

    /mr的combiner /mr的排序 /mr的shuffle /mr与yarn /mr运行模式 /mr实现join /mr全局图 /mr的压缩 今日提纲 一.流量汇总排序的实现 1.需求 对日志数据 ...

  4. 深入剖析阿里巴巴云梯YARN集群

    我的一篇文章<深入剖析阿里巴巴云梯YARN集群> 已经发表在程序员2013年11月刊中, 原文链接为http://www.csdn.net/article/2013-12-04/28177 ...

  5. Yarn篇--搭建yarn集群

    一.前述 有了上次hadoop集群的搭建,搭建yarn就简单多了.废话不多说,直接来 二.规划 三.配置如下 yarn-site.xml配置 <property>        <n ...

  6. Yarn集群的搭建、Yarn的架构和WordCount程序在集群提交方式

    一.Yarn集群概述及搭建 1.Mapreduce程序运行在多台机器的集群上,而且在运行是要使用很多maptask和reducertask,这个过程中需要一个自动化任务调度平台来调度任务,分配资源,这 ...

  7. YARN集群的mapreduce测试(五)

    将user表计算后的结果分区存储 测试准备: 首先同步时间,然后master先开启hdfs集群,再开启yarn集群:用jps查看: master上: 先有NameNode.SecondaryNameN ...

  8. YARN集群的mapreduce测试(四)

    将手机用户使用流量的数据进行分组,排序: 测试准备: 首先同步时间,然后master先开启hdfs集群,再开启yarn集群:用jps查看: master上: 先有NameNode.SecondaryN ...

  9. YARN集群的mapreduce测试(三)

    将user表.group表.order表关:(类似于多表关联查询) 测试准备: 首先同步时间,然后 开启hdfs集群,开启yarn集群:在本地"/home/hadoop/test/" ...

随机推荐

  1. [转]论window和Linux之长短

    论window和Linux之长短 王垠 http://www.kerneltravel.net/jiqiao/whyLinux.htm — 摈弃 Windows 低效率的工作方式,发掘 Linux 身 ...

  2. UIStepper swift

    // // ViewController.swift // UILabelTest // // Created by mac on 15/6/23. // Copyright (c) 2015年 fa ...

  3. 推荐一款系统软件:Unity tweak tool

    功能很多慢慢体会 在软件中心搜索unity tweak tool安装

  4. C#委托详解(3):委托的实现方式大全(续)

    接上篇(C#委托详解(2):实现方式大全),本篇继续介绍委托的实现方式. 4.Action<T>和Func<T>委托 使用委托时,除了为每个参数和返回类型定义一个新委托类型之外 ...

  5. Asp.net开启分布式事务管理

    1.确保服务器分布式管理服务 Distributed Transcation Coordinator 有开启 2.使用分布式事务代码的项目中添加System.Transactions程序集的引用 3. ...

  6. Careercup - Google面试题 - 6271724635029504

    2014-05-06 13:23 题目链接 原题: Finding a pair of elements from two sorted lists(or array) for which the s ...

  7. 【转】PLSQL developer 连接不上64位Oracle 的解决方法

    PLSQL developer 连接不上64位Oracle 的解决方法 快乐无极 , 2012/06/13 10:10 , 开发文档 , 评论(6) , 阅读(140430) , Via 本站原创 大 ...

  8. 本地wordpress博客系统安装搭建实践

    我们按步骤来, (1)安装XAMPP集成软件包 wordpress 的运行要求是在 php + MySQL + Apache的服务器环境,所以要先搭建该环境,我用的是XAMPP软件包,安装很方便. 下 ...

  9. EF 更新条目时出错。有关详细信息,请参见内部异常。

    现象:使用EF新增记录时,一直报上述异常,网上说是值为空.主键外键未设等原因导致,但是改正这些情况下问题依然 解决过程:异常中有一句(请参见内部异常),一直都没有当回事,后来实在没办法就静下心来看了看 ...

  10. 【CTSC 2015】&【APIO 2015】酱油记

    蒟蒻有幸参加了神犇云集的CTSC & APIO 2015,感觉真是被虐成傻逼了……这几天一直没更新博客,今天就来补一下吧~~(不过不是题解……) Day 0 从太原到北京现在坐高铁只需3小时= ...