spark日志配置及问题排查方式。

此文已由作者岳猛授权网易云社区发布。

欢迎访问网易云社区，了解更多网易技术产品运营经验。

任何时候日志都是定位问题的关键，spark也不会例外，合适的配置和获取spark的driver，am，及executor日志将会提升问题定位的效率，这里初步整理了spark的一些配置，更好的日志配置还需要根据实际的情况。

1）dirver日志的配置，可以通过spark.driver.extraJavaOptions设置加载log4j.properties文件的路径，如：

spark.driver.extraJavaOptions -Dlog4j.configuration=file:/home/hadoop/ym/spark-1.6.1-bin-hadoop2.6/conf/log4j.properties

具体log4j.properties参考：

# Set everything to be logged to the console

log4j.rootCategory=INFO, console,rolling

log4j.appender.console=org.apache.log4j.ConsoleAppender

log4j.appender.console.target=System.err

log4j.appender.console.layout=org.apache.log4j.PatternLayout

log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n

# Settings to quiet third party logs that are too verbose

log4j.logger.org.spark-project.jetty=WARN

log4j.logger.org.spark-project.jetty.util.component.AbstractLifeCycle=ERROR

log4j.logger.org.apache.spark.repl.SparkIMain$exprTyper=INFO

log4j.logger.org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=INFO

log4j.logger.org.apache.parquet=ERROR

log4j.logger.parquet=ERROR

# SPARK-9183: Settings to avoid annoying messages when looking up nonexistent UDFs in SparkSQL with Hive support

log4j.logger.org.apache.hadoop.hive.metastore.RetryingHMSHandler=FATAL

log4j.logger.org.apache.hadoop.hive.ql.exec.FunctionRegistry=ERROR

log4j.appender.rolling=org.apache.log4j.RollingFileAppender

log4j.appender.rolling.layout=org.apache.log4j.PatternLayout

log4j.appender.rolling.layout.ConversionPattern=%d{yyyy-MM-dd HH:mm:ss} - [%p] - [%l] %m%n

log4j.appender.rolling.Append=true

log4j.appender.rolling.Encoding=UTF-8

log4j.appender.rolling.MaxBackupIndex=5

log4j.appender.rolling.MaxFileSize=200MB

log4j.appender.rolling.file=/home/hadoop/ym/logs/${spark.app.name}.driver.log

log4j.logger.org.apache.spark=INFO

log4j.logger.org.eclipse.jetty=WARN

这样的配置可以使Application的日志以AppName.driver.log的形式存放于你指定的目录。

2）executor的日志，可以通过spark.executor.extraJavaOptions设置加载log4j.properties文件的路径，如：

spark.executor.extraJavaOptions -Dlog4j.configuration=file:/home/hadoop/ym/spark-1.6.1-bin-hadoop2.6/conf/log4j-executor.properties

具体log4j.properties参考：

# Set everything to be logged to the console

log4j.rootCategory=INFO,rolling

log4j.appender.console=org.apache.log4j.ConsoleAppender

log4j.appender.console.target=System.err

log4j.appender.console.layout=org.apache.log4j.PatternLayout

log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n

# Settings to quiet third party logs that are too verbose

log4j.logger.org.spark-project.jetty=WARN

log4j.logger.org.spark-project.jetty.util.component.AbstractLifeCycle=ERROR

log4j.logger.org.apache.spark.repl.SparkIMain$exprTyper=INFO

log4j.logger.org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=INFO

log4j.logger.org.apache.parquet=ERROR

log4j.logger.parquet=ERROR

# SPARK-9183: Settings to avoid annoying messages when looking up nonexistent UDFs in SparkSQL with Hive support

log4j.logger.org.apache.hadoop.hive.metastore.RetryingHMSHandler=FATAL

log4j.logger.org.apache.hadoop.hive.ql.exec.FunctionRegistry=ERROR

log4j.appender.rolling=org.apache.log4j.RollingFileAppender

log4j.appender.rolling.layout=org.apache.log4j.PatternLayout

log4j.appender.rolling.layout.ConversionPattern=%d{yyyy-MM-dd HH:mm:ss} - [%p] - [%l] %m%n

log4j.appender.rolling.Append=true

log4j.appender.rolling.Encoding=UTF-8

log4j.appender.rolling.MaxBackupIndex=5

log4j.appender.rolling.MaxFileSize=2MB

log4j.appender.rolling.file=${spark.yarn.app.container.log.dir}/stdout

log4j.logger.org.apache.spark=DEBUG

log4j.logger.org.eclipse.jetty=WARN

其中executor日志分为运行时日志以及结束日志，两种日志分别存放于不同的位置，运行时候的日志文件存放于yarn.nodemanager.log−dirs/{ApplicationID},如：

<property>

   <name>yarn.nodemanager.log-dirs</name>

   <value>file:/mnt/ddb/2/hadoop/nm</value>

</property>

那么运行时候的executor日志存放于：

root@xxx:/mnt/ddb/2/hadoop/nm/application_1471515078641_0007# ls

container_1471515078641_0007_01_000001 container_1471515078641_0007_01_000002 container_1471515078641_0007_01_000003

其中container_1471515078641_0007_01_000001为RM为application_1471515078641_0007分配的第一个container，即AM所在的container，第一个container都是运来启动AM的，containerID形式为，container_APPID_01_000001,你在RM日志文件里面根据container_APPID搜索即可看到为该APPID分配的container的分布情况及生命周期。

运行结束以后日志会聚合到HDFS上面去，具体路径为/tmp/logs/${user}/logs,如：

drwxrwx--- - root supergroup 0 2016-08-18 18:29 /tmp/logs/root/logs/application_1471515078641_0002

drwxrwx--- - root supergroup 0 2016-08-18 19:10 /tmp/logs/root/logs/application_1471515078641_0003

drwxrwx--- - root supergroup 0 2016-08-18 19:17 /tmp/logs/root/logs/application_1471515078641_0004

3）am的日志配置，可以通过spark.yarn.am.extraJavaOptions设置加载log4j.properties文件的路径，如：

spark.yarn.am.extraJavaOptions -Dlog4j.configuration=file:/home/hadoop/ym/spark-1.6.1-bin-hadoop2.6/conf/log4j-executor.properties

因为am和executor都是运行在container里面，具体log4j.properties可以参考executor的，这里不再多说。

补充一些：

下面重点说下，遇见spark问题该怎么去排查日志，都排查哪些日志，spark的运行流程可以参考http://ks.netease.com/blog?id=5174，这这边每个过程都代表着不同的日志文件。

一，SC初始化的过程中出现问题的排查方式

1）driver提交到RM的时候，如果提交不上去，首先排查driver日志，其次根据APPID排查RM日志看下APP生命周期

2）RM启动AM的过程出现问题，首先排查RM日志看为APP分配的第一个container下发到哪个NM上面去了，到对应的NM上面去根据containerID查看其生命周期哪里出现问题了

3）AM启动了，向RM申请container的过程出现了问题，首先查看am的日志，即第一个container的日志，排查下都申请了哪些container，这些container都下发了哪些节点，然后到对应节点的NM日志上根据containerID查看其生命周期情况

4）executor启动了，无法注册到driver，这时候就要去查看对应的executor的日志

二，SC.action以后的问题排查

1）首先在driver日志里面去查看都有哪些job，哪些job failed了，然后找到failed的job，查看该job都有哪些stage，然后排查下那个stage失败了，然后去查看该stage都有哪些task，哪个task失败了，找到失败的task下发的executor，然后去这个executor日志上，根据task id排查这个task的生命周期。

2）如果是executorLost的，除了要看这个executor的日志外，还要看这个container所在的nm日志，看下根据containerID看下器生命周期

3）如果是写HDFS上出现问题了，首先排查nm日志，根据nm日志去排查出现问题的datanode日志。

中间有些由于自己理解的不事很好，可能存在问题，请见谅。

最后说一点，排查问题是学习的最好方式，排查完之后能深入了的明白原理，问题处理的越多，学习也就越快，每个人都是从一头雾水走过来。

免费体验云安全(易盾)内容安全、验证码等服务

更多网易技术、产品、运营经验分享请点击。

spark日志配置及问题排查方式。的更多相关文章

(转）spark日志配置
一.第一部分 1.spark2.1与hadoop2.7.3集成,spark on yarn模式下,需要对hadoop的配置文件yarn-site.xml增加内容,如下: <property> ...
Spark log4j日志配置详解(转载)
一.spark job日志介绍 spark中提供了log4j的方式记录日志.可以在$SPARK_HOME/conf/下,将 log4j.properties.template 文件copy为 l ...
spark入门（四）日志配置
1 背景在测试spark计算时,将作业提交到yarn(模式–master yarn-cluster)上,想查看print到控制台这是很难的,因为作业是提交到yarn的集群上,所以,去yarn集群上看 ...
6、架构--Nginx虚拟主机（基于多ip、端口、域名方式）、日志配置、Nginx模块（访问控制模块、状态监控模块、访问链接控制模块）
笔记 1.晨考 2.昨日问题 3.今日内容 1.Nginx虚拟主机 - 基于多IP的方式 - 基于多端口的方式 - 基于多域名的方式 2.日志配置 Nginx有非常灵活的日志记录模式,每个级别的配置可 ...
Hive on Spark安装配置详解（都是坑啊）
个人主页:http://www.linbingdong.com 简书地址:http://www.jianshu.com/p/a7f75b868568 简介本文主要记录如何安装配置Hive on Sp ...
Nginx 日志分析及性能排查
Nginx 日志分析及性能排查 2017-03-04 Linux爱好者 (点击上方公众号,可快速关注) 作者:-外星人- my.oschina.net/362228416/blog/844713 如有 ...
Spark 属性配置
1.Spark1.x 属性配置方式 Spark属性提供了大部分应用程序的控制项,并且可以单独为每个应用程序进行配置. 在Spark1.0.0提供了3种方式的属性配置: SparkConf方式 Spar ...
Spark日志，及设置日志输出级别
Spark日志,及设置日志输出级别 1.全局应用设置 2.局部应用设置日志输出级别 3.Spark log4j.properties配置详解与实例(摘录于铭霏的记事本) 文章内容来源: 作者:大葱拌豆 ...
功能：SpringBoot日志配置详情
SpringBoot日志配置详情一.介绍在所有的项目中,日志是必不可少的,为了高效清晰的查找日志,可以配置日志输出的等级和格式. 在配置后,可以自定义输出日志到指定目录,可以按照天数来分割日志,可 ...

随机推荐

SCCM2012安装、配置
1.sql server2012,排序规则选择:SQL_Latin1_General_CP1_CI_AS1.扩展AD架构2.打开ad用户和计算机,高级--system 容器授予 sccm服务器完全控 ...
elastic search报错——“failed to obtain node locks”
启动时报错信息: 这里写图片描述寻找主要信息:failed to obtain node locks这里写图片描述简单理解为:绑定节点失败!!! 百度后,好多人同样遇到了这个问题,导致的原因可能是因 ...
vs2012配置
ogre1.9 http://m.blog.csdn.net/blog/u013025310/20869871 http://www.cnblogs.com/zhouxin/p/4258849.htm ...
高级IO
# 高级IO 特殊的IO操作,包括文件锁.系统V的流.信号驱动的I/O.多路转I/O(select和pull函数).readv和writev函数以及存贮映射I/O等概念和函数. ## 文件锁文件锁是 ...
Ubuntu 64 + IntelliJ IDEA + Genymotion 搭建Android开发环境
环境搭建所需可至 http://pan.baidu.com/s/1gd1Kf4Z 下载注: 此处假定 Ubuntu 用户名为 chenfei 开发相关全部存放在 /home/chen ...
[转]HBase高可用性的新阶段
From:http://m.csdn.net/article_pt.html?arcid=2823943 Apache HBase是一个面向线上服务的数据库,其原生支持Hadoop的特性,使其成为那些 ...
JS相关知识点总结
一.获取元素方法 1.document.getElementById("元素id号"); 可以使用内置对象document上的getElementById方法来获取页面上设置了id ...
SGU---102 欧拉函数
题目链接: https://cn.vjudge.net/problem/SGU-102#author=0 题目大意: 求解小于等于N的且与N互质的数字有多少个解题思路: 直接求欧拉函数即可关于欧拉 ...
Nginx总结.md
基本配置注意:下面的nginx版本是1.10,安装是在CentOS 7中通过epel源进行安装的nginx默认配置文件. # egrep -v "(^$)|(^#)|#" /et ...
鲜为人知的 Python 语法
所有人(好吧,不是所有人)都知道 python 是一门用途广泛.易读.而且容易入门的编程语言. 但同时 python 语法也允许我们做一些很奇怪的事情. 使用 lambda 表达式重写多行函数 ...

spark日志配置及问题排查方式。

spark日志配置及问题排查方式。的更多相关文章

随机推荐

热门专题