Spark应用远程调试】的更多相关文章

spark的远程调试 spark-env.sh文件里面,加上下面配置即可: if [ "$DEBUG_MODE" = "true" ]; then export SPARK_JAVA_OPTS+="-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=8000" fi hive的远程调试设置 Hive 0.8 以上版本开始支持远程调试(注1). 1. 以debug模式启动…
本来想用Eclipse的.然而在网上找了一圈,发现大家都在说IntelliJ怎样怎样好.我也受到了鼓励,遂决定在这台破机器上鼓捣一次IntelliJ吧. Spark程序远程调试,就是将本地IDE连接到Spark集群中.让程序一边执行,一边通过debuger实时查看执行情况,配置好以后和本地debug差点儿相同. 之前有写过Spark集群的安装部署.http://blog.csdn.net/u013468917/article/details/50979184当时是在hadoop2.2.0平台部署…
一.集群环境配置 #调试Master,在master节点的spark-env.sh中添加SPARK_MASTER_OPTS变量 export SPARK_MASTER_OPTS="-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=10000" #调试Worker,在worker节点的spark-env.sh中添加SPARK_WORKER_OPTS变量 export SPARK_WORKER_OPTS=&qu…
笔者出于工作及学习的目的,经常与Spark源码打交道,也难免对Spark源码做修改及测试.本人一向讲究借助工具提升效率,开发Spark过程中也在摸索如何更加顺畅的对源码进行调试. Spark基于Scala,采用IntelliJ IDEA和sbt应对日常开发,自然是最佳选择了.如何导入及编译Spark项目,网上资料很多,官网给的教程也比较详细: http://spark.apache.org/docs/latest/building-spark.html http://spark.apache.o…
spark JAVA 开发环境搭建及远程调试 以后要在项目中使用Spark 用户昵称文本做一下聚类分析,找出一些违规的昵称信息.以前折腾过Hadoop,于是看了下Spark官网的文档以及 github 上 官方提供的examples,看完了之后决定动手跑一个文本聚类的demo,于是有了下文. 1. 环境介绍 本地开发环境是:IDEA2018.JDK8.windows 10.远程服务器 Ubuntu 16.04.3 LTS上安装了spark-2.3.1-bin-hadoop2.7 看spark官网…
Spark远程调试脚本: #调试Master,在master节点的spark-env.sh中添加SPARK_MASTER_OPTS变量 export SPARK_MASTER_OPTS="-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=10000" #启动Master sbin/start-master.sh #调试Worker,在worker节点的spark-env.sh中添加SPARK_WORKER_…
我们在编写Spark Application或者是阅读源码的时候,我们很想知道代码的运行情况,比如参数设置的是否正确等等.用Logging方式来调试是一个可以选择的方式,但是,logging方式调试代码有很多的局限和不便.今天我就来介绍如何通过IDE来远程调试Spark的Application或者是Spark的源码. 本文以调试Spark Application为例进行说明,本文用到的IDE是Eclipse.步骤如下: 一.JVM里面设置以下参数 -Xdebug -Xrunjdwp:transp…
Spark远程调试                          本例子介绍简单介绍spark一种远程调试方法,使用的IDE是IntelliJ IDEA.   1.了解jvm一些参数属性   -Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=8888   这里对上面的几个参数进行说明:-Xdebug 启用调试特性-Xrunjdwp 启用JDWP实现,包含若干子选项:transport=dt_socket JPDA…
Spark远程调试函数 1.sendInfo 该函数用于分布式程序的调试,非常方便,在spark的rdd操作中嵌入sendInfo,启动nc服务器后,可以收集到所有需要的运行时信息,该函数可以捕获host.进程id.线程名称等主要的信息. 2.函数实现 def sendInfo(obj: Object, m: String, param: String) = { import java.net.InetAddress import java.lang.management.ManagementF…
使用的开发工具:scala2.10.4.Idea16.JDK8 1.导入依赖的包和源码 在下载Spark中到的导入spark的相关依赖了包和其源码.zip,相关源码的下载地址:https://github.com/apache/spark/tree/v1.6.0 地址最后面是对应的版本号,下载源码便于看注释 2.使用官方求Pi的例子 import org.apache.spark.{SparkConf, SparkContext} object FirstDemo { def main(args…