spark2.1注册内部函数spark.udf.register("xx", xxx _)，运行时抛出异常：Task not serializable

函数代码：

class MySparkJob{

    def entry(spark:SparkSession):Unit={

          def getInnerRsrp(outer_rsrp: Double, wear_loss: Double, path_loss: Double): Double = {

          val innerRsrp: Double = outer_rsrp - wear_loss - (XX) * path_loss

          innerRsrp

        }

        spark.udf.register("getXXX", getXXX _)

        import spark.sql

        sql(s"""|select getInnerRsrp(t10.outer_rsrp,t10.wear_loss,t10.path_loss) as rsrp, xx from yy""".stripMargin)

    }

}

使用spark-submit提交函数时，抛出异常：

User class threw exception: org.apache.spark.SparkException: Task not serializable 

org.apache.spark.SparkException: Task not serializable

    at org.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:)

    at org.apache.spark.util.ClosureCleaner$.org$apache$spark$util$ClosureCleaner$$clean(ClosureCleaner.scala:)

    at org.apache.spark.util.ClosureCleaner$.clean(ClosureCleaner.scala:)

    at org.apache.spark.SparkContext.clean(SparkContext.scala:)

    at org.apache.spark.rdd.RDD$$anonfun$mapPartitionsWithIndex$.apply(RDD.scala:)

    at org.apache.spark.rdd.RDD$$anonfun$mapPartitionsWithIndex$.apply(RDD.scala:)

    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:)

    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:)

    at org.apache.spark.rdd.RDD.withScope(RDD.scala:)

    at org.apache.spark.rdd.RDD.mapPartitionsWithIndex(RDD.scala:)

    at com.dx.fpd_withscenetype.MySparkJob.entry(MySparkJob.scala:)

    at com.dx.App$.main(App.scala:)

    at com.dx.App.main(App.scala)

    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)

    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:)

    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:)

    at java.lang.reflect.Method.invoke(Method.java:)

    at org.apache.spark.deploy.yarn.ApplicationMaster$$anon$.run(ApplicationMaster.scala:)

Caused by: java.io.NotSerializableException: com.dx.fpd_withscenetype.MySparkJob

Serialization stack:

    - object not serializable (class: com.dx.fpd_withscenetype.MySparkJob, value: com.dx.fpd_withscenetype.MySparkJob@e4d4393)

    - field (class: com.dx.fpd_withscenetype.MySparkJob$$anonfun$entry$, name: $outer, type: class com.dx.fpd_withscenetype.MySparkJob)

    - object (class com.dx.fpd_withscenetype.MySparkJob$$anonfun$entry$, <function2>)

    - field (class: org.apache.spark.sql.catalyst.expressions.ScalaUDF$$anonfun$, name: func$, type: interface scala.Function2)

    - object (class org.apache.spark.sql.catalyst.expressions.ScalaUDF$$anonfun$, <function1>)

    - field (class: org.apache.spark.sql.catalyst.expressions.ScalaUDF, name: f, type: interface scala.Function1)

    - object (class org.apache.spark.sql.catalyst.expressions.ScalaUDF, UDF:getInnerRsrp(cast(input[, double, true] as int), cast(input[, double, true] as int), cast(input[, double, true] as int)))

    - element of array (index: )

    - array (class [Ljava.lang.Object;, size )

    - field (class: org.apache.spark.sql.execution.WholeStageCodegenExec$$anonfun$, name: references$, type: class [Ljava.lang.Object;)

    - object (class org.apache.spark.sql.execution.WholeStageCodegenExec$$anonfun$, <function2>)

    at org.apache.spark.serializer.SerializationDebugger$.improveException(SerializationDebugger.scala:)

    at org.apache.spark.serializer.JavaSerializationStream.writeObject(JavaSerializer.scala:)

    at org.apache.spark.serializer.JavaSerializerInstance.serialize(JavaSerializer.scala:)

    at org.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:)

    ...  more

解决方案：

把当前MySparkJob集成Serializable

class MySparkJob extends Serializable {

    xxx

}

spark2.1注册内部函数spark.udf.register("xx", xxx _)，运行时抛出异常：Task not serializable的更多相关文章

Spark以yarn方式运行时抛出异常
Spark以yarn方式运行时抛出异常: cluster.YarnClientSchedulerBackend: Yarn application has already exited with st ...
SparkSQL UDF两种注册方式：udf() 和 register()
调用sqlContext.udf.register() 此时注册的方法只能在sql()中可见,对DataFrame API不可见用法:sqlContext.udf.register("m ...
Pyspark 使用 Spark Udf 的一些经验
起初开始写一些 udf 的时候感觉有一些奇怪,在 spark 的计算中,一般通过转换(Transformation) 在不触发计算(Action) 的情况下就行一些预处理.udf 就是这样一个好用的东 ...
spark udf 初识初用
直接上代码,详见注释 import org.apache.spark.sql.hive.HiveContext import org.apache.spark.{SparkContext, Spark ...
[Spark内核] 第36课：TaskScheduler内幕天机解密：Spark shell案例运行日志详解、TaskScheduler和SchedulerBackend、FIFO与FAIR、Task运行时本地性算法详解等
本課主題通过 Spark-shell 窥探程序运行时的状况 TaskScheduler 与 SchedulerBackend 之间的关系 FIFO 与 FAIR 两种调度模式彻底解密 Task 数据 ...
TaskScheduler内幕天机解密：Spark shell案例运行日志详解、TaskScheduler和SchedulerBackend、FIFO与FAIR、Task运行时本地性算法详解等
本课主题通过 Spark-shell 窥探程序运行时的状况 TaskScheduler 与 SchedulerBackend 之间的关系 FIFO 与 FAIR 两种调度模式彻底解密 Task 数据 ...
[Spark內核] 第42课：Spark Broadcast内幕解密：Broadcast运行机制彻底解密、Broadcast源码解析、Broadcast最佳实践
本课主题 Broadcast 运行原理图 Broadcast 源码解析 Broadcast 运行原理图 Broadcast 就是将数据从一个节点发送到其他的节点上; 例如 Driver 上有一张表,而 ...
Redis on Spark:Task not serializable
We use Redis on Spark to cache our key-value pairs.This is the code: import com.redis.RedisClient va ...
Spark Broadcast内幕解密：Broadcast运行机制彻底解密、Broadcast源码解析、Broadcast最佳实践
本课主题 Broadcast 运行原理图 Broadcast 源码解析 Broadcast 运行原理图 Broadcast 就是将数据从一个节点发送到其他的节点上; 例如 Driver 上有一张表,而 ...

随机推荐

解决python本地离线安装requests问题
使用python36进行本地requests安装的时候,由于安装requests需要联网,导致安装失败,现象如下: 一开始以为,需要安装什么证书,其实只是需要一个python的证书库,(⊙﹏⊙)b 执 ...
Vue解析一之挂载全局变量与方法
1.在mian.js里面进行Vue对象的原型连的挂载Vue.prototype.$ajax = Ajax; 2.使用Mixin: VuVue.mixin({ data(){ return { Host ...
Intellij idea操作maven时控制台中文乱码
只留存记录 windows环境下,Intellij idea12中maven操作时,控制台中文乱码问题(编译报错或者clean install时出现的其他错误描述乱码) 在cmd中mvn中文正常显示, ...
WEBLOGIC 11G (10.3.6) windows PSU 升级10.3.6.0.171017(Java 反序列化漏洞升级)
10.3.6版本的weblogic需要补丁到10.3.6.0.171017(2017年10月份的补丁,Java 反序列化漏洞升级),oracle官方建议至少打上2017年10月份补丁. 一.查看版本 ...
【Zabbix】大规模监控误报发生时的处理方案
今天遇到了这样一件事..Zabbix一直在用的数据库突然间崩溃,无法连接了.在down掉的那一时刻开始,zabbix向管理员报了警.然后随之而来的是铺天盖地的所有主机zabbix agent无法连接的 ...
c++ --> cin和cout输入输出格式
cin和cout输入输出格式 Cout 输出 1>. bool型输出 cout << true <<" or " << false < ...
python web开发-flask中sqlalchemy的使用
SqlAlchemy是一个python的ORM框架. 在flask中有一个flask-sqlalchemy的扩展,使用起来很方便. 1. 创建一个sqlalchemy的Model模块创建 ...
shell之九九乘法表
echo -n 不换行输出 $echo -n "123" $echo "456" 最终输出 123456 而不是 123 456 echo - ...
（译文）学习ES6非常棒的特性-字符串常量基础
字符串常量基础在ES2015之前我们是这么拼接字符串的: var result = 10; var prefix = "the first double digit number I le ...
Java 自定义实现链表
自定义实现链表很简单,只需要明白链表是什么样子的数据结构. 下图表示一种单向列表.其中指针first指向队头,last指向队尾,curr指向当前读的数据. 下面是我的实现代码,很简单,明白上述结构后, ...

spark2.1注册内部函数spark.udf.register("xx", xxx _)，运行时抛出异常：Task not serializable

spark2.1注册内部函数spark.udf.register("xx", xxx _)，运行时抛出异常：Task not serializable的更多相关文章

随机推荐

热门专题