Spark-Task not serializable错误解析

2018年05月17日 15:33:03 沙拉控阅读数：1509

在学习SparkStreaming的时候偶然出现的一个问题，先看下面一段代码：

import org.apache.log4j.{Level, Logger}

import org.apache.spark.streaming.{Seconds, StreamingContext}

import org.apache.spark.{SparkConf, SparkContext}

/**

  * Created by Administrator on 2017/11/6.

  */

object ForEachTest {

   val checkpointDirectory="hdfs://hadoop1:9000/streamingchekpoint4"

  def functionToCreateContext(): StreamingContext = {

    //程序入口

    val conf = new  SparkConf().setMaster("local[2]").setAppName(s"${this.getClass.getSimpleName}")

    val sc = new SparkContext(conf)

    sc.setLogLevel("ERROR")

    val ssc = new StreamingContext(sc,Seconds(1))

    //数据的输入

    val dStream = ssc.socketTextStream("192.168.32.10",9999)

    //数据的处理

    val resultDStream = dStream.flatMap(_.split(","))

      .map((_, 1))

      .updateStateByKey((values: Seq[Int], valuesState: Option[Int]) => {

        val currentCount = values.sum

        val lastCount = valuesState.getOrElse(0)

        Some(currentCount + lastCount)

      })

    //程序的输出

    resultDStream.foreachRDD( rdd  =>{

      //Driver

        val jdbcCoon = MysqlPool.getJdbcCoon()

        val statement = jdbcCoon.createStatement()

      rdd.foreachPartition( partition  =>{

        //Executor

        partition.foreach( recored  =>{

          //Executor

           val word = recored._1

           val count = recored._2

          val sql=s"insert into  aura.1706wordcount values(now(),'${word}',${count})"

          statement.execute(sql)

        })

        MysqlPool.releaseConn(jdbcCoon)

      })

    })

    //设置检查点

    ssc.checkpoint(checkpointDirectory)

    ssc

  }

  def main(args: Array[String]): Unit = {

    val ssc = StreamingContext.getOrCreate(checkpointDirectory, functionToCreateContext _)

    //启动程序

    ssc.start()

    ssc.awaitTermination()

  }

}

这段代码是一个SparkStraming与mysql交互的Demo，用到了foreachRDD算子，mysql连接池的代码这里先省略，因为不是重点，会在另一片专门写SparkStreaming的博客中给出。这段代码看似没有问题，但是运行报错：

org.apache.spark.SparkException: Task not serializable

Caused by: java.io.NotSerializableException: java.lang.Object

表示任务没有被序列化，那么这个序列化到底是指哪里呢？通过查阅官网，发现在介绍foreachRDD的时候有过这么一个介绍：

dstream.foreachRDD { rdd =>

  val connection = createNewConnection()  // executed at the driver

  rdd.foreach { record =>

    connection.send(record) // executed at the worker

  }

}

这个说明foreachRDD是在driver端执行的，而foreach是在worker端执行的。我们知道我们在提交代码的时候，提交这个动作是在driver端执行的，提交的这台服务器就是driver，那么哪些代码是在drvier端执行的呢？

    val conf = new SparkConf()

    conf.setAppName(s"${this.getClass.getSimpleName}").setMaster("local[2]")

    val sc = new SparkContext(conf)

    val ssc: StreamingContext = new StreamingContext(sc, Seconds(1))

以上的这些初始化的代码和：textfile、foreachRDD都是在driver端执行的；

而map、flatmap、reduceByKey、foreach、foreachPartition...这类算子都是在worker端执行的。

从driver到worker是要先序列化再可以传输的，所以你如果要在foreachRDD里面写代码，如果没有经过序列化，就会报错。那么怎么解决呢？

1、让它序列化啊

2、如果这个对象不支持序列化，那就不要写在foreachRDD里面啊

所以，原文的这段代码应该修改为：

    resultDStream.foreachRDD( rdd  =>{

      //Driver

      rdd.foreachPartition( partition  =>{

        //Executor

        val jdbcCoon = MysqlPool.getJdbcCoon()

        val statement = jdbcCoon.createStatement()

        partition.foreach( recored  =>{

          //Executor

           val word = recored._1

           val count = recored._2

          val sql=s"insert into  aura.1706wordcount values(now(),'${word}',${count})"

          statement.execute(sql)

        })

        MysqlPool.releaseConn(jdbcCoon)

      })

    })

[转载]Spark-Task not serializable错误解析的更多相关文章

Redis on Spark:Task not serializable
We use Redis on Spark to cache our key-value pairs.This is the code: import com.redis.RedisClient va ...
spark出现task不能序列化错误的解决方法 org.apache.spark.SparkException: Task not serializable
import org.elasticsearch.cluster.routing.Murmur3HashFunction; import org.elasticsearch.common.math.M ...
spark出现task不能序列化错误的解决方法
应用场景:使用JavaHiveContext执行SQL之后,希望能得到其字段名及相应的值,但却出现"Caused by: java.io.NotSerializableException: ...
Spark运行程序异常信息： org.apache.spark.SparkException: Task not serializable 解决办法
错误信息: 17/05/20 18:51:39 ERROR JobScheduler: Error running job streaming job 1495277499000 ms.0 org.a ...
spark2.1注册内部函数spark.udf.register("xx", xxx _)，运行时抛出异常：Task not serializable
函数代码: class MySparkJob{ def entry(spark:SparkSession):Unit={ def getInnerRsrp(outer_rsrp: Double, we ...
Spark程序运行常见错误解决方法以及优化
转载自:http://bigdata.51cto.com/art/201704/536499.htm Spark程序运行常见错误解决方法以及优化 task倾斜原因比较多,网络io,cpu,mem都有可 ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十九）：推送avro格式数据到topic，并使用spark structured streaming接收topic解析avro数据
推送avro格式数据到topic 源代码:https://github.com/Neuw84/structured-streaming-avro-demo/blob/master/src/main/j ...
再提供一种解决Nginx文件类型错误解析漏洞的方法
[文章作者:张宴本文版本:v1.2 最后修改:2010.05.24 转载请注明原文链接:http://blog.zyan.cc/nginx_0day/] 注:2010年5月23日14:00前阅读本文 ...
【原创】大叔问题定位分享（19）spark task在executors上分布不均
最近提交一个spark应用之后发现执行非常慢,点开spark web ui之后发现卡在一个job的一个stage上,这个stage有100000个task,但是绝大部分task都分配到两个execut ...

随机推荐

springboot整合es客户端操作elasticsearch（三）
继续上个随笔: 那么我们只需要修改controller中文件就可以完成相关操作本次主要是对文档得操作: 更新文档: package com.cxy.elasticsearch.controller; ...
暑假--升级攻击家庭wifi
参考: 1.http://blog.jobbole.com/64832/ 2.http://blog.jobbole.com/65851/ 3.http://blog.jobbole.com/6562 ...
git 命令 git status add rm commit mv
1.查看 git 仓库文件改动状态 Git 仓库内文件改动有 4 种状态,除了 Unmodified 状态的文件因为并未改动默认没有状态不做显示之外,其他文件改动状态都可以通过 git status ...
Lua开发环境
下载并解压Lua源码: wget http://www.lua.org/ftp/lua-5.1.5.tar.gz tar zxvf lua-5.1.5.tar.gz cd lua-5.1.5 打开Ma ...
rocketMq消息的发送和消息消费
rocketMq消息的发送和消息消费一.消息推送 public void pushMessage() { String message = "推送消息内容!"; try { De ...
[转帖]利用nginx实现负载均衡 | 哈希算法，sticky模块实现session粘滞
利用nginx实现负载均衡 | 哈希算法,sticky模块实现session粘滞 2018年08月02日 10:06:03 Minza 阅读数 483 https://blog.csdn.net/ha ...
sql 循环转移备份数据
--创建表结构 select top 1 * into ATable_20190710 from ATable --转移表数据 insert into ATable_20190710 select t ...
理解twisted中的reactor和deferred（一）
Deferred是一个延迟加载对象,这个概念类似于tornado future,是调用异步操作返回的一个对象,其中包括了操作成功后的回调处理,错误后的回调处理. 简单讲,当我们需要执行一个耗时操作,比 ...
【LOJ】#3086. 「GXOI / GZOI2019」逼死强迫症
LOJ#3086. 「GXOI / GZOI2019」逼死强迫症这个就是设状态为\(S,j\)表示轮廓线为\(S\),然后用的1×1个数为j 列出矩阵转移这样会算重两个边相邻的,只要算出斐波那契数 ...
PAT A1036 Boys vs Girls(25)
AC代码 #include <cstdio> #include <algorithm> using namespace std; const int max_n = 11000 ...

[转载]Spark-Task not serializable错误解析

Spark-Task not serializable错误解析

[转载]Spark-Task not serializable错误解析的更多相关文章

随机推荐

热门专题