RDD(九)——序列化问题

在实际开发中我们往往需要自己定义一些对于RDD的操作，那么此时需要考虑的主要问题是，初始化工作是在Driver端进行的，而实际运行程序是在Executor端进行的，这就涉及到了跨进程通信，是需要序列化的。

传递一个方法

import org.apache.spark.rdd.RDD

class Search(query:String) {

  //过滤出包含字符串的数据

  def isMatch(s: String): Boolean = {

    s.contains(query)

  }

  //过滤出包含字符串的RDD

  def getMatch1 (rdd: RDD[String]): RDD[String] = {

    rdd.filter(isMatch)

  }

  //过滤出包含字符串的RDD

  def getMatche2(rdd: RDD[String]): RDD[String] = {

    rdd.filter(x => x.contains(query))

  }

}

创建Spark主程序

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object SeriTest {

    def main(args: Array[String]): Unit = {

      //1.初始化配置信息及SparkContext

      val sparkConf: SparkConf = new SparkConf().setAppName("WordCount").setMaster("local[*]")

      val sc = new SparkContext(sparkConf)

      //2.创建一个RDD

      val rdd: RDD[String] = sc.parallelize(Array("hadoop", "spark", "hive", "atguigu"))

      //3.创建一个Search对象

      val search = new Search("h")

      //4.运用第一个过滤函数并打印结果

      val match1: RDD[String] = search.getMatch1(rdd)

      match1.collect().foreach(println)

    }

  }

运行程序

报错：java.io.NotSerializableException: Search；

在这个方法中所调用的方法isMatch()是定义在Search这个类中的，实际上调用的是this. isMatch()，this表示Search这个类的对象，程序在运行过程中需要将Search对象序列化以后传递到Executor端。

解决方案：

使类继承scala.Serializable即可。告诉“它们”：Search对象是可以被序列化的

class Search(query:String) extends Serializable {

问题解决，打印：

hadoop

hive

传递一个属性

创建spark主程序

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object SeriTest {

    def main(args: Array[String]): Unit = {

      //1.初始化配置信息及SparkContext

      val sparkConf: SparkConf = new SparkConf().setAppName("WordCount").setMaster("local[*]")

      val sc = new SparkContext(sparkConf)

      //2.创建一个RDD

      val rdd: RDD[String] = sc.parallelize(Array("hadoop", "spark", "hive", "atguigu"))

      //3.创建一个Search对象

      val search = new Search("h")

      val matcher2: RDD[String] = search.getMatche2(rdd)

      matcher2.collect().foreach(println)

    }

  }

运行程序，也会报同样的错误：java.io.NotSerializableException: Search；

问题说明：

  //过滤出包含字符串的RDD

  def getMatche2(rdd: RDD[String]): RDD[String] = {

    rdd.filter(x => x.contains(query))

  }

在这个方法中所调用的方法query是定义在Search这个类中的字段，实际上调用的是this. query，this表示Search这个类的对象，程序在运行过程中需要将Search对象序列化以后传递到Executor端。

解决方法同上。

补充：创建一个object，在object中定义方法，以对象名引用的方式将方法传递给各个executor，不会出现序列化问题。见博文《JdbcRDD连接MySQL 》

RDD(九)——序列化问题的更多相关文章

JdbcRDD连接MySQL
(1)添加依赖 <dependencies> <dependency> <groupId>org.apache.spark</groupId> < ...
spark新能优化之序列化的持久化级别
除了对多次使用的RDD进行持久化操作之外,还可以进一步优化其性能.因为很有可能,RDD的数据是持久化到内存,或者磁盘中的.那么,此时,如果内存大小不是特别充足,完全可以使用序列化的持久化级别,比如ME ...
RDD缓存策略
Spark支持将数据集放置在集群的缓存中,以便于数据重用. Spark缓存策略对应的类: class StorageLevel private( private var useDisk_ : Bool ...
在Spark中使用Kryo序列化
spark序列化对于优化<网络性能>极为重要,将RDD以序列化格式来保存减少内存占用. spark.serializer=org.apache.spark.serializer.Jav ...
C#[Serializable]在C#中的作用-NET 中的对象序列化
为什么要使用序列化?最重要的两个原因是:将对象的状态保存在存储媒体中以便可以在以后重新创建出完全相同的副本:按值将对象从一个应用程序域发送至另一个应用程序域.例如,序列化可用于在 ASP.NET 中保 ...
五、RDD持久化
Spark最重要的一个功能是它可以通过各种操作(operations)持久化(或者缓存)一个集合到内存中.当你持久化一个RDD的时候,每一个节点都将参与计算的所有分区数据存储到内存中,并且这些数据可以 ...
Spark RDD持久化、广播变量和累加器
Spark RDD持久化 RDD持久化工作原理 Spark非常重要的一个功能特性就是可以将RDD持久化在内存中.当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内 ...
【Spark调优】：RDD持久化策略
[场景] Spark对RDD执行一系列算子操作时,都会重新从头到尾计算一遍.如果中间结果RDD后续需要被被调用多次,可以显式调用 cache()和 persist(),以告知 Spark,临时保存之前 ...
Properties-转换流-打印流-序列化和反序列化-Commons-IO工具类
一.Properties 类(java.util) 概述:Properties 是一个双列集合;Properties 属于map的特殊的孙子类;Properties 类没有泛型,propert ...

随机推荐

BZOJ 3876 [Ahoi2014&Jsoi2014]支线剧情
题解: 带下界的费用流对于x->y边权为z Addedge(x,t,1,0) Addedge(s,y,1,z) Addedge(x,y,inf,0) 然后对每个点Addedge(i,1,inf ...
吴裕雄--天生自然 PHP开发学习：类型比较
<?php if(42 == "42") { echo '1.值相等'; } echo PHP_EOL; // 换行符 if(42 === "42") { ...
For循环的几个练习
1.括号里面只能放加或减,如果要使等式成立,括号里面应该放什么运算符12()34()56()78()9 = 59 2.蓝球弹起的高度篮球从10米高的地方落下,每次弹起的高度是原来的0.3倍,问弹跳10 ...
kafka分区选主机制
Kafka Partition Leader选主机制 https://blog.csdn.net/qq_27384769/article/details/80115392 kafka leader选举 ...
bootstrap 网格
实现原理网格系统的实现原理非常简单,仅仅是通过定义容器大小,平分12份(也有平分成24份或32份,但12份是最常见的),再调整内外边距,最后结合媒体查询,就制作出了强大的响应式网格系统.Bootst ...
Neo4j图形数据库备份
Neo4j图形数据库备份 backup.sh文件 nowtime=`date +"%Y-%m-%d_%H_%M"` #原文件路径 sourcepath='/home/neo4j/n ...
js根据当前日期求一个月前半年前一年前的日期
function p(s) { return s < 10 ? '0' + s: s;}getlastmonth() function getlastmonth() { va ...
centos挂载磁盘
Aliyun实例为例简单操作: 查看磁盘情况:fdisk -l 对数据盘进行分区,一般类似/dev/vdb这种为数据盘输入fdisk /dev/vdb 对数据盘进行分区.根据提示,输入 n, p ...
java数目
第一部分: Java语言篇1 <Java编程规范>星级:适合对象:初级,中级介绍:作者James Gosling(Java之父),所以这本书我觉得你怎么也得读一下.对基础讲解的很不错. 2 ...
SQL 一个【OR】属性给你带来了怎样的麻烦
关于数据库 or 的用法,就不说了讲讲OR对数据库性能有多大的杀伤力,以后线上的项目如果是数据量很大的表,一定不要用OR来查询今天在工作的时候,同事遇到了SQL优化的问题,让我帮忙 ...

RDD(九)——序列化问题

传递一个属性

RDD(九)——序列化问题的更多相关文章

随机推荐

热门专题