RDD(九)——序列化问题

在实际开发中我们往往需要自己定义一些对于RDD的操作，那么此时需要考虑的主要问题是，初始化工作是在Driver端进行的，而实际运行程序是在Executor端进行的，这就涉及到了跨进程通信，是需要序列化的。

传递一个方法

import org.apache.spark.rdd.RDD

class Search(query:String) {

  //过滤出包含字符串的数据

  def isMatch(s: String): Boolean = {

    s.contains(query)

  }

  //过滤出包含字符串的RDD

  def getMatch1 (rdd: RDD[String]): RDD[String] = {

    rdd.filter(isMatch)

  }

  //过滤出包含字符串的RDD

  def getMatche2(rdd: RDD[String]): RDD[String] = {

    rdd.filter(x => x.contains(query))

  }

}

创建Spark主程序

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object SeriTest {

    def main(args: Array[String]): Unit = {

      //1.初始化配置信息及SparkContext

      val sparkConf: SparkConf = new SparkConf().setAppName("WordCount").setMaster("local[*]")

      val sc = new SparkContext(sparkConf)

      //2.创建一个RDD

      val rdd: RDD[String] = sc.parallelize(Array("hadoop", "spark", "hive", "atguigu"))

      //3.创建一个Search对象

      val search = new Search("h")

      //4.运用第一个过滤函数并打印结果

      val match1: RDD[String] = search.getMatch1(rdd)

      match1.collect().foreach(println)

    }

  }

运行程序

报错：java.io.NotSerializableException: Search；

在这个方法中所调用的方法isMatch()是定义在Search这个类中的，实际上调用的是this. isMatch()，this表示Search这个类的对象，程序在运行过程中需要将Search对象序列化以后传递到Executor端。

解决方案：

使类继承scala.Serializable即可。告诉“它们”：Search对象是可以被序列化的

class Search(query:String) extends Serializable {

问题解决，打印：

hadoop

hive

传递一个属性

创建spark主程序

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object SeriTest {

    def main(args: Array[String]): Unit = {

      //1.初始化配置信息及SparkContext

      val sparkConf: SparkConf = new SparkConf().setAppName("WordCount").setMaster("local[*]")

      val sc = new SparkContext(sparkConf)

      //2.创建一个RDD

      val rdd: RDD[String] = sc.parallelize(Array("hadoop", "spark", "hive", "atguigu"))

      //3.创建一个Search对象

      val search = new Search("h")

      val matcher2: RDD[String] = search.getMatche2(rdd)

      matcher2.collect().foreach(println)

    }

  }

运行程序，也会报同样的错误：java.io.NotSerializableException: Search；

问题说明：

  //过滤出包含字符串的RDD

  def getMatche2(rdd: RDD[String]): RDD[String] = {

    rdd.filter(x => x.contains(query))

  }

在这个方法中所调用的方法query是定义在Search这个类中的字段，实际上调用的是this. query，this表示Search这个类的对象，程序在运行过程中需要将Search对象序列化以后传递到Executor端。

解决方法同上。

补充：创建一个object，在object中定义方法，以对象名引用的方式将方法传递给各个executor，不会出现序列化问题。见博文《JdbcRDD连接MySQL 》

RDD(九)——序列化问题的更多相关文章

JdbcRDD连接MySQL
(1)添加依赖 <dependencies> <dependency> <groupId>org.apache.spark</groupId> < ...
spark新能优化之序列化的持久化级别
除了对多次使用的RDD进行持久化操作之外,还可以进一步优化其性能.因为很有可能,RDD的数据是持久化到内存,或者磁盘中的.那么,此时,如果内存大小不是特别充足,完全可以使用序列化的持久化级别,比如ME ...
RDD缓存策略
Spark支持将数据集放置在集群的缓存中,以便于数据重用. Spark缓存策略对应的类: class StorageLevel private( private var useDisk_ : Bool ...
在Spark中使用Kryo序列化
spark序列化对于优化<网络性能>极为重要,将RDD以序列化格式来保存减少内存占用. spark.serializer=org.apache.spark.serializer.Jav ...
C#[Serializable]在C#中的作用-NET 中的对象序列化
为什么要使用序列化?最重要的两个原因是:将对象的状态保存在存储媒体中以便可以在以后重新创建出完全相同的副本:按值将对象从一个应用程序域发送至另一个应用程序域.例如,序列化可用于在 ASP.NET 中保 ...
五、RDD持久化
Spark最重要的一个功能是它可以通过各种操作(operations)持久化(或者缓存)一个集合到内存中.当你持久化一个RDD的时候,每一个节点都将参与计算的所有分区数据存储到内存中,并且这些数据可以 ...
Spark RDD持久化、广播变量和累加器
Spark RDD持久化 RDD持久化工作原理 Spark非常重要的一个功能特性就是可以将RDD持久化在内存中.当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内 ...
【Spark调优】：RDD持久化策略
[场景] Spark对RDD执行一系列算子操作时,都会重新从头到尾计算一遍.如果中间结果RDD后续需要被被调用多次,可以显式调用 cache()和 persist(),以告知 Spark,临时保存之前 ...
Properties-转换流-打印流-序列化和反序列化-Commons-IO工具类
一.Properties 类(java.util) 概述:Properties 是一个双列集合;Properties 属于map的特殊的孙子类;Properties 类没有泛型,propert ...

随机推荐

Python Learning Day9
Scrapy爬虫框架发送请求 ---> 获取响应数据 ---> 解析数据 ---> 保存数据 Scarpy框架介绍 1.引擎(EGINE) 引擎负责控制系统所有组件之间的数据流,并 ...
对spring中IOC和AOP的理解
IOC:控制反转也叫依赖注入.利用了工厂模式. 为了方便理解,分解成每条以便记忆. 1.将对象交给容器管理,你只需要在spring配置文件总配置相应的bean,以及设置相关的属性,让spring容器 ...
Django ORM多表查询练习
ORM多表查询创建表结构: from django.db import models # 创建表结构 # Create your models here. class Class_grade(mod ...
python刷LeetCode：21. 合并两个有序链表
难度等级:简单题目描述: 将两个有序链表合并为一个新的有序链表并返回.新链表是通过拼接给定的两个链表的所有节点组成的. 示例: 输入:1->2->4, 1->3->4输出:1 ...
POJ - 1631 Bridging signals（最长上升子序列---LIS）
题意:左右各n个端口,已知n组线路,要求切除最少的线路,使剩下的线路各不相交,按照左端口递增的顺序输入. 分析: 1.设左端口为l,右端口为r,因为左端口递增输入,l[i] < l[j](i & ...
c 循环左移
char b[11] = {'1', '2', '3', '4', '5', '6', '7', '8', '9', '0'}; const int iShift = 4; for (int j = ...
bzoj4316小C的独立集（dfs树/仙人掌+DP）
本题有两种写法,dfs树上DP和仙人掌DP. 先考虑dfs树DP. 什么是dfs树?其实是对于一棵仙人掌,dfs后形成生成树,找出非树边(即返祖边),然后dfs后每条返祖边+其所覆盖的链构成了一个环( ...
GitHub练习——如何将本地已有项目添加到github
刚开始开始接触,搞点简单的,看看是怎么把项目传上去,总结一下,大概是这些步骤: 创建本地仓库将本地仓库变成git可管理的仓库:git init 把项目文件添加到缓存区:项目文件添加到已有的仓库,然后 ...
Social LSTM 实现代码分析
----- 2019.8.5更新实现代码思维导图 ----- ----- 初始原文 ----- Social LSTM最早提出于文献 "Social LSTM: Human Traject ...
操作实践：maven工程查找工程中多余的jar包
声明:迁移自本人CSDN博客https://blog.csdn.net/u013365635 版本迭代过程中对jar的依赖可能会产生变化,一些本不必再依赖的jar包可以因为没有清除而依然留在版本的发布 ...

RDD(九)——序列化问题

传递一个属性

RDD(九)——序列化问题的更多相关文章

随机推荐

热门专题