Spark中持久化和序列化学习

一、cache和persisit的对比

-rw-r--r--@ 1 hadoop staff 68M 5 17 07:04 access.log

cache/persitence是 lazy的,延迟加载
unpersitence是立即执行的

@DeveloperApi

class StorageLevel private(

    private var _useDisk: Boolean,

    private var _useMemory: Boolean,

    private var _useOffHeap: Boolean,

    private var _deserialized: Boolean,

    private var _replication: Int = 1)

  extends Externalizable {  }

  /**

 * Various [[org.apache.spark.storage.StorageLevel]] defined and utility functions for creating

 * new storage levels.

 */

object StorageLevel {

  val NONE = new StorageLevel(false, false, false, false)

  val DISK_ONLY = new StorageLevel(true, false, false, false)

  val DISK_ONLY_2 = new StorageLevel(true, false, false, false, 2)

  val MEMORY_ONLY = new StorageLevel(false, true, false, true)

  val MEMORY_ONLY_2 = new StorageLevel(false, true, false, true, 2)

  val MEMORY_ONLY_SER = new StorageLevel(false, true, false, false)

  val MEMORY_ONLY_SER_2 = new StorageLevel(false, true, false, false, 2)

  val MEMORY_AND_DISK = new StorageLevel(true, true, false, true)

  val MEMORY_AND_DISK_2 = new StorageLevel(true, true, false, true, 2)

  val MEMORY_AND_DISK_SER = new StorageLevel(true, true, false, false)

  val MEMORY_AND_DISK_SER_2 = new StorageLevel(true, true, false, false, 2)

  val OFF_HEAP = new StorageLevel(true, true, true, false, 1)

  /**

   * Persist this RDD with the default storage level (`MEMORY_ONLY`).

   */

  def persist(): this.type = persist(StorageLevel.MEMORY_ONLY)

  /**

   * Persist this RDD with the default storage level (`MEMORY_ONLY`).

   */

  def cache(): this.type = persist()

  /**

   * Mark the RDD as non-persistent, and remove all blocks for it from memory and disk.

   *

   * @param blocking Whether to block until all blocks are deleted.

   * @return This RDD.

   */

  def unpersist(blocking: Boolean = true): this.type = {

    logInfo("Removing RDD " + id + " from persistence list")

    sc.unpersistRDD(id, blocking)

    storageLevel = StorageLevel.NONE

    this

  }

  /** Get the RDD's current storage level, or StorageLevel.NONE if none is set. */

  def getStorageLevel: StorageLevel = storageLevel

二、序列化测试Java和kyro

序列化:
默认java序列化类User
使用kyro序列化没有未注册类User
使用kryo序列化并注册类User

默认java序列化类User

import scala.collection.mutable.ListBuffer

class User(id:Int,username:String,age:String) extends Serializable

val users = new ListBuffer[User]

for(i <- 1 to 1000000){

users.+=(new User(i,"name"+i,i.toString))

}

val usersRDD=sc.parallelize(users)

import org.apache.spark.storage.StorageLevel

usersRDD.persist(StorageLevel.MEMORY_ONLY_SER)

usersRDD.foreach(println(_))

使用kyro序列化没有未注册类User

import org.apache.spark.SparkConf

val sparkConf= new SparkConf()

sparkConf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

import org.apache.spark.SparkContext

使用kryo序列化并注册类User

sparkConf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

    sparkConf.registerKryoClasses(Array(classOf[User]))

Spark中持久化和序列化学习的更多相关文章

在Spark中自定义Kryo序列化输入输出API（转）
原文链接:在Spark中自定义Kryo序列化输入输出API 在Spark中内置支持两种系列化格式:(1).Java serialization:(2).Kryo serialization.在默认情况 ...
在Spark中使用Kryo序列化
spark序列化对于优化<网络性能>极为重要,将RDD以序列化格式来保存减少内存占用. spark.serializer=org.apache.spark.serializer.Jav ...
大数据学习day19-----spark02-------0 零碎知识点（分区，分区和分区器的区别） 1. RDD的使用（RDD的概念，特点，创建rdd的方式以及常见rdd的算子） 2.Spark中的一些重要概念
0. 零碎概念 (1) 这个有点疑惑,有可能是错误的. (2) 此处就算地址写错了也不会报错,因为此操作只是读取数据的操作(元数据),表示从此地址读取数据但并没有进行读取数据的操作 (3)分区(有时间 ...
Spark的持久化简记
摘要: 1.spark 提供的持久化方法 2.Spark的持久化级别 3.如何选择一种最合适的持久化策略内容: 1.spark 提供的持久化方法如果要对一个RDD进行持久化,只要对这个RDD调用c ...
spark 中的RDD编程 -以下基于Java api
1.RDD介绍: RDD,弹性分布式数据集,即分布式的元素集合.在spark中,对所有数据的操作不外乎是创建RDD.转化已有的RDD以及调用RDD操作进行求值.在这一切的背后,Spark会自动 ...
【Spark篇】---Spark中控制算子
一.前述 Spark中控制算子也是懒执行的,需要Action算子触发才能执行,主要是为了对数据进行缓存. 控制算子有三种,cache,persist,checkpoint,以上算子都可以将RDD持久化 ...
Spark RDD持久化、广播变量和累加器
Spark RDD持久化 RDD持久化工作原理 Spark非常重要的一个功能特性就是可以将RDD持久化在内存中.当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内 ...
Tachyon在Spark中的作用（Tachyon: Reliable, Memory Speed Storage for Cluster Computing Frameworks 论文阅读翻译）
摘要: Tachyon是一种分布式文件系统,能够借助集群计算框架使得数据以内存的速度进行共享.当今的缓存技术优化了read过程,可是,write过程由于须要容错机制,就须要通过网络或者 ...
java 的持久化和序列化的简单理解
1.对象的持久化(Persistence) 对象持久化就是让对象的生存期超越使用对象的程序的运行期.将对象存储在可持久保存的存储介质上,在实际应用中,运用相应的对象持久化框架,将业务数据以对象的方式保 ...

随机推荐

【转】淘宝UED上关于chrome的transition闪烁问题的解决方案
最近在用BetterScroll实现一个功能的时候,在滚动区域中会有一个绝对定位的按钮,结果在IOS中出现了快速滚动,停止的时候,会先消失后显现的问题,所以查找了相关的文章,发现是transition ...
SpringBoot2 整合 Drools规则引擎，实现高效的业务规则
本文源码:GitHub·点这里 || GitEE·点这里一.Drools引擎简介 1.基础简介 Drools是一个基于java的规则引擎,开源的,可以将复杂多变的规则从硬编码中解放出来,以规则脚本的 ...
xml-mapping xml 与 java 对象转换映射框架，像 XStream 一样优雅地读写xml
xml xml 是 java 实现的 xml 框架. 希望以最优雅的方式进行 xml 和 java 之间的转换处理,一行代码搞定一切. 特点对象的和 xml 的互相映射支持注解 @Alias 指定 ...
NET Core 3.0 项目中使用 AutoFac
.net core 3.1 今天已正式发布,3.1跟3.0差别不是很大,主要是对 3.0一小部分修复和完善,最重要的是.NET Core 3.1是长期支持(LTS)版本,建议大家升级. .net co ...
vue解惑之v-on(事件监听指令)
一.v-on指令 vue中用v-on指令来监听DOM事件,并触发相应的代码.比如v-on:click,表示监听了点击事件. 二.事件修饰符在事件处理函数中调用 event.preventDefaul ...
JS基础语法---基本包装类型
基本包装类型普通变量不能直接调用属性或者方法对象可以直接调用属性和方法基本包装类型: 本身是基本类型, 但是在执行代码的过程中, 如果这种类型的变量调用了属性或者是方法, 那么这种类型就 ...
Android lifecyle 源码解剖 - gdutxiaoxu的博客（微信公众号 stormjun94）
版权声明:本文为博主原创文章,遵循CC 4.0 by-sa版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/gdutxiaoxu/article/det ...
Python3操作MySQL基于PyMySQL封装的类
Python3操作MySQL基于PyMySQL封装的类在未使用操作数据库的框架开发项目的时候,我们需要自己处理数据库连接问题,今天在做一个Python的演示项目,写一个操作MySQL数据库的类, ...
RMAN命令详解和常用汇总
RMAN命令详解和常用汇总转摘汇集,日后使用本文链接:https://blog.csdn.net/EVISWANG/article/details/50448370http://blog.itpub. ...
OAuthon2.0机制详解
最近在忙企业微信和钉钉的第三方应用开发,需要获取一些信息,第一个就是这个OAuthon2.0,先详细了解下概念和流程一.应用场景我们要想用第三方播放器播放你的云盘账号里面的一些秘密视频资源,为了要 ...

Spark中持久化和序列化学习

一、cache和persisit的对比

二、序列化测试Java和kyro

Spark中持久化和序列化学习的更多相关文章

随机推荐

热门专题