1、RDD[(k,v)] join()优化,join之前会对两个RDD的key做hash,通过网络把相同hash值的数据传到同一个节点,因此对多次join的RDD 做预分区与持久化可提高效率。

map()操作会失去父RDD的信息,因为key值有可能发生改变,但 mapValues()、flatMapValues()不会。多父RDD已分区,默认采取第一个父RDD的分区方式

cogroup() 、groupWith() 、 join() 、 leftOuterJoin() 、 rightOuterJoin() 、 groupByKey() 、 reduceByKey() 、combineByKey() 以及 lookup() 等发生跨节点数据混洗的操作都可以进行优化。

RDD.partitionBy( new HashPartitioner(3)).persist(StorageLevel.MEMORY_AND_DISK_SER)//构造3个分区
RDD.partitioner//获取分区信息

2.累加器,行动操作中每个任务只会对累加器修改一次,转换操作也许会由于缓存移出又重新使用等操作导致多次修改。(spark1.2)

只有驱动器可以读,对执行器是只写变量。

 val accu = sc.accumulator(initialValue)

3.广播变量,只被发到各节点一次,类似BitTorrent通信机制,只读,修改不会影响其他节点的值,

val broad = sc.broadcast(T)

4.task、stage、job

一个RDD有多少partition 就会生成多少task;一个或多个RDD生成一个stage(一般以shuffle操作为分隔);一个action 生成一个job

spark读取文件的并行度与HDFS block有关,HBASE region数有关,hive文件不可分割则与文件数有关,可分割文件与分割数有关。未压缩文件和BZip2Codec压缩类型可分割。

  /**
This input format overrides computeSplitSize() to make sure that each split only contains full records. Each InputSplit passed to FixedLengthBinaryRecordReader will start at the first byte of a record, and the last byte will the last byte of a record.
*/
override def computeSplitSize(blockSize: Long, minSize: Long, maxSize: Long): Long = {
val defaultSize = Math.max(minSize, Math.min(maxSize, blockSize))
// If the default size is less than the length of a record, make it equal to it Otherwise, make sure the split size is as close to possible as the default size,but still contains a complete set of records, with the first record starting at the first byte in the split and the last record ending with the last byte
if (defaultSize < recordLength) {
recordLength.toLong
} else {
(Math.floor(defaultSize / recordLength) * recordLength).toLong
}
}

5.性能调优

a.调整并行度

val rdd2 = rdd1.map((_,1)).reduceByKey(_+_,10)//shuffle时调整并行度 shuffle原理:https://www.cnblogs.com/diaozhaojian/p/9635829.html
//Mapreduce和spark shuffle区别(https://mp.weixin.qq.com/s/FT2V9IwNoMl_JU_UDulJ-w)
rdd2.repartition(10)//对RDD做重分区,会打乱数据做重分区
rdd2.coalesce(10)//减少分区,调用Repartition(numPartitions, shuffle = false, logicalPlan)

6.RDD.CheckPoint与RDD.persist(https://www.cnblogs.com/jcchoiling/p/6513569.html)(https://blog.csdn.net/rlnLo2pNEfx9c/article/details/81417061)

  CheckPoint 把RDD持久化到HDFS上,增强容错性。job运行时若检测到RDD.CheckPoint会启动一个新job做checkpoint操作,同时删除父RDD,截断依赖链,改变lineage(谱系图)。

设置检查点目录sc.setCheckpointDir("hdfs://IP:9000/checkpoint/")。因为checkpoint要重新计算,因此checkpoint之前建议先persist。

persist 根据存储级别,把数据缓存到不同介质上,只是保存数据,不改变DAG。

Persist 由executor的blockManager管理,因此driver结束之后persist到 磁盘的数据也会清除,而checkpoint 持久化到HDFS,利用HDFS高可用,不调用remove不会清除。

7.Parquet与ORC(https://blog.csdn.net/yu616568/article/details/51868447)(ORC:https://www.cnblogs.com/ITtangtang/p/7677912.html)

  parquet支持嵌套数据结构,通过repeated和group实现Map、Array等复杂数据结构。(每个字段有重复次数(required(出现一次)repeated(0或多次)optional(0或1次))、字段类型(group和primitive)和字段名三个属性)。

多行记录构成一个行组(row group),行组中每个列作为一个列块(column chunk),不同列块可采取不同压缩方式,列块划分为多个页。为了更好地存储嵌套格式,页的成员值由value、Repetition level和Definition level三部分组成,对于repeated类型列,repetition lever标记了所处哪条记录已经在该记录位置。

每个行组的统计信息包括schema、列块的最大最小值空值数等信息。每个页的元数据包括value数目,数据页、索引页的offset等信息。

  ORC格式通过把struct类型生成一个schema树,struct类型作为根节点,中序遍历子节点,得到所有叶子节点的数据,交由父节点封装成嵌套数据结构。以此来支持LIST、STRUCT、MAP等复杂结构。

 
 
 
 
 
 
 
 
 
 
 
 

Spark菜鸟记录的更多相关文章

  1. Spark菜鸟学习营Day5 分布式程序开发

    Spark菜鸟学习营Day5 分布式程序开发 这一章会和我们前面进行的需求分析进行呼应,完成程序的开发. 开发步骤 分布式系统开发是一个复杂的过程,对于复杂过程,我们需要分解为简单步骤的组合. 针对每 ...

  2. Spark菜鸟学习营Day3 RDD编程进阶

    Spark菜鸟学习营Day3 RDD编程进阶 RDD代码简化 对于昨天练习的代码,我们可以从几个方面来简化: 使用fluent风格写法,可以减少对于中间变量的定义. 使用lambda表示式来替换对象写 ...

  3. Spark菜鸟学习营Day1 从Java到RDD编程

    Spark菜鸟学习营Day1 从Java到RDD编程 菜鸟训练营主要的目标是帮助大家从零开始,初步掌握Spark程序的开发. Spark的编程模型是一步一步发展过来的,今天主要带大家走一下这段路,让我 ...

  4. Spark菜鸟学习营Day6 分布式代码运行调试

    Spark菜鸟学习营Day6 分布式代码运行调试 作为代码调试,一般会分成两个部分 语法调试,也就是确定能够运行 结果调试,也就是确定程序逻辑的正确 其实这个都离不开运行,所以我们说一下如何让开发的S ...

  5. Spark菜鸟学习营Day4 单元测试程序的编写

    Spark菜鸟学习营Day4 单元测试程序的编写 Spark相比于传统代码是比较难以调试的,单元测试的编写是非常必要的. Step0:需求分析 在测试案例编写前,需完成需求分析工作,明确程序所有的输入 ...

  6. Spark菜鸟学习营Day2 分布式系统需求分析

    Spark菜鸟学习营Day2 分布式系统需求分析 本分析主要针对从原有代码向Spark的迁移.要注意的是Spark和传统开发有着截然不同的思考思路,所以我们需要首先对原有代码进行需求分析,形成改造思路 ...

  7. Spark问题记录

    Spark 多线程时的序列化问题  临时记录 Exception in thread "Thread-28" org.apache.spark.SparkException: Ta ...

  8. Spark数据分析-记录关联问题

    1. 问题描述 记录关联问题(Record Linkage):有大量从一个或多个源系统来的记录,其中有些记录可能代表了相同的基础实体. 每个实体有若干个属性,比如姓名.地址.生日.我们需要根据这些属性 ...

  9. hadoop和spark搭建记录

    因玩票需要,使用三台搭建spark(192.168.1.10,192.168.1.11,192.168.1.12),又因spark构建在hadoop之上,那么就需要先搭建hadoop.历经一个两个下午 ...

随机推荐

  1. springboot+mybatis+thymeleaf项目搭建及前后端交互

    前言 spring boot简化了spring的开发, 开发人员在开发过程中省去了大量的配置, 方便开发人员后期维护. 使用spring boot可以快速的开发出restful风格微服务架构. 本文将 ...

  2. mybatis支持jdk8等localdate类型

    大家知道,在实体Entity里面,可以使用java.sql.Date.java.sql.Timestamp.java.util.Date来映射到数据库的date.timestamp.datetime等 ...

  3. oracle插入数据的时候报错:ORA-00928: 缺失 SELECT 关键字

    比如:插入数据的时候是这样的insert into a value('哈哈'); 报的是这样的错误:ORA-00928: 缺失 SELECT 关键字 其实就是value少了一个s,在oracle中,插 ...

  4. 关于Flex布局

    Flex是Flexible Box的缩写,意为“弹性布局”.弹性布局提供了一种更加有效的方式来对一个容器内的项目进行排列/对齐/分配空间等操作,让盒模型具有更大的灵活性.在一个容器盒子上添加displ ...

  5. linux 查看并对外开放端口(防火墙拦截处理)

    [转]https://blog.csdn.net/qq564425/article/details/80760528 Web应用在Tomcat部署后无法访问,可能是防火墙端口限制导致 查看端口是否可访 ...

  6. Android 问题列表

    25. Touch 事件传递机制 26. 点击事件设置监听的几种方式 27. Hander 的原理 28. Thread 和HandThread 的区别 29. AsyncTask 简介 30. As ...

  7. nim读写注册表的小例子

    nim读写注册表的小例子 2018年5月7日 15:11:58 codegay 贴一个nim读写注册表的例子,虽然简单,但是nim官方没有写windows注册表相关的文档, 我贴的例子兴许能帮大家省点 ...

  8. Linux:Red Hat系统的安装

    今天高兴,所以我写这一期,这一期写的是Red Hat系统的安装,这个开发系统也是红帽企业制作出来的,关于这款系统的相关资料就自行百度吧!话不多说,直接进入这期的内容吧! 安装Red Hat系统 系统下 ...

  9. 2017年4月28日16:40:40 log

    //TODO order  CreateOrderServiceHandler  generateManagementCustomer 子活动名称和uid

  10. python学习-迭代器,列表解析和列表生成式

    迭代器为类序列对象提供了一个类序列的接口.Python 的迭代无缝的支持序列对象,而且还允许程序猿迭代非序列类型,包括用户定义的对象. 迭代器是一个next()方法的对象,而不是通过索引计数.当需要下 ...