spark性能调优点(逐步完善)
1、使用高性能序列化类库
2、优化数据结构
3、对多次使用的RDD进行持久化/CheckPoint
4、使用序列化的持久化级别
5、Java虚拟机垃圾回收调优
降低RDD缓存占用空间的比例:new SparkConf().set("spark.storage.memoryFraction","0.5"),从而提高task使用的内存比例。
6、提高并行度
new SparkConf().set("spark.default.parallelism","5")这个参数一旦设定,每个RDD的数据,都会被拆分为5份,针对RDD的partition,一个partition会自动的来进行计算,所以对于所的算子操作,都会创建5个task在集群中运行。
spark官方推荐,设置集群总cpu的数量的两到三倍的并行度,每个cpu core可能分配到并发运行2-3个task线程,这样集群的状态就不太可能出现空闲的状态。
小知识:spark会自动设置以文件作为输入源的RDD的并行度,依据其大小,比如:HDFS,就会给每个block创建一个partition,也依据这个设置并行度,对于reduceByKey等会发生shuffle的操作,就使用并行度最大的父RDD的并行度即可。
7、广播共享数据
默认情况下,算子函数使用到的外部数据,会被拷贝到时每个task中。如果共享的数据较大,那么每个task都会把这个较大的数据拷贝至自己的节点上。
8、数据本地化
数据本地化对spark job性能有着巨大的影响。如果数据以及要计算它的代码是在一起的,那么性能会非常高。但是,如果数据和计算它的代码是分开的,那么其中之一必须到另外一方的机器上。通常来说,移动代码到其他节点,会比移动数据到代码所在的节点上去速度要快很多。因为代码比较小,spark也正是基于这个数据本地化的原则来构建task调度算法的。
本地化,指的是,数据离计算它的代码有多近,基于数据距离代码的距离,有几种数据本地化级别:
1)PROCESS_LOCAL:数据和计算它的代码在同一个jvm进程中。
2)NODE_LOCA:数据和计算它的代码在一个节点上,但是不在一个进程中,比如在不同的executor进程中,或者是数据在HDFS文件的block中。
3)NO_PREF:数据从哪里过来,性能都是一样的。
4)RACK_LOCAL:数据和计算它的代码在一个机架上。
5)ANY:数据可能在任意地方,比如其他网络环境内,或是在其他机架上。
spark处理partition数据时,首先会尽量的使用最好的本地化的级别去启动task,若启动的节点一直处于忙碌状态,spark会待一会,如果executor有空闲资源了,便会启动task。若等待一会(时间可以通过参数设置),发现没有executor的core释放,那么会放大一个级别去启动这个Task。
可以设置参数,spark.locality系列参数,来调节spark等待task可以进行数据 本地化的时间。spark.locality.wait(3000ms)、spark.locality.wait.node、spark.locality.wait.process、spark.locality.wait.rack
9、reduceByKey和groupByKey的合理使用
如果能使用reduceByKey就使用reduceByKey,因为它会在map端先进行本地combine,可以大大减少传输reduce端的数据量,减少网络传输的开销。只有在ReduceByKey处理不了的时候,才会用groupByKey().map()来替代。
10、shuffle调优(重中之重)
spark.shuffle.con.solidateFiles:是否开启shuffle block file的合并,默认是false
spark.reducer.maxSizeInFlight:reduce task的摘取缓存,默认是48m
spark.shuffle.file.buffer:map task的写磁盘缓存,默认32K
spark.shuffle.io.maxRetries:拉取失败的最大重试次数,默认是3次
spark.shuffle.io.retryWait:拉取失败的重试间隔,默认5s
spark.shuffle.memoryFraction:用于reduce端聚合的内存比例,默认为0.2,超过比例就会溢出到磁盘上。
spark性能调优点(逐步完善)的更多相关文章
- [Spark性能调优] 第一章:性能调优的本质、Spark资源使用原理和调优要点分析
本課主題 大数据性能调优的本质 Spark 性能调优要点分析 Spark 资源使用原理流程 Spark 资源调优最佳实战 Spark 更高性能的算子 引言 我们谈大数据性能调优,到底在谈什么,它的本质 ...
- spark 性能调优(一) 性能调优的本质、spark资源使用原理、调优要点分析
转载:http://www.cnblogs.com/jcchoiling/p/6440709.html 一.大数据性能调优的本质 编程的时候发现一个惊人的规律,软件是不存在的!所有编程高手级别的人无论 ...
- Spark性能调优:广播大变量broadcast
Spark性能调优:广播大变量broadcast 原文链接:https://blog.csdn.net/leen0304/article/details/78720838 概要 有时在开发过程中,会遇 ...
- Spark性能调优之代码方面的优化
Spark性能调优之代码方面的优化 1.避免创建重复的RDD 对性能没有问题,但会造成代码混乱 2.尽可能复用同一个RDD,减少产生RDD的个数 3.对多次使用的RDD进行持久化(ca ...
- Spark性能调优之合理设置并行度
Spark性能调优之合理设置并行度 1.Spark的并行度指的是什么? spark作业中,各个stage的task的数量,也就代表了spark作业在各个阶段stage的并行度! 当分配 ...
- Spark性能调优之资源分配
Spark性能调优之资源分配 性能优化王道就是给更多资源!机器更多了,CPU更多了,内存更多了,性能和速度上的提升,是显而易见的.基本上,在一定范围之内,增加资源与性能的提升,是成正比的:写完了 ...
- Spark性能调优之Shuffle调优
Spark性能调优之Shuffle调优 • Spark底层shuffle的传输方式是使用netty传输,netty在进行网络传输的过程会申请堆外内存(netty是零拷贝),所以使用了堆外内存. ...
- Spark性能调优之解决数据倾斜
Spark性能调优之解决数据倾斜 数据倾斜七种解决方案 shuffle的过程最容易引起数据倾斜 1.使用Hive ETL预处理数据 • 方案适用场景:如果导致数据倾斜的是Hive表.如果该Hiv ...
- Spark性能调优之JVM调优
Spark性能调优之JVM调优 通过一张图让你明白以下四个问题 1.JVM GC机制,堆内存的组成 2.Spark的调优为什么会和JVM的调 ...
随机推荐
- java:struts框架2(方法的动态和静态调用,获取Servlet API三种方式(推荐IOC(控制反转)),拦截器,静态代理和动态代理(Spring AOP))
1.方法的静态和动态调用: struts.xml: <?xml version="1.0" encoding="UTF-8"?> <!DOCT ...
- Loading——spin.js
官网:[http://spin.js.org/] Github地址:[https://github.com/fgnass/spin.js]
- upd通讯Recvfrom设置阻塞不起作用
把自己踩到的坑记录一下,在做UDP通讯的时候,发现自己的程序没有收数据居然也有百分之十二的cpu占用率,通过性能分析工具了解到时recvfrom函数一直在执行,虽然设置阻塞并且确认成功了, ;//阻塞 ...
- 第j九周学习总结暨第七周实验报告
完成火车站售票程序的模拟. 要求: (1)总票数1000张: (2)10个窗口同时开始卖票: (3)卖票过程延时1秒钟: (4)不能出现一票多卖或卖出负数号票的情况. 一:实验代码 package d ...
- C语言I博客作业12-学期总结
一.我学到的内容 二.我的收获 1. https://www.cnblogs.com/1076022899-lj/p/11576442.html 收获:第一次接触到C语言和PTA,第一次学习了博客园和 ...
- linux查看cd/dvd驱动器的设备信息
在linux下,如何来查看系统里的CD-ROM或者DVD驱动器的设备名呢? 你可以输入下面的命令来查看当前系统下的光盘驱动器信息: 1.使用dmesg命令来查看当前的硬件是否被linux内核正确的识别 ...
- poj2478(欧拉函数)
题目链接:https://vjudge.net/problem/POJ-2478 题意:给定n,输出集合中元素的数量,集合中的元素为最简小于1的分数,分子分母均属于[1,n-1]. 思路:理清题意后就 ...
- Java实现龟兔赛跑
闲极无聊,加上翻手机看到龟兔赛跑的词语,想到了可以通过java起两个线程来实现龟兔赛跑的实现. 代码实现其实很简单: 首先是乌龟类: 然后是兔子类: 最后是赛跑类: 接下里让我们看一下输出结果吧: 乌 ...
- C++中类模板的概念和意义
1,在 C++ 中是否能够将泛型的思想应用于类? 1,函数模板是将泛型编程的思想应用于函数,就有了函数模板: 2,可以,常用的 C++ 标准库就是 C++ 中的标准模板库,C++ 中的 STL 就是将 ...
- RabbitMQ入门教程(五):扇形交换机发布/订阅(Publish/Subscribe)
原文:RabbitMQ入门教程(五):扇形交换机发布/订阅(Publish/Subscribe) 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. ...