spark 性能优化

1、内存

spark.storage.memoryFraction：很明显，是指spark缓存的大小，默认比例0.6

spark.shuffle.memoryFraction：管理executor中RDD和运行任务时的用于对象创建内存比例，默认0.2

关于这两个参数的设置，常见的一个场景就是操作关系数据库

spark 可以通过jdbc操作关系数据库，但是若是没有分散数据的依据，则将所有数据都读到driver节点上时，这时，强烈建议先看一下表的数据量和集群中对spark的内存设置参数

假设 executor memory 大小设置为2G，也就是说，spark.shuffle.memoryFraction可用内存为2G*0.2=400M，假设5W条数据大小为1M，也就是说可以读取400*50W=2000W条

当你在单节点上读取数据超过2000W而不能及时处理时，就有极大的可能oom

内存设置

spark.shuffle.memoryFraction 0.4 #适当调高

spark.storage.memoryFraction 0.4 #适当调低

2、开启外排序

spark.sql.planner.externalSort true

3、修改序列化工具

spark.serializer org.apache.spark.serializer.KryoSerializer

4、限制应用申请内核数

spark.cores.max 15

5、并行数

spark.default.parallelism 90

6、加入第三方常用类库

spark.executor.extraClassPath /opt/spark/current/lib/sqljdbc41.jar:/opt/spark/current/lib/postgresql-9.4-1202-jdbc41.jar:spark-cassandra-connector-full.jar

spark.driver.extraClassPath /opt/spark/current/lib/sqljdbc41.jar:/opt/spark/current/lib/postgresql-9.4-1202-jdbc41.jar:spark-cassandra-connector-full.jar

spark 性能优化的更多相关文章

【转载】Spark性能优化指南——高级篇
前言数据倾斜调优调优概述数据倾斜发生时的现象数据倾斜发生的原理如何定位导致数据倾斜的代码查看导致数据倾斜的key的数据分布情况数据倾斜的解决方案解决方案一:使用Hive ETL预处理数 ...
【转载】 Spark性能优化指南——基础篇
转自:http://tech.meituan.com/spark-tuning-basic.html?from=timeline 前言开发调优调优概述原则一:避免创建重复的RDD 原则二:尽可能 ...
【转】【技术博客】Spark性能优化指南——高级篇
http://mp.weixin.qq.com/s?__biz=MjM5NjQ5MTI5OA==&mid=2651745207&idx=1&sn=3d70d59cede236e ...
【转】Spark性能优化指南——基础篇
http://mp.weixin.qq.com/s?__biz=MjM5NDMwNjMzNA==&mid=2651805828&idx=1&sn=2f413828d1fdc6a ...
Spark性能优化指南——高级篇（转载）
前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为<Spark性能优化指南>的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问 ...
Spark性能优化指南——基础篇（转载）
前言在大数据计算领域,Spark已经成为了越来越流行.越来越受欢迎的计算平台之一.Spark的功能涵盖了大数据领域的离线批处理.SQL类处理.流式/实时计算.机器学习.图计算等各种不同类型的计算操作 ...
Spark性能优化指南-高级篇
转自https://tech.meituan.com/spark-tuning-pro.html,感谢原作者的贡献前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作 ...
Spark性能优化指南——基础篇
本文转自:http://tech.meituan.com/spark-tuning-basic.html 感谢原作者前言在大数据计算领域,Spark已经成为了越来越流行.越来越受欢迎的计算平台之一 ...
Spark性能优化指南——高级篇
本文转载自:https://tech.meituan.com/spark-tuning-pro.html 美团技术点评团队) Spark性能优化指南——高级篇李雪蕤 ·2016-05-12 14:4 ...
Spark记录-Spark性能优化解决方案
Spark性能优化的10大问题及其解决方案问题1:reduce task数目不合适解决方式:需根据实际情况调节默认配置,调整方式是修改参数spark.default.parallelism.通常,r ...

随机推荐

SDUT3165:Round Robina(循环链表）
题目:http://acm.sdut.edu.cn/sdutoj/problem.php?action=showproblem&problemid=3165 题意分析: 比赛时这题没有A真伤心 ...
UVA10026：Shoemaker's Problem（贪心）
题目链接: http://acm.hust.edu.cn/vjudge/contest/view.action?cid=68990#problem/K 题目需求:鞋匠有n个任务,第i个任务要花费ti ...
oralce 查看执行计划
SQL的执行计划实际代表了目标SQL在Oracle数据库内部的具体执行步骤,作为调优,只有知道了优化器选择的执行计划是否为当前情形下最优的执行计划,才能够知道下一步往什么方向. 执行计划的定义:执行目 ...
20165324 2017-2018-2 《Java程序设计》课程总结
20165324 2017-2018-2 <Java程序设计>课程总结每周作业链接汇总预备作业1:20165324 我期望的师生关系预备作业2:20165324 学习基础与C语言学习 ...
用python 实现生成双色球小程序
生成双色球小程序: #输入n,随机产生n条双色球号码,插入n条数据库 #表结构: seq CREATE TABLE `seq` ( `id` int(11) NOT NULL AUTO_INCREME ...
mysql调优小记
对于INNODB,主键就是聚集索引,如果没有主键定义,则第一个唯一非空索引被作为聚集索引.如果没有主键也没有合适的唯一索引,那么innodb内部会生成一个隐藏的主键作为聚集索引,这个隐藏的主键类似一个 ...
Windows MFC控件消息编程
1. Progress Bar Control Messages PBM_DELTAPOS PBM_GETPOS PBM_GETRANGE PBM_SETBARCOLOR ...
LINUX SHELL 笔记 01：脚本
root@iZwz:~/labs# vim myfirst root@iZwz:~/labs# cat myfirst #!/bin/bash clear echo "this is my ...
linux lanmp一件安装包
转载地址:http://lamp.phpstudy.net/ phpStudy Linux版&Win版同步上线支持Apache/Nginx/Tengine/Lighttpd/IIS7/8/6 ...
第三方CSS安全吗？
原文:https://jakearchibald.com/201...翻译:疯狂的技术宅本文首发微信公众号:jingchengyideng欢迎关注,每天都给你推送新鲜的前端技术文章前一段时间,有很 ...

spark 性能优化

spark 性能优化的更多相关文章

随机推荐

热门专题