spark 调优（官方文档）

1.序列化

对象在进行网络传输或进行持久化时需要进行序列化，如果采用序列化慢或者消耗大量字节的序列化格式，则会拖慢计算。

spark 提供了两种序列化类库

1）. Java serialization

灵活，但是很慢

2） Kryo serialization

比java 快10倍，紧凑，不支持所有 Serializable类型，使用方法

a.在saprkconf 中设置序列化的类

conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer").

b.可选

设置spark.kryo.registrationRequired 为true，则必须显示声明需要序列化的类，否则会报错

sconf.set("spark.kryo.registrationRequired","true")

sconf.registerKryoClasses(Array(

classOf[NullWritable],

classOf[Array[String]])

)

如果序列化的对象较大，可以调整 spark.kryoserializer.buffer （默认6k）。如果不注册需要序列化的类，则序列化时会保存类的全称，比惨耗内存

2.内存优化

Java对象访问速度很快，但与其字段中的“原始”数据相比，可以轻松占用2-5倍的空间。缩小内存的方法

1）尽量使用array[object] 和基本类型，避免使用 hashmap 等标准集合

2）尽量避免使用包含大量小对象和指针的嵌套结构

3）rdd 缓存时尽量使用序列化格式，比如MEMORY_ONLY_SER，

4）gc 调优？

3.资源允许的情况下增加任务的并行度，充分利用集群资源

4..提高reduceByKey,groupByKey 等shuffle 操作的并行度，以降低每个task 处理的数据量，减少oom

5.大的变量进行broadcast

spark 调优（官方文档）的更多相关文章

Spark记录-SparkSql官方文档中文翻译（部分转载）
1 概述(Overview) Spark SQL是Spark的一个组件,用于结构化数据的计算.Spark SQL提供了一个称为DataFrames的编程抽象,DataFrames可以充当分布式SQL查 ...
《Spark Python API 官方文档中文版》之 pyspark.sql (一)
摘要:在Spark开发中,由于需要用Python实现,发现API与Scala的略有不同,而Python API的中文资料相对很少.每次去查英文版API的说明相对比较慢,还是中文版比较容易get到所需, ...
《Spark Python API 官方文档中文版》之 pyspark.sql (二)
摘要:在Spark开发中,由于需要用Python实现,发现API与Scala的略有不同,而Python API的中文资料相对很少.每次去查英文版API的说明相对比较慢,还是中文版比较容易get到所需, ...
《Spark Python API 官方文档中文版》之 pyspark.sql (四)
摘要:在Spark开发中,由于需要用Python实现,发现API与Scala的略有不同,而Python API的中文资料相对很少.每次去查英文版API的说明相对比较慢,还是中文版比较容易get到所需, ...
《Spark Python API 官方文档中文版》之 pyspark.sql (三)
摘要:在Spark开发中,由于需要用Python实现,发现API与Scala的略有不同,而Python API的中文资料相对很少.每次去查英文版API的说明相对比较慢,还是中文版比较容易get到所需, ...
Spark SQL 官方文档-中文翻译
Spark SQL 官方文档-中文翻译 Spark版本:Spark 1.5.2 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 Data ...
Spark Pipeline官方文档
ML Pipelines(译文) 官方文档链接:https://spark.apache.org/docs/latest/ml-pipeline.html 概述在这一部分,我们将要介绍ML Pipe ...
Spark官方文档 - 中文翻译
Spark官方文档 - 中文翻译 Spark版本:1.6.0 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 引入Spark(Linki ...
Spark Streaming官方文档学习--上
官方文档地址:http://spark.apache.org/docs/latest/streaming-programming-guide.html Spark Streaming是spark ap ...
【翻译】Spark 调优 (Tuning Spark) 中文版
由于Spark自己的调优guidance已经覆盖了很多很有价值的点,因此这里直接翻译一份过来.也作为一个积累. Spark 调优 (Tuning Spark) 由于大多数Spark计算任务是在内存中运 ...

随机推荐

C++中的Mat, const Mat, Mat &,Mat &, const Mat &的区别
Mat, copy传递,不会改变外部变量的Mat. Mat &, reference传递,函数内部修改将会改变外部. const Mat, copy传递,在函数内,不会被修改,也不会影响到外部 ...
Java 之 JDK1.8之前日期时间类
一.JDK1.8之前日期时间类二. java.lang.System类 System类提供的public static long currentTimeMillis()用来返回当前时间与1970年1 ...
英语pyrophane火欧珀pyrophane单词
pyrophane火欧泊产量稀少,以至于大多数采到宝石的矿主不愿意将它进行切割,即便随形的切割技巧比刻面需要更多的经验也要将其加工成随形,因为这种琢型最能保重.但是与黑欧泊为了保证火彩只能切割成蛋面和 ...
pandas基础：Series与DataFrame操作
pandas包 # 引入包 import pandas as pd import numpy as np import matplotlib.pyplot as plt Series Series 是 ...
让configure和cmake编译时支持调试选项
在Linux先编译软件基本都是采用configure文件生成makefile,或者,cmake生成makefile文件两种方式.它们生成的makefile文件,一般默认不支持-g调试选项.但我们使用这 ...
八、collection系列-----计数器、有序字典、默认字典、可命名元组、双向队列、单向队列一.计数器（对字典的扩展）
一.计数器(对字典的扩展) 有如下一个字典: dic = {'k1':123,'k2':123,'k3':12} 统计12出现的次数,123出现的次数 1.统计出现次数 >>> ...
nginx.conf 下日志host.access.log 说明
位置usr/local/nginx/conf/nginx.conf $server_port 请求端口 $remote_addr 局域网代理IP:如果没同意任何代理的话$remote_addr 就是真 ...
MySQL多实例安装、配置、启动（四）
一.规划信息系统信息: cat /etc/redhat-release CentOS Linux release (Core) # uname -r -.el7.x86_64 数据库规划 PORT: ...
Unity 渲染教程（一）：矩阵
转载:http://gad.qq.com/program/translateview/7181958 创建立方体网格.· 支持缩放.位移和旋转. · 使用变换矩阵. · 创建简单的相机投影. 这是关于 ...
django url注册器组件, 响应器组件, 分页器组件
一.url注册器的使用 1.1导入模块 from django.urls import re_path, include from .serializer import views from rest ...

spark 调优（官方文档）

spark 调优（官方文档）的更多相关文章

随机推荐

热门专题