spark 调优（官方文档）

1.序列化

对象在进行网络传输或进行持久化时需要进行序列化，如果采用序列化慢或者消耗大量字节的序列化格式，则会拖慢计算。

spark 提供了两种序列化类库

1）. Java serialization

灵活，但是很慢

2） Kryo serialization

比java 快10倍，紧凑，不支持所有 Serializable类型，使用方法

a.在saprkconf 中设置序列化的类

conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer").

b.可选

设置spark.kryo.registrationRequired 为true，则必须显示声明需要序列化的类，否则会报错

sconf.set("spark.kryo.registrationRequired","true")

sconf.registerKryoClasses(Array(

classOf[NullWritable],

classOf[Array[String]])

)

如果序列化的对象较大，可以调整 spark.kryoserializer.buffer （默认6k）。如果不注册需要序列化的类，则序列化时会保存类的全称，比惨耗内存

2.内存优化

Java对象访问速度很快，但与其字段中的“原始”数据相比，可以轻松占用2-5倍的空间。缩小内存的方法

1）尽量使用array[object] 和基本类型，避免使用 hashmap 等标准集合

2）尽量避免使用包含大量小对象和指针的嵌套结构

3）rdd 缓存时尽量使用序列化格式，比如MEMORY_ONLY_SER，

4）gc 调优？

3.资源允许的情况下增加任务的并行度，充分利用集群资源

4..提高reduceByKey,groupByKey 等shuffle 操作的并行度，以降低每个task 处理的数据量，减少oom

5.大的变量进行broadcast

spark 调优（官方文档）的更多相关文章

Spark记录-SparkSql官方文档中文翻译（部分转载）
1 概述(Overview) Spark SQL是Spark的一个组件,用于结构化数据的计算.Spark SQL提供了一个称为DataFrames的编程抽象,DataFrames可以充当分布式SQL查 ...
《Spark Python API 官方文档中文版》之 pyspark.sql (一)
摘要:在Spark开发中,由于需要用Python实现,发现API与Scala的略有不同,而Python API的中文资料相对很少.每次去查英文版API的说明相对比较慢,还是中文版比较容易get到所需, ...
《Spark Python API 官方文档中文版》之 pyspark.sql (二)
摘要:在Spark开发中,由于需要用Python实现,发现API与Scala的略有不同,而Python API的中文资料相对很少.每次去查英文版API的说明相对比较慢,还是中文版比较容易get到所需, ...
《Spark Python API 官方文档中文版》之 pyspark.sql (四)
摘要:在Spark开发中,由于需要用Python实现,发现API与Scala的略有不同,而Python API的中文资料相对很少.每次去查英文版API的说明相对比较慢,还是中文版比较容易get到所需, ...
《Spark Python API 官方文档中文版》之 pyspark.sql (三)
摘要:在Spark开发中,由于需要用Python实现,发现API与Scala的略有不同,而Python API的中文资料相对很少.每次去查英文版API的说明相对比较慢,还是中文版比较容易get到所需, ...
Spark SQL 官方文档-中文翻译
Spark SQL 官方文档-中文翻译 Spark版本:Spark 1.5.2 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 Data ...
Spark Pipeline官方文档
ML Pipelines(译文) 官方文档链接:https://spark.apache.org/docs/latest/ml-pipeline.html 概述在这一部分,我们将要介绍ML Pipe ...
Spark官方文档 - 中文翻译
Spark官方文档 - 中文翻译 Spark版本:1.6.0 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 引入Spark(Linki ...
Spark Streaming官方文档学习--上
官方文档地址:http://spark.apache.org/docs/latest/streaming-programming-guide.html Spark Streaming是spark ap ...
【翻译】Spark 调优 (Tuning Spark) 中文版
由于Spark自己的调优guidance已经覆盖了很多很有价值的点,因此这里直接翻译一份过来.也作为一个积累. Spark 调优 (Tuning Spark) 由于大多数Spark计算任务是在内存中运 ...

随机推荐

HTML5新标签和CSS伪类
HTML5提供了很多新的标签,由于HTML5的兼容性比较差,HTML5的标签常用于手机端 <nav> <footer> <section> <header&g ...
PHP RSA签名
/** * RSA签名 * @param $data 待签名数据 * @param $private_key 私钥字符串 * return 签名结果 */function rsaSign($data, ...
如何提升Web前端性能？
什么是WEB前端呢?就是用户电脑的浏览器所做的一切事情.我们来看看用户访问网站,浏览器都做了哪些事情:输入网址 –> 解析域名 -> 请求页面 -> 解析页面并发送页面中的资源请求 ...
springmvc4 mybatis 整合框架源码 bootstrap html5 mysql oracle sqlsever spring SSM
A 调用摄像头拍照,自定义裁剪编辑头像 [新录针对本系统的视频教程,手把手教开发一个模块,快速掌握本系统]B 集成代码生成器 [正反双向](单表.主表.明细表.树形表,开发利器)+快速构建表单; 技 ...
基于注解的SpringAOP源码解析（二）
在上篇文章中我们搭建了一个阅读源码的demo工程,然后简单介绍了一下@EnableAspectJAutoProxy注解,这个注解最重要的功能就是为向Spring中注入了一个beanAnnotatio ...
linux防火墙和SELinux
1. 关闭防火墙永久性生效开启:chkconfig iptables on 关闭:chkconfig iptables off 即时生效开启:service iptables start 关闭: ...
Centos7允许使用密码登录
现在使用云主机比较多,所以一般都是使用秘钥登录,当做一个集群的时候需要几台机器之间免密登录时,就需要修改他的配置文件了,刚做运维那会儿,很熟练,现在忘得差不多了,特此记录一下,下次又这个需求时就不 ...
探秘JVM的底层奥秘
JVM的简单运行流程:主要将字节码文件加载到JVM的内存中,负责跨平台解释字节码文件到不同的操作系统. JVM的基本结构: 类加载器.执行引擎.运行时数据区域.本地接口类的装载加载.连接(验证.准 ...
Linux自有服务(1)-Linux从入门到精通第五天(非原创)
文章大纲一.运行模式二.用户与用户组管理(重点)三.网络设置四.ssh服务(重点)五.学习资料下载六.参考文章自有服务,即不需要用户独立去安装的软件的服务,而是当系统安装好之后就可以直接使用的 ...
Python之request模块-基础用法
Request模块参考中文手册:https://requests.readthedocs.io/zh_CN/latest/ Request模块 1.查看pip已装包(模块)的安装信息(模块的路径.版本 ...

spark 调优（官方文档）

spark 调优（官方文档）的更多相关文章

随机推荐

热门专题