Spark硬件配置推荐

岑玉海 2024-10-30 03:44:23 原文

1、存储系统

　　如果可以的话，把Spark的hadoop的节点安装在一起，最容易的方式是用standalone的模式安装，用mapred.child.java.opts设置每个任务的内存，用mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum来设置map和reduce任务的最大数来分隔来这两个集群的可利用资源，也可以考虑用YARN模式。

　　如果不行，就在一个局域网里面。但是对于Hbase这样的低延迟的系统，就不要部署在同样的机器上面，避免干扰。

2、本地硬盘

　　当Spark没办法把所有的内容放在内存中计算的时候，它会把部分内容存储到硬盘当中，推荐一个节点配置4-8块硬盘，不要配置RAID，仅仅是作为单独的mount点。在linux里面，用noatime选项来mount硬盘可以减少不必要的写操作。用spark.local.dir来配置本地磁盘目录，如果跑着HDFS，使用和HDFS一样的硬盘。

3、内存

　　Spark最少在运行8GB以上的内存的机器上面，推荐是把最多75%的内存分配给Spark，把剩下的分配给操作系统和缓存。Java VM在超过200GB的内存的机器上面表现得并不好，如果买的机器超过这个内存，可以使用多个worker JVMs一个节点。在spark-env.sh中用SPARK_WORKER_INSTANCES设置一个节点的worker数量，用SPARK_WORKER_CORES设置每个worker多少个核心。

4、网络

　　Spark是网络绑定型的系统，使用10GB以上的网络，会使程序运行得更快，尤其是一些distributed reduce的程序当中，使用了group-bys, reduce-bys, and SQL joins的操作的时候。我们可以通过http://<driver-node>:4040来查看Spark shuffles在网络当中传输的数据量。

5、CPU核心

　　Spark支持扩展数十个CPU核心一个机器，它实行的是线程之间最小共享。我们需要至少使用8-16个核心的机器，当内存足够的情况之下，程序跑起来，就看CPU和网络了。

Spark硬件配置推荐的更多相关文章

对Spark硬件配置的建议
对于Spark开发人员来说,一个比较普遍的问题就是如何合理的配置Spark的硬件?当然如何合理的对Spark集群进行硬件配置要视情况而定,在这里给出以下建议: 存储系统在大数据领域,有一句" ...
【Spark】---- Spark 硬件配置
存储系统 Spark任务需要从一些外部的存储系统加载数据(如:HDFS 或者 HBase),重要的是存储系统要接近Spark系统,我们有如下推荐: (1)如果可能,运行Spark在相同的HDFS节 ...
【Spark学习】Apache Spark集群硬件配置要求
Spark版本:1.1.1 本文系从官方文档翻译而来,转载请尊重译者的工作,注明以下链接: http://www.cnblogs.com/zhangningbo/p/4135912.html 目录存 ...
为Hadoop集群选择合适的硬件配置
随着Apache Hadoop的起步,云客户的增多面临的首要问题就是如何为他们新的的Hadoop集群选择合适的硬件. 尽管Hadoop被设计为运行在行业标准的硬件上,提出一个理想的集群配置不想提供硬件 ...
spark 安装配置
最佳参考链接 https://opensourceteam.gitbooks.io/bigdata/content/spark/install/spark-160-bin-hadoop26an_zhu ...
MongoDB的容量规划及硬件配置
mongo是基于内存的数据库,应尽量将工作集中的数据全部加载到内存中,即内存应大于工作集本文译自Chad Tindel的英文博客: http://www.mongodb.com/blog/post/ ...
人机大战之AlphaGo的硬件配置和算法研究
AlphaGo的硬件配置最近AlphaGo与李世石的比赛如火如荼,关于第四盘李世石神之一手不在我们的讨论范围之内.我们重点讨论下AlphaGo的硬件配置: AlphaGo有多个版本,其中最强的是分布 ...
如何查看LINUX 硬件配置信息
如何查看LINUX 硬件配置信息在网上找了N久,发现了一篇不错的文档,转载一下: 1.查看机器所有硬件信息: dmidecode |more dmesg |more 这2个命令出来的信息都非常多,所 ...
C/C++通过WMI和系统API函数获取获取系统硬件配置信息
转载:http://www.cnblogs.com/renyuan/archive/2012/12/29/2838716.html 转载:http://blog.csdn.net/jhqin/arti ...

随机推荐

shell 数组，双层循环打印变量
双层循环,打印循环执行次数. 特别注意 ,shell 脚本赋值时 '=' 两侧不能有空格,否则报错,shell command not found 但在if 语句中需要有: STR1="ab ...
Python 爬虫使用正则去掉不想要的网页元素
在做爬虫的时候,我们总是不想去看到网页的注释,或者是网页的一些其他元素,有没有好的办法去掉他们呢? 例如:下面的问题第一种情况<ahref="http://artso.artron. ...
springboot 错误处理
在 java web开发过程中,难免会有一些系统异常或人为产生一些异常.在 RESTful springboot 项目中如何优雅的处理? 分析:在RESTful 风格的springboot 项目中,返 ...
unity, Collider2D.attachedRigidbody
boss根节点上挂RigidBody2D(且boss根节点以下任何子节点均不挂RigidBody2D),boss腿部骨骼节点挂collider2D,标签为"bossLeg",bos ...
curl以cookie的方式登录
curl -o /dev/null -s -w ‘%{time_connect}:%{time_starttransfer}:%{time_total}’ --cookie "UM_dist ...
Android 移动端数据结构
## SparseArray ## SparseBooleanArray ## SparseIntArray ## SparseLongArray * 位于android.util,Android 中 ...
c语言实现xor加密
异或运算:^ 定义:它的定义是:两个值相同时,返回false,否则返回true.也就是说,XOR可以用来判断两个值是否不同. 特点:如果对一个值连续做两次 XOR,会返回这个值本身. ^ // 第一次 ...
js正则表达式实现手机号码，密码正则验证
手机号码,密码正则验证. 分享下javascript中正则表达式进行的格式验证,常用的有手机号码,密码等. /** * 手机号码 * 移动:134[0-8],135,136,137,138,139,1 ...
Java 8 – 日期和时间实用技巧
当你开始使用Java操作日期和时间的时候,会有一些棘手.你也许会通过System.currentTimeMillis() 来返回1970年1月1日到今天的毫秒数.或者使用Date类来操作日期:当遇到加 ...
Socket网络编程--Libev库学习(3)
这一小节继续讲解各个观察器(Watcher). 上一小节已经讲解了ev_io(IO可读可写观察器),ev_stat(文件属性变化观察器),ev_signal(信号处理观察器),ev_timer(定时器 ...