存储系统

　　因为大部分Spark作业很可能要从外部存储系统（如HDFS、HBase）读取数据，所以，把Spark平台尽可能地部署在靠近这类存储系统的地方是很重要的。我们推荐从以下几个方面考虑Spark的部署：

如果有可能，那么就把Spark与HDFS运行在相同的节点上。最简单的方法就是在HDFS的节点上直接创建Spark Standalone集群，同时分别配置Spark和Hadoop对于内存和CPU的使用量以避免相互干扰（对于Hadoop，相关选项如：mapred.child.java.opts用于设置每个任务需要分配的内存量，mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum用于设置任务总数）。要不然，你还可以在通用集群管理器（比如Mesos或Hadoop YARN）上运行Hadoop和Spark。
如果不可能，那么就在HDFS所在的局域网内的其他节点上运行Spark。
对于HBase这样的低延迟数据库存储系统，最好是在存储系统以外的其他节点上运行计算作业，以避免干扰。

本地磁盘

　　当Spark在内存中执行大量的计算作业时，实际上它仍然会使用本地磁盘来存储那些不适合放入RAM中的数据，还有那些在各个stage之间保存的临时输出数据。我们推荐每个节点配备4-8个磁盘，且不要设置为RAID模式（仅仅是作为单独的装载点）。在Linux系统下，以noatime命令行选项装载磁盘可以减少不必要的读磁盘操作。在Spark中，把变量spark.local.dir配置为以逗号分隔的本地磁盘列表。如果你正在运行着HDFS，那么，最好和HDFS使用相同的磁盘。

内存

　　通常，在内存容量为8GB到数百GB的主机上，Spark都能很好地运行。在任何情况下，我们都推荐最多只把物理主机上75%的内存分配给Spark；剩下的留给操作系统和缓存。

　　你需要多少内存取决于你的应用程序。要确定你的应用程序在某个数据集上执行时需要多少内存，可以在Spark RDD中加载一部分数据集，并借用Spark 监控UI（http://<driver-node>:4040）上的存储表格（Storage tab）来查看其内存用量。要注意的是内存用量受存储级别和序列化格式的影响极大——解决方法详见Spark调优一文。

　　最后，请注意，配置了200GB以上内存的Java 虚拟机并不能总是正常工作。如果你购买的主机配备的内存超过了这个数值，那么可以在每个主机上启动多个worker JVM来解决这个问题。在Spark Standalone集群上，你可以使用配置文件conf/spark-env.sh中的变量SPARK_WORKER_INSTANCES来设置每个节点上的worker数量，用变量SPARK_WORKER_CORES来设置每个worker上分配的CPU核数。

网络

　　我们的经验表明，当数据加载到内存时，大多数Spark应用程序都将受制于网络。最好的办法就是使用10Gbps或更高带宽的网络来加快应用的执行速度。这个办法对于那些分布式reduce应用程序（如group-bys，reduce-bys，及SQL joins）特别有用。在任何一个应用程序中，你都可以从其监控UI（http://<driver-node>:4040）上看到Spark通过网络传输了多少数据量。

CPU核数

　　Spark可以在每个主机上很好地缩放数十个CPU核，因为它在线程间极少共享信息。你很可能会在每台主机上最少配置8-16个CPU核。根据你的工作负载所需的CPU成本，你可能还需要更多的CPU核：因为一旦把数据都加载到内存，那么大多数应用程序的瓶颈要么在于CPU，要么在于网络。

【Spark学习】Apache Spark集群硬件配置要求的更多相关文章

Spark学习之在集群上运行Spark（6）
Spark学习之在集群上运行Spark(6) 1. Spark的一个优点在于可以通过增加机器数量并使用集群模式运行,来扩展程序的计算能力. 2. Spark既能适用于专用集群,也可以适用于共享的云计算 ...
Spark学习之在集群上运行Spark
一.简介 Spark 的一大好处就是可以通过增加机器数量并使用集群模式运行,来扩展程序的计算能力.好在编写用于在集群上并行执行的 Spark 应用所使用的 API 跟本地单机模式下的完全一样.也就是说 ...
hadoop+yarn+hbase+storm+kafka+spark+zookeeper)高可用集群详细配置
配置 hadoop+yarn+hbase+storm+kafka+spark+zookeeper 高可用集群,同时安装相关组建:JDK,MySQL,Hive,Flume 文章目录环境介绍节点介绍 ...
hadoop+tachyon+spark的zybo cluster集群综合配置
1.zybo cluster 架构简述: 1.1 zybo cluster 包含5块zybo 开发板组成一个集群,zybo的boot文件为digilent zybo reference design提 ...
Spark学习笔记——在集群上运行Spark
Spark运行的时候,采用的是主从结构,有一个节点负责中央协调, 调度各个分布式工作节点.这个中央协调节点被称为驱动器( Driver) 节点.与之对应的工作节点被称为执行器( executor) 节 ...
Apache + Tomcat 集群的配置
公司最近新接了一个项目,客户要求WEB SERVER 必须是APACHE,,由于之前的项目一直都是NGINX,,无奈啊,,由于对方的IT又是在三哥的过度,经过一番的争执只能顺应三哥三姐的要求..
Hadoop 集群硬件配置
在local模式下的spark程序打包到集群上运行
一.前期准备前期的环境准备,在Linux系统下要有Hadoop系统,spark伪分布式或者分布式,具体的教程可以查阅我的这两篇博客: Hadoop2.0伪分布式平台环境搭建 Spark2.4.0伪分 ...
大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建图文详解
引言在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单 ...

随机推荐

基于Spring设计并实现RESTful Web Services(转)
基于Spring设计并实现RESTful Web Services 在本教程中,你将会使用Spring来创建一个具有生产力的RESTful网络服务. 为什么用RESTful网络服务? 从和Amazon ...
DoG 、Laplacian、图像金字塔详解
DoG(Difference of Gaussian) DoG (Difference of Gaussian)是灰度图像增强和角点检测的方法,其做法较简单,证明较复杂,具体讲解如下: Differe ...
MariaDB10.2.X-新特性2-支持check约束and with as
前几天写了一篇MariaDB10.2支持分析函数,大家印象中MySQL不支持with as ,check约束,那么MariaDB10.2也同样给你惊喜 1.with as MariaDB [test1 ...
Python中的split()函数的使用方法
函数:split() Python中有split()和os.path.split()两个函数,具体作用如下:split():拆分字符串.通过指定分隔符对字符串进行切片,并返回分割后的字符串列表(lis ...
信息：Could not publish server configuration for Tomcat v6.0 Server at localhost. Multiple Context
需要把server.xml更正一下,去掉重复的context.或者把整个server文件夹都删掉,重新添加服务器.也可以在server窗口中删除server,再新添加一个server.
char型变量中能存贮一个中文汉字
char型变量是用来存储Unicode编码的字符的,unicode编码字符集中包含了汉字,所以,char型变量中当然可以存储汉字啦.不过,如果某个特殊的汉字没有被包含在unicode编码字符集中,那么 ...
Google发布SSLv3漏洞简要分析报告
今天上午,Google发布了一份关于SSLv3漏洞的简要分析报告.根据Google的说法,该漏洞贯穿于所有的SSLv3版本中,利用该漏洞,黑客可以通过中间人攻击等类似的方式(只要劫持到的数据加密两端均 ...
UVa 10129 Play On Words【欧拉道路并查集】
题意:给出n个单词,问这n个单词能否首尾接龙,即能否构成欧拉道路按照紫书上的思路:用并查集来做,取每一个单词的第一个字母,和最后一个字母进行并查集的操作但这道题目是欧拉道路(下面摘自http:// ...
javascript倒计时代码
其实就是用两个时间戳相减,余数转换为日期,就是所剩的年月日时分秒,不过年份-1970 $scope.timerID = null; $scope.timerRunning = false;$scope ...
QPS、PV和需要部署机器数量计算公式(转)
术语说明: QPS = req/sec = 请求数/秒 [QPS计算PV和机器的方式] QPS统计方式 [一般使用 http_load 进行统计] QPS = 总请求数 / ( 进程总数 * 请求 ...

【Spark学习】Apache Spark集群硬件配置要求

目录

存储系统

本地磁盘

内存

网络

CPU核数

【Spark学习】Apache Spark集群硬件配置要求的更多相关文章

随机推荐

热门专题