Spark（一）-- Standalone HA的部署

首先交代一下集群的规模和配置

集群有六台机器，均是VM虚拟机，每台256M的内存（原谅楼主物理机硬件不太给力）

主机名分别是cloud1~cloud6

每台机器上都装有jdk6,和hadoop-2.2.0

其中cloud4~cloud6上装有zookeeper

cloud1为hdfs文件系统的启动节点

cloud3为yarn资源管理的启动节点

（注意每台机器都配置好SSH免密码登录，可以在下面的hadoop部署链接中查看具体步骤）

有关hadoop和zookeeper的部署请看：

hadoop-2.2.0集群安装部署

zookeeper集群安装部署

本次实验目标是在六台虚拟机上装上spark，并且将cloud1作为主节点

首先将下载好的spark和scala包上传到cloud1上

scala下载地址

spark下载地址

注意安装时尽量不要使用root用户（这里使用cloud自定义用户）

安装scala：

tar –zxvf scala-2.10.5.tgz

mv scala-2.10.5 scala

安装spark：

tar -zxvf spark-1.3.0-bin-hadoop2.3.tgz

mv spark-1.3.1 spark

配置环境变量：

vi /etc/profile

export SCALA_HOME=/home/cloud/scala

export SPARK_HOME=/home/cloud/spark

export PATH=$$SPARK_HOME/bin:$SCALA_HOME/bin:$PATH

source /etc/profile

使用scala -version查看是否配置成功

进入spark目录，修改文件slaves

vi conf/slaves

cloud1

cloud2

cloud3

cloud4

cloud5

cloud6

修改spark-env.sh

vi conf/spark-env.sh

export SPARK_MASTER_IP=cloud1

export SPARK_WORKER_MEMORY=128m

export JAVA_HOME=/usr/java/jdk

export SCALA_HOME=/home/cloud/scala

export SPARK_HOME=/home/cloud/spark

export HADOOP_CONF_DIR=/home/cloud/hadoop/etc/hadoop

export SPARK_LIBRARY_PATH=$$SPARK_HOME/lib

export SCALA_LIBRARY_PATH=$SPARK_LIBRARY_PATH

export SPARK_WORKER_CORES=1

export SPARK_WORKER_INSTANCES=1

export SPARK_MASTER_PORT=7077

将cloud1上配置好的spark和scala通过scp复制到其他各个节点上（注意其他节点上的profile文件也要一致）

scp -r spark cloud2:/home/cloud/

scp -r scala cloud2:/home/cloud/

scp -r spark cloud3:/home/cloud/

scp -r scala cloud3:/home/cloud/

scp -r spark cloud4:/home/cloud/

scp -r scala cloud4:/home/cloud/

scp -r spark cloud5:/home/cloud/

scp -r scala cloud5:/home/cloud/

scp -r spark cloud6:/home/cloud/

scp -r scala cloud6:/home/cloud/

通过

sbin/start-all.sh

启动spark集群

http://cloud1:8080可以监控spark Standalone集群

如果要启动spark-shell连接到spark Standalone集群，有两种方法：

a：使用MASTER=spark://cloud1:7077 bin/spark-shell启动

b：配置在conf/spark-env.sh增加：

export MASTER=spark://$${SPARK_MASTER_IP}:${SPARK_MASTER_PORT}

然后使用使用./spark-shell启动

基于文件系统的单点恢复

主要用于开发或测试环境下

当spark提供目录保存spark Application和worker的注册信息，并将他们的恢复状态写

入该目录中，这时，一旦Master发生故障，就可以通过重新启动Master进程（sbin/start-master.sh），恢复已运行的spark Application和worker的注册信息。

基于文件系统的单点恢复，主要是在spark-env里对SPARK_DAEMON_JAVA_OPTS设置：

参数含义

spark.deploy.recoveryMode：设成FILESYSTEM ，缺省值为NONE

spark.deploy.recoveryDirectory：Spark 保存恢复状态的目录

export SPARK_DAEMON_JAVA_OPTS=”-Dspark.deploy.recoveryMode=FILESYSTEM -

Dspark.deploy.recoveryDirectory=/home/cloud/spark/recovery”

基于zookeeper的Standby Masters

参数含义

spark.deploy.recoveryMode：设置成ZOOKEEPER，缺省值为 NONE

spark.deploy.zookeeper.url： ZooKeeper URL(如192.168.100.111:2181,192.168.100.112:2181…)

spark.deploy.zookeeper.dir：ZooKeeper 保存恢复状态的目录，缺省为 /spark

Master可以在任何时候添加或移除。如果发生故障切换，新的Master将联系所有以前注册的Application和Worker告知Master的改变。

export SPARK_DAEMON_JAVA_OPTS=”-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=cloud4:2181,cloud5:2181,cloud6:2181, -

Dspark.deploy.zookeeper.dir=/home/cloud/spark”

对于初次接触Spark的一些常见的问题：

1.小的数据量，如G级别，适合在Spark上运行吗？

大数据和数据大是两个不同的概念，大数据处理强调的是处理的速度，数据量的大小反而不是关键。例如，1G的数据要求在0.005秒之内处理完毕

2.Standalone和ON YARN模式有什么区别？

两者都是部署在多台节点上的分布式环境，Standalone从名字上就可以看出是Spark自己的集群，而ON YARN模式下，YARN提供了多框架并存的机制，不仅仅是Spark。并且还提供对多个框架之间是分配和调度资源的管理。

3.运行Spark一定需要Hadoop吗？

不一定，如果是学习需要，完全可以将Spark安装在local模式下，连HDFS都不需要

但是一般的商业部署架构为：Hadoop+Yarn+Spark

Hadoop的HDFS是大数据处理首选的文件系统，Spark需要历史数据，而这些数据就在HDFS中

Yarn多框架并存，资源管理保证了集群的高效和可用性

Spark应对大数据处理的各种场景，一套搞定，one stack to rule them all

Spark（一）-- Standalone HA的部署的更多相关文章

【Spark】Spark的Standalone模式安装部署
Spark执行模式 Spark 有非常多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则执行在集群中,眼下能非常好的执行在 Yarn和 Mesos 中.当然 Spark 还有自带的 St ...
spark运行模式之二：Spark的Standalone模式安装部署
Spark运行模式 Spark 有很多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则运行在集群中,目前能很好的运行在 Yarn和 Mesos 中,当然 Spark 还有自带的 Stan ...
spark standalone ha spark submit
when you build a spark standalone ha cluster, when you submit your app, you should send it to the l ...
Spark standalone HA
配置Spark standalone HA 主机:node1,node2,node3 master: node1,node2 slave:node2,node3 修改配置文件: node1,node3 ...
Spark集群基于Zookeeper的HA搭建部署笔记（转）
原文链接:Spark集群基于Zookeeper的HA搭建部署笔记 1.环境介绍 (1)操作系统RHEL6.2-64 (2)两个节点:spark1(192.168.232.147),spark2(192 ...
CentOS6安装各种大数据软件第十章：Spark集群安装和部署
相关文章链接 CentOS6安装各种大数据软件第一章:各个软件版本介绍 CentOS6安装各种大数据软件第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件第三章:Linux基础 ...
spark运行模式之一：Spark的local模式安装部署
Spark运行模式 Spark 有很多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则运行在集群中,目前能很好的运行在 Yarn和 Mesos 中,当然 Spark 还有自带的 Stan ...
hibench 对CDH5.13.1进行基准测试（测试项目hadoop\spark\)HDFS作HA高可靠性
使用CDH 5.13.1部署了HADOOP集群之后,需要进行基准性能测试. 一.hibench 安装 1.安装位置要求. 因为是全量安装,其中有SPARK的测试(SPARK2.0). 安装位置在SPA ...
SPARK在linux中的部署，以及SPARK中聚类算法的使用
眼下,SPARK在大数据处理领域十分流行.尤其是对于大规模数据集上的机器学习算法.SPARK更具有优势.一下初步介绍SPARK在linux中的部署与使用,以及当中聚类算法的实现. 在官网http:// ...

随机推荐

POJ3468（线段树区间增加，区间求和）
A Simple Problem with Integers Time Limit: 5000MS Memory Limit: 131072K Total Submissions: 81519 ...
udp端口测试连接
udp端口测试连接 http://www.361way.com/nc-udp-port/2949.html
利用php设置url转发 - 解决空间不提供子目录绑定功能的问题
由于很多新手都是使用的虚拟空间都是最便宜的那种,这空间一般不支持子目录绑定.但是很多朋友又想设置几个不同的二级域名访问不同的网站程序.于是大家找到了域名url转发,但是由于国家政策的原因,许多服务商暂 ...
【UOJ UNR #1】火车管理可持久化线段树
用可持久化线段树维护每个站的第一辆车和每个站的前一次更新的位置即可. #include<iostream> #include<cstring> #include<cstd ...
[BZOJ1227][SDOI2009]虔诚的墓主人组合数+树状数组
1227: [SDOI2009]虔诚的墓主人 Time Limit: 5 Sec Memory Limit: 259 MBSubmit: 1433 Solved: 672[Submit][Stat ...
hdu5079
这道题的难点在于思考dp表示什么首先可以令ans[len]表示白色子矩阵边长最大值大于等于len的方案数则ans[len]-ans[len+1]就是beautifulness为len的方案数白色子 ...
NetTcpBinding 类nettcpbinding的属性和方法
一种适合于跨计算机通信的安全可靠的绑定. 继承层次结构 System.Object System.ServiceModel.Channels.Binding System.Servi ...
神器mimikatz使用命令方法总结
神器mimikatz使用命令方法总结文章地址:http://www.isharepc.com/300.html mimikatz是一款功能强大的轻量级调试神器,通过它你可以提升进程权限注入进程读取进 ...
母亲的牛奶(milk) (BFS)
问题 A: 母亲的牛奶(milk) 时间限制: 1 Sec 内存限制: 64 MB提交: 14 解决: 8[提交][状态][讨论版] 题目描述农民约翰有三个容量分别是A.B.C升的桶,A.B.C ...
[BZOJ4817]树点涂色
第一个操作比较麻烦,但可以看出它和lct里的access操作差不多,所以可以利用lct的性质巧妙维护操作1 直接用lct维护树中同颜色的链(因为染色操作是从$x$染到根所以同颜色的点一定形成一条链), ...

Spark（一）-- Standalone HA的部署

Spark（一）-- Standalone HA的部署的更多相关文章

随机推荐

热门专题