Spark集群搭建(local、standalone、yarn)
Spark集群搭建
local本地模式
下载安装包解压即可使用,测试(2.2版本)
./bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[1] ./examples/jars/spark-examples_2.11-2.2.0.jar 100
local[1]:1代表线程数
100:spark类中需要的一个参数,越大计算的越准
集群搭建过程中,基本上是哪台机器上有datanode,就在哪台机器上装一个spark,为了维持数据本地性
standalone集群模式
spark提供的模式
主:master
从:worker
worker的作用是在机器上启动executor进程
1. 配置slaves
# A Spark Worker will be started on each of the machines listed below.
bigdata1
bigdata2
2. 配置master
bigdata3
3. 配置spark-env.sh
###jdk dir
export JAVA_HOME=/home/hadoop/jdk1.7/jdk1.7.0_51
###scala dir
export SCALA_HOME=/home/hadoop/scala
###the ip of master node of spark
export SPARK_MASTER_IP=bigdata3
export SPARK_MASTER_PORT=7077
###the max memory size of worker
export SPARK_WORKER_CORES=1 一个线程
export SPARK_WORKER_INSTANCES=1 一个物理节点只有一个worker进程
export SPARK_WORKER_MEMORY=2048m
启动
./sbin/start-all.sh
http://192.168.1.113:8080
任务测试
./bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://bigdata3:7077 --executor-memory 512m --total-executor-cores 1 ./lib/spark-examples-1.5.1-hadoop2.6.0.jar 100
这两个选项可以不用配,默认
--executor-memory:执行任务所需内存
--total-executor-cores:整个application占几核,如果为1的话只能同步执行一个executor
一个application可以切分为多个job,根据action来切分,一个application对应一个driver,driver是用来分配task到worker中执行
client模式:结果可以直接在命令行可见,提交程序的客户端,driver也在该台机器
./bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://bigdata3:7077 --executor-memory 512m --total-executor-cores 1 ./lib/spark-examples-1.5.1-hadoop2.6.0.jar 100
--deploy-mode默认是client
cluster模式:结果在提交客户端看不到,driver扔到worker所在的节点去执行,想看结果得找driver所在的worker节点。
./bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://bigdata3:7077 --deploy-mode cluster --executor-memory 512m --total-executor-cores 1 ./lib/spark-examples-1.5.1-hadoop2.6.0.jar 100
standalone做HA
可以使用zookeeper做热备,master挂了另一个自动接管
可以使用本地文件系统做冷备,如果master挂了,需要手动启动另一个master且手动读取本地文件系统的元数据信息。
配置spark-env.sh
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=bigdata1:2181,bigdata2:2181,bigdata3:2181"
启动zookeeper
重启spark集群
配置热备master
将备用节点的spark-env.sh中的export SPARK_MASTER_IP=bigdata2改为本节点名
启动备用master
bigdata2节点上 ./sbin/start-master.sh
此时bigdata3上的master状态为alive,bigdata2上的master状态为standby
节点接管时间1-2分钟,在这段时间内无法提交新的应用程序,正在跑的应用不影响
相当于运行了一个spark应用程序,在bigdata3:8080页面可看到
./spark-shell --master spark://bigdata3:7077
自动创建一个应用程序,并且提供了sparkcontext,可以直接使用
Spark_Yarn集群模式搭建
配置spark-env.sh
###jdk dir
export JAVA_HOME=/home/hadoop/jdk1.7/jdk1.7.0_51
###scala dir
export SCALA_HOME=/home/hadoop/scala
###the ip of master node of spark
export SPARK_MASTER_IP=bigdata3
export SPARK_MASTER_PORT=7077
###the max memory size of worker
export SPARK_WORKER_CORES=1
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_MEMORY=2048m
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=bigdata1:2181,bigdata2:2181,bigdata3:2181"
###hadoop configuration file dir
export HADOOP_HOME=/home/hadoop/hadoop-2.6.0
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_HOME=/home/hadoop/spark/
export SPARK_JAR=$SPARK_HOME/lib/spark-assembly-1.5.1-hadoop2.6.0.jar
export PATH=$SPARK_HOME/bin:$PATH
此时不能./sbin/start-all.sh了,start-all.sh会启动master,和yarn冲突,产生资源争抢
此时环境已经准备好了,跑任务试试
./spark-submit --class org.apache.spark.examples.SparkPi --master yarn-client --executor-memory 1G --num-executors 1 ./../lib/spark-examples-1.5.1-hadoop2.6.0.jar 100
写yarn-client会自动的找active的resourcemanager
执行过程
yarn如何run spark
会将代码example jar包、assembly jar包提交到HDFS中去,driver驱动程序会在本地运行example jar,example中是spark代码,提交上去需要一个spark的环境,然后找到spark的一些相关信息
master和resourcemanager是分配资源的
driver是分配task的
yarn模式下,resourcemanager分配资源,指定spark任务跑在哪几个节点,然后在这几个节点上会有对应的nodemanager创建container,container中跑的任务就是由driver来指定的。
driver找resourcemanager申请资源,resourcemanager给driver分配资源,driver向对应的节点再次申请资源,找nodemanager,nodemanager创建container来跑任务, driver将task任务发送到container中执行,task任务执行完后会将结果返回给driver,当所有task任务跑完后,driver会告诉resourcemanager,自己的任务跑完了,resourcemanager就会通知nodemanager销毁container回收资源。
在yarn环境中,driver叫做application master
yarn
resourcemanager
nodemanager
applicationmaster
container
yarn-cluster
./spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster --executor-memory 1G --num-executors 1 ./../lib/spark-examples-1.5.1-hadoop2.6.0.jar 100
client和cluster的区别:driver所在的位置不一样
client模式:driver在执行任务的客户端
cluster模式:driver会放在集群中某个从节点执行,任务名:package包+类名

在http://192.168.1.111:8088中点击任务进去点击logs可以看到任务执行结果。
Spark集群搭建(local、standalone、yarn)的更多相关文章
- (四)Spark集群搭建-Java&Python版Spark
Spark集群搭建 视频教程 1.优酷 2.YouTube 安装scala环境 下载地址http://www.scala-lang.org/download/ 上传scala-2.10.5.tgz到m ...
- Spark集群搭建_Standalone
2017年3月1日, 星期三 Spark集群搭建_Standalone Driver: node1 Worker: node2 Worker: node3 1.下载安装 下载地址 ...
- Spark集群搭建_YARN
2017年3月1日, 星期三 Spark集群搭建_YARN 前提:参考Spark集群搭建_Standalone 1.修改spark中conf中的spark-env.sh 2.Spark on ...
- hadoop+spark集群搭建入门
忽略元数据末尾 回到原数据开始处 Hadoop+spark集群搭建 说明: 本文档主要讲述hadoop+spark的集群搭建,linux环境是centos,本文档集群搭建使用两个节点作为集群环境:一个 ...
- Spark集群搭建简要
Spark集群搭建 1 Spark编译 1.1 下载源代码 git clone git://github.com/apache/spark.git -b branch-1.6 1.2 修改pom文件 ...
- Spark集群搭建简配+它到底有多快?【单挑纯C/CPP/HADOOP】
最近耳闻Spark风生水起,这两天利用休息时间研究了一下,果然还是给人不少惊喜.可惜,笔者不善JAVA,只有PYTHON和SCALA接口.花了不少时间从零开始认识PYTHON和SCALA,不少时间答了 ...
- spark集群搭建
文中的所有操作都是在之前的文章scala的安装及使用文章基础上建立的,重复操作已经简写: 配置中使用了master01.slave01.slave02.slave03: 一.虚拟机中操作(启动网卡)s ...
- Spark集群搭建中的问题
参照<Spark实战高手之路>学习的,书籍电子版在51CTO网站 资料链接 Hadoop下载[链接](http://archive.apache.org/dist/hadoop/core/ ...
- Spark 集群搭建
0. 说明 Spark 集群搭建 [集群规划] 服务器主机名 ip 节点配置 s101 192.168.23.101 Master s102 192.168.23.102 Worker s103 19 ...
随机推荐
- Mac下配置mnmp环境
虽然比较喜欢玩下新语言, 但是php还是常会用到的. lnmp很多人都听过, 但是不能用在Mac上面, 另外还有个mnpp但在osx 10.8.3下面跑不起来.所以自己手动一步步安装, 整理了方便安装 ...
- IntelliJ IDEA(2017)下载并破解
idea激活,JetBrain旗下软件激活 我在修改这个博主的文章再添加了code码 http://blog.csdn.net/qq_24504453/article/details/77407329 ...
- instantclient_11_2 连接oracle数据
(1)首先你要先下载instantclient (解压如下),修改你 instantclient/network/admin/tnsnames.ora 文件,将你oracle的服务器地址写上 ...
- [译]GLUT教程 - 整合代码1
Lighthouse3d.com >> GLUT Tutorial >> Input >> The Code So Far 以下是前面几节的完整整合代码: #inc ...
- 给定一个字符串s,你可以从中删除一些字符,使得剩下的串是一个回文串。如何删除才能使得回文串最长呢? 输出需要删除的字符个数。
// ConsoleApplication1.cpp : 定义控制台应用程序的入口点. // #include "stdafx.h" #include<iostream> ...
- MIC的异步传输
关于signal和wait,属于异步传输的语法,即CPU端无需等待offload语句返回,即可异步运行下面的代码.一般用于启动MIC代码段后,并发执行CPU代码,达到同步执行的目的.另外一种用法是使用 ...
- SQLSERVER---- 通过位运算更改标志位
当给多个中心传输数据时,怎么标记哪些单位推送了,哪些单位没有更新,如果单独设置一个字段,一来说,扩展不足,另外会造成数据库冗余,这里可以采用SQLSERVER的位运算. 比如说,更新标志位为0,长度为 ...
- android 小游戏之数字猜猜
http://www.cnblogs.com/whatbeg/p/4152333.html
- Android string.xml 显示特殊符号
项目中要在string.xml 中显示特殊符号,如@号冒号等,直接写肯定不行啦..只能考虑使用ASCII码进行显示: 省略号 …@号 @:号 :空格 以下为常见的ASCII十进制交换编码: --& ...
- Ant自己主动编译打包&公布 android项目
Eclipse用起来尽管方便,可是编译打包android项目还是比較慢,尤其将应用打包公布到各个渠道时,用Eclipse手动打包各种渠道包就有点不切实际了,这时候我们用到Ant帮我们自己主动编译打包了 ...