Spark standalone运行模式

Spark Standalone 部署配置

Standalone架构

手工启动一个Spark集群

https://spark.apache.org/docs/latest/spark-standalone.html

通过脚本启动集群

编辑slaves,其实把worker所在节点添加进去

配置spark-defaults.conf

启动集群（我这里是三节点集群）

在浏览器打开页面

修改 spark-env.sh 文件

先停止

在重新启动一下

再次访问网页

下面跑一个Job实例

./spark-submit --master spark://sparking:7077 --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.1-hadoop2.6.0.jar

从过程反馈信息可以看出来计算Pi的值

可以看到运行完成了。

从页面也可以看出来

Spark Standalone HA

官方参考地址

https://spark.apache.org/docs/latest/spark-standalone.html#high-availability

SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=node1:2181,node2:2181 -Dspark.deploy.zookeeper.dir=/my-spark"

默认是这样连接的。

因为刚才修改了文件，现在把修改好的文件分发到另外两个节点去

scp -r spark-env.sh  spark@node1:/home/spark/app/spark-1.6.-bin-hadoop2./conf/

scp -r spark-env.sh  spark@node2:/home/spark/app/spark-1.6.-bin-hadoop2./conf/

然后重新启动一下

可以看到起来了

Spark Standalone 运行架构解析

Spark基本工作流程

Spark Local模式

Spark Local cluster 模式

Spark standalone 模式

Spark standalone 详细过程解析

Spark standalone 模式下运行WordCount

在IDEA里把写好的wordcount程序打包（我这里用的是scala版本写的）

可以看到打包成功！

参考代码

package com.gong.spark

import org.apache.spark.{SparkConf, SparkContext}

object MyWordCount {

 def main(args: Array[String]):Unit={

   //参数检查

 if(args.length<){

   System.err.println("Usage:MyWordCount <input> <output>")

   System.exit()

 }

   //获取参数

  val input=args()

  val output=args()

    //创建SparkContext

     val conf=new SparkConf().setAppName("myWordCount")

    val sc=new SparkContext(conf)

   //读取数据

  val lines=sc.textFile(input)

   //进行相关计算

  val resultRdd=lines.flatMap(_.split(" ")).map((_,)).reduceByKey(_+_)

   //保存结果

   resultRdd.saveAsTextFile(output)

   sc.stop()

 }

}

把包上传到集群上（用rz命令就可以了）

在这之前我已经在我的hdfs上上次了work.txt文件

下面在集群里跑一下程序

./spark-submit --master spark://sparking:7077 --class com.gong.spark.MyWordCount /home/spark/testspark/learning-spark-1.0-SNAPSHOT.jar  /home/spark/testspark/work.txt  /home/spark/testspark/result5

可以看到运行完成了（在这里我说下运行这个程序需要网络良好才可以，因为我的实验室的网络非常差，所以我试了好多次）！！！！！

在hdfs上查看运行结果

Spark standalone运行模式的更多相关文章

Spark standalone运行模式（图文详解）
不多说,直接上干货! 请移步 Spark standalone简介与运行wordcount(master.slave1和slave2) Spark standalone模式的安装(spark-1.6. ...
【原】Spark不同运行模式下资源分配源码解读
版权声明:本文为原创文章,未经允许不得转载. 复习内容: Spark中Task的提交源码解读 http://www.cnblogs.com/yourarebest/p/5423906.html Sch ...
Spark的运行模式详解
Spark的运行模式是多种多样的,那么在这篇博客中谈一下Spark的运行模式一:Spark On Local 此种模式下,我们只需要在安装Spark时不进行hadoop和Yarn的环境配置,只要将S ...
五、standalone运行模式
在上文中我们知道spark的集群主要有三种运行模式standalone.yarn.mesos,其中常被使用的是standalone和yarn,本文了解一下什么是standalone运行模式,它的运行流 ...
Spark的运行模式(1)--Local和Standalone
Spark一共有5种运行模式:Local,Standalone,Yarn-Cluster,Yarn-Client和Mesos. 1. Local Local模式即单机模式,如果在命令语句中不加任何配置 ...
Spark多种运行模式
1.测试或实验性质的本地运行模式(单机) 该模式被称为Local[N]模式,是用单机的多个线程来模拟Spark分布式计算,通常用来验证开发出来的应用程序逻辑上是否有问题. 其中N代表可以使用N个线程, ...
Spark的运行模式(2)--Yarn-Cluster和Yarn-Client
3. Yarn-Cluster Yarn是一种统一资源管理机制,可以在上面运行多种计算框架.Spark on Yarn模式分为两种:Yarn-Cluster和Yarn-Client,前者Driver运 ...
spark的运行模式
1.local(本地模式) 单机模式,通常用来测试将spark应用以多线程方式,直接运行在本地本地模式可以启动多个executor不过上限不能超过cpu数 2.standalone(独立模式) 独 ...
017 Spark的运行模式（yarn模式）
1.关于mapreduce on yarn 来提交job的流程 yarn=resourcemanager(RM)+nodemanager(NM) client向RM提交任务 RM向NM分配applic ...

随机推荐

uDig配图与GeoServer添加Style
软件介绍: uDig是一个开源的桌面GIS软件,可以进行shp与栅格数据地图文件的编辑和查看,对OpenGIS标准,关于互联网GIS.网络地图服务器和网络功能服务器有特别的加强.通常和GeoServe ...
【error】segmentation fault分析
前言调试代码的时候,可能会出现segmentation fault的bug,很难找到原因,在此总结一下可能的原因. SIGSEGV 原因分析 1.程序中的变量没有进行检查: 比如,没有对变量的大小进 ...
取消word中所有超链接
我用的是M-O-W2007,最近做了一个文档,里面很多网上拷下来的图片,很多都有超链接,不想一个一个的取消,请高手帮忙教下有没有措施一次性都取消? 最佳答案: 三种方法,任意选用其中之一: 第一种方法 ...
2015 PHP框架调查结果出炉，Laravel最受欢迎！
日前,SitePoint花了一个月时间进行了有关PHP框架使用情况的调查,通过调查结果所示,无论是在团队项目还是个人项目:无论是国家或是年龄层次,Laravel都是使用最多的一款框架. 其中,最流行的 ...
spfa【模板】
#include<iostream> #include<cstdio> #include<cstring> #include<queue> using ...
移动端元素外面使用伪类after加边框导致其内部元素无法选中
解决方法:给内部元素增加属性 position: relative; z-index: 3; 这样就能选中其内部元素了.
多个sshkey 指定key来clone仓库
Something like this should work (suggested by orip): ssh-agent bash -c 'ssh-add /somewhere/yourkey; ...
捷报 FastAdmin 国内开源排名第 13 名
捷报 FastAdmin 国内开源排名第 13 名 FastAdmin 是一款基于 ThinkPHP 5 + Bootstrap 的后台开源框架. 去年是第 35 名. 今年是第 13 名,有进步.
spring的IDE：STS (Spring Tool Suite)
STS 比 eclipse 新增的内容: 在 New =>Other... 中新增了 Spring 文件夹,里面新增了 Spring Legacy Project 和 Spring Starte ...
FineUI中在一个页面中通过控件事件(JS)向父页面中添加Tab页
1.在前台页面尾部添加js代码 </form> <script type="text/javascript"> var basePath ...

Spark standalone运行模式

Spark standalone运行模式的更多相关文章

随机推荐

热门专题