Spark之standalone模式
standalone
hdfs:namenode是主节点进程,datanode是从节点进程
yarn:resourcemanager是主节点进程,nodemanager是从节点进程
hdfs和yarn是hadoop里面的节点进程信息
在spark里面有
master:主节点进程
worker:从节点进程
使用standalone模式:
将$SPARK_HOME/conf/目录下的slaves.template修改为slaves后添加主机名,如果有5个台机器就应该进行如下slaves的配置hadoop001~hadoop005
如果是多台机器,那么每台机器都在相同的路径下部署spark
将$SPARK_HOME/conf/目录下的spark-env.sh.template修改为spark-env.sh并添加JAVA_HOME的环境变量,否则会报错
配置完成后启动
在$SPARK_HOME/sbin/目录下执行./start-all.sh,通过jps检测会有Master和Worker两个节点进程,就说明standalone模式安装成功。
web界面访问:
MasterWebUI:http://hadoop000:8080
spark提交作业时指定的端口:spark://hadoop000:7077
提交作业到standalone模式
$SPARK_HOME/bin/执行./pyspark --master spark://hadoop000:7077
standalone模式spark-submit运行
$SPARK_HOME/bin/执行./spark-submit --master spark://hadoop000:7077 --name spark-standalone /home/hadoop/script/spark0402.py hdfs://hadoop000:8020/hello.txt hdfs://hadoop000:8020/wc/output
如果使用standalone模式,而且节点个数大于1的时候,如果使用本地文件测试,必须要保证每个节点上都有本地测试文件,可以直接用hdfs进行测试。
例如:hdfs://hadoop000:8020/hello.txt hdfs://hadoop000:8020/wc/output
yarn运行模式
spark on yarn(spark作为客户端,spark需要做的事情是提交作业到yarn上执行)
yarn和standalone的区别:
yarn模式:只需要一个节点,然后提交作业即可,不需要spark集群的(不需要启动Maser和Worker)
standalone模式:在spark集群上的每个节点都需要部署spark,然后需要启动spark集群(需要Maser和Worker进程节点)
启动yarn:
$SPARK_HOME/bin/执行./spark-submit --master yarn --name spark-yarn /home/hadoop/script/spark0402.py hdfs://hadoop000:8020/hello.txt hdfs://hadoop000:8020/wc/output
运行yarn模式前提是需要指定hadoop_conf_dir或者yarn_conf_dir的配置文件目录
将$HADOOP_HOME/etc/hadoop目录,添加到$SPARK_HOME/conf/目录下的spark-env.sh文件中。例如:HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
yarn支持client和cluster模式:driver运行在哪里
client:提交作业的进程是不能停止的否则作业就挂了
cluster:提交完作业,那么提交作业端就可以断开,因为driver是运行在am里面的
pyspark/spark-shell:交互式运行程序,只能运行在client里面
如何查看已经运行完的yarn的日志信息:yarn logs -applicationId <applicationId>
日志聚合参看:10小时入门Hadoop大数据中的5-12 JobHistory使用
Spark之standalone模式的更多相关文章
- Spark的StandAlone模式原理和安装、Spark-on-YARN的理解
Spark是一个内存迭代式运算框架,通过RDD来描述数据从哪里来,数据用那个算子计算,计算完的数据保存到哪里,RDD之间的依赖关系.他只是一个运算框架,和storm一样只做运算,不做存储. Spark ...
- 【Spark】Spark的Standalone模式安装部署
Spark执行模式 Spark 有非常多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则执行在集群中,眼下能非常好的执行在 Yarn和 Mesos 中.当然 Spark 还有自带的 St ...
- spark运行模式之二:Spark的Standalone模式安装部署
Spark运行模式 Spark 有很多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则运行在集群中,目前能很好的运行在 Yarn和 Mesos 中,当然 Spark 还有自带的 Stan ...
- 008 Spark中standalone模式的HA(了解,知道怎么配置即可)
standalone也存在单节点问题,这里主要是配置两个master. 1.官网 2.具体的配置 3.配置方式一(不是太理想) 这种知识基于未来可以重启,但是不能在宕机的时候提供服务. 方式一:Sin ...
- Spark在StandAlone模式下提交任务,spark.rpc.message.maxSize太小而出错
1.错误信息org.apache.spark.SparkException: Job aborted due to stage failure:Serialized task 32:5 was 172 ...
- 一步一步搭建:spark之Standalone模式+zookeeper之HA机制
理论参考:http://www.cnblogs.com/hseagle/p/3673147.html 基于3台主机搭建:以下仅是操作步骤,原理网上自查 :1. 增加ip和hostname的对应关系,跨 ...
- Spark部署三种方式介绍:YARN模式、Standalone模式、HA模式
参考自:Spark部署三种方式介绍:YARN模式.Standalone模式.HA模式http://www.aboutyun.com/forum.php?mod=viewthread&tid=7 ...
- Spark进阶之路-Standalone模式搭建
Spark进阶之路-Standalone模式搭建 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Spark的集群的准备环境 1>.master节点信息(s101) 2&g ...
- Spark standalone模式的安装(spark-1.6.1-bin-hadoop2.6.tgz)(master、slave1和slave2)
前期博客 Spark运行模式概述 Spark standalone简介与运行wordcount(master.slave1和slave2) 开篇要明白 (1)spark-env.sh 是环境变量配 ...
随机推荐
- DBeaver数据库管理工具连接Sybase数据库
DBeaver数据库管理工具连接Sybase数据库 1. 下载DBeaver 官方网站:http://dbeaver.jkiss.org/ DBeaver5.3.1解压缩版(不用安装和配置):http ...
- centOS 安装 Webmin
http://www.webmin.com/rpm.html 修改配置文件在这里: /etc/webmin/miniserv.conf
- Guitar Pro怎样可以快速打出三连音?
相信很多的音乐爱好初学者在使用入门编曲软件Guitar Pro的时候,都会碰到这样一个问题,很多乐谱中都出现了三连音,那么我们使用Guitar Pro的时候,如何能够打出三连音呢? 三连音,就是三等分 ...
- log4j的基本使用方法
本文转载自http://www.codeceo.com/article/log4j-usage.html 一.基本用法 1.log4j需要jar包log4j-1.2.14.jar,链接: http:/ ...
- DataSnap下的分包获取
DataSnap下通过TQuery—TDataSetProvider—TClientDataSet获取数据,如果是主从数据,则每条主表记录都会触发从表数据的获取. 这种获取和组织数据的方式有一个问题: ...
- BFS广度优先 vs DFS深度优先 for Binary Tree
https://www.geeksforgeeks.org/bfs-vs-dfs-binary-tree/ What are BFS and DFS for Binary Tree? A Tree i ...
- P3833 [SHOI2012]魔法树
思路 树剖板子 注意给出点的编号是从零开始的 代码 #include <cstdio> #include <algorithm> #include <cstring> ...
- 深度学习课程笔记(十一)初探 Capsule Network
深度学习课程笔记(十一)初探 Capsule Network 2018-02-01 15:58:52 一.先列出几个不错的 reference: 1. https://medium.com/ai% ...
- Bytom猜谜合约使用指南
准备工作: 1.安装全节点钱包V1.0.5以上并同步完成: 2.已经发行一种资产,发行资产的方法具体见文章<如何在Bytom上发布资产?> 3.准备好一些BTM作为手续费: 设置谜语(锁定 ...
- Jenkins-Publish HTML reports
创建job:testreport 在job中添加: 在Jenkins服务器上: 创建目录: .jenkins/jobs/{job名称}/workspace/htmlreports 注:此处job ...