Spark 1.1.0 安装测试 (分布式 Yarn-cluster模式)

Spark版本：spark-1.1.0-bin-hadoop2.4 (下载：http://spark.apache.org/downloads.html)

服务器环境的情况，请参考上篇博文 hbase centOS生产环境配置笔记

(hbase-r是ResourceManager; hbase-1, hbase-2, hbase-3是NodeManager)

1. 安装和配置 (yarn-cluster模式的文档参考：http://spark.apache.org/docs/latest/running-on-yarn.html)

　　yarn-cluster模式运行程序，spark会将程序jar包保存至hdfs，然后自动通过yarn的配置，分布式运行在各台NodeManager上。故这个模式下，无须指定Spark的master和slaves。

　　(1) 安装scala

　　下载rpm包，安装

　　(1) 本次Spark将在所有机器上安装：hbase-0, hbase-r, hbase-1, hbase-2, hbase-3。

　　解压后目录中的文件拷贝至 /hbase/spark，以下配置文件的路径都是相对于该目录下。全部配置好了以后，安装目录，环境变量等，都将复制在所有机器上。

　　(2) 环境变量, ~/.bashrc

export SPARK_HOME="/hbase/spark"

export SCALA_HOME="/usr/share/scala"
export SPARK_CLASSPATH="$SPARK_CLASSPATH:/hbase/hbase/lib"

　　(3) 设置Spark Properties，conf/spark-defaults.conf

# options for Yarn-cluster mode

spark.yarn.applicationMaster.waitTries

spark.yarn.submit.file.replication

spark.yarn.preserve.staging.files               false

spark.yarn.scheduler.heartbeat.interval-ms

spark.yarn.max.executor.failures

spark.yarn.historyServer.address                hbase-r:

spark.yarn.executor.memoryOverhead              512

spark.yarn.driver.memoryOverhead                512

　　(4) 在防火墙上设置所有机器之间互相可以内网访问所有端口(单独设置特定的端口范围太过麻烦了，hadoop, hbase, spark, yarn, zookeeper等各种监听端口太多了)。

　　(3) 测试 java example

./bin/spark-submit --class org.apache.spark.examples.JavaSparkPi --master yarn-cluster --num-executors 3 --driver-memory 1024m  --executor-memory 1024m --executor-cores 1 lib/spark-examples*.jar 20

　　运行成功后，在控制台可以看到

     yarnAppState: FINISHED

     distributedFinalState: SUCCEEDED

     appTrackingUrl: http://hbase-r:18088/proxy/application_1414738706972_0011/A

　　然后访问 appTrackingUrl，可以看到如下结果，可以看到 FinalStatus：SUCCEEDED

                    Application Overview

         User:       webadmin

         Name:       org.apache.spark.examples.JavaSparkPi

   Application Type: SPARK

   Application Tags:

        State:       FINISHED

     FinalStatus:    SUCCEEDED

       Started:      -Nov- ::

       Elapsed:      43sec

     Tracking URL:   History

     Diagnostics:

   ApplicationMaster

    Attempt Number       Start Time          Node     Logs

                    -Nov- :: hbase-: logs

Spark 1.1.0 安装测试 (分布式 Yarn-cluster模式)的更多相关文章

OpenCV4.4.0 安装测试 Installation & Examination (Ubuntu18.04, Ubuntu 20.04)
OpenCV4.4.0 安装测试 Installation & Examination (Ubuntu18.04, Ubuntu 20.04) 单纯简单的 OpenCV 安装配置方法,在这个地 ...
Spark基本工作流程及YARN cluster模式原理(读书笔记)
Spark基本工作流程及YARN cluster模式原理转载请注明出处:http://www.cnblogs.com/BYRans/ Spark基本工作流程相关术语解释 Spark应用程序相关的几 ...
spark yarn cluster模式下任务提交和计算流程分析
spark可以运行在standalone,yarn,mesos等多种模式下,当前我们用的最普遍的是yarn模式,在yarn模式下又分为client和cluster.本文接下来将分析yarn clust ...
Apache Spark 2.2.0 中文文档 - 集群模式概述 | ApacheCN
集群模式概述该文档给出了 Spark 如何在集群上运行.使之更容易来理解所涉及到的组件的简短概述.通过阅读应用提交指南来学习关于在集群上启动应用. 组件 Spark 应用在集群上作为独立的进程组 ...
Ubuntu 14.04 LTS 安装 spark 1.6.0 （伪分布式）-26号开始
需要下载的软件: 1.hadoop-2.6.4.tar.gz 下载网址:http://hadoop.apache.org/releases.html 2.scala-2.11.7.tgz 下载网址:h ...
spark 1.6.0 安装与配置（spark1.6.0、Ubuntu14.04、hadoop2.6.0、scala2.10.6、jdk1.7）
前几天刚着实研究spark,spark安装与配置是入门的关键,本人也是根据网上各位大神的教程,尝试配置,发现版本对应最为关键.现将自己的安装与配置过程介绍如下,如有兴趣的同学可以尝试安装.所谓工欲善其 ...
spark在不同环境下的搭建|安装|local|standalone|yarn|HA|
spark的集群环境安装搭建 1.spark local模式运行环境搭建常用于本地开发测试,本地还分为local单线程和local-cluster多线程; 该模式被称为Local[N]模式,是用单机 ...
OpenERP7.0安装后提示“not supported" ，如何去掉此提示
转自:http://blog.csdn.net/vnsoft/article/details/17581831 下载了新版本的OpenERP7.0安装测试,发现在登录后会提示如图的内容. 经过测试发现 ...
理解Spark运行模式（二）(Yarn Cluster)
上一篇说到Spark的yarn client运行模式,它与yarn cluster模式的主要区别就是前者Driver是运行在客户端,后者Driver是运行在yarn集群中.yarn client模式一 ...

随机推荐

CSS3初学篇章_3（属性选择符/字体样式/元素样式）
属性选择符选择符说明 E[att] 选择具有att属性的E元素. E[att="val"] 选择具有att属性且属性值等于val的E元素. E[att~=&quo ...
用外部表的方式查询当天数据库alert日志文件
1环境准备 2查询ORA-开头的错误
php获取真实IP地址
function user_realip() { if (getenv('HTTP_CLIENT_IP')) { $ip = getenv('HTTP_CLIENT_IP'); } elseif (g ...
python 语料处理（从文件夹中读取文件夹中文件，分词，去停用词，去单个字）
# -*- coding:utf8 -*- import os import jieba def splitSentence(inputFile): fin = open(inputFile, 'r' ...
Java序列化机制
java的序列化机制支持将对象序列化为本地文件或者通过网络传输至别处, 而反序列化则可以读取流中的数据, 并将其转换为java对象. 被序列化的类需要实现Serializable接口, 使用Objec ...
php课程---JavaScript改变HTML中的元素
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...
codeforces575A Fibonotci
题目大意:f[k]=f[k-1]*s[(n-1)%n]+f[(k-2)]*s[(k-2)%n];会修改某一位置的s值,但循环不变,求f[k]; 矩阵快速幂裸题,由于有修改,所以需要线段树优化 #inc ...
Task示例，多线程
class Program { static void Main(string[] args) { Run(); } public static async void Run() { var task ...
[troubleshoot][archlinux][bcache] 修改linux文件系统 / 分区方案 / 做混合硬盘 / 系统转生大！手！术！（调整底层架构，不！重！装！）
目标: 我要做的事情是:修改文件系统,硬盘分区方案,但是不重装系统,整个操作不被应用层感知. 背景: 我的笔记本 ThinkPad T450.8G内存 + 16GB SSD + 1TB HDD.预装w ...
[转]SQLSERVER如何获取一个数据库中的所有表的名称、一个表中所有字段的名称
1.查询数据库中的所有数据库名: SELECT Name FROM Master..SysDatabases ORDER BY Name 2.查询某个数据库中所有的表名: SELECT Name FR ...

Spark 1.1.0 安装测试 (分布式 Yarn-cluster模式)

Spark 1.1.0 安装测试 (分布式 Yarn-cluster模式)的更多相关文章

随机推荐

热门专题