部署spark 1.3.1 standalong模式

之前已经写过很多次部署spark 的博客，但是之前部署都是照瓢画葫芦，不得其中的细节，并且以前都是部署spark on yarn

部署环境

scala 2.10.2，jdk 1.6，spark 版本1.3.1 下载地址：https://spark.apache.org/downloads.html

两台ubuntu14.04 x64桌面版，其中ubuntu1 做master ， ubuntu2 做slave，

spark 版本为 1.3.1

部署spark 前，首先要做的配置两台机器的信任关系，安装jdk，安装scala，设置好环境变量JAVA_HOME 和 SCALA_HOME

开始部署（需要同时对两台机器执行）

1 对spark-1.3.1-bin-hadoop2.6.tgz 进行解压，解压地址为 /opt/spark-1.3.1-bin-hadoop2.6

tar -zxvf /opt/spark-1.3.-bin-hadoop2..tgz

2 配置spark-env.sh

拷贝spark-env.sh 模版（其实里面什么也没有，都是注释）

cp /opt/spark-1.3.-bin-hadoop2./conf/spark-env.sh.template /opt/spark-1.3.-bin-hadoop2./conf/spark-env.sh

给spark-env.sh 增加参数

SPARK_MASTER_PORT=""

SPARK_MASTER_WEBUI_PORT=""

SPARK_CLASSPATH="/opt/sequoiadb/java/sequoiadb.jar:/opt/sequoiadb/spark/spark-sequoiadb_2.10-1.12.jar"

SPARK_MASTER_IP="ubuntu1"
SPARK_WORKER_INSTANCES="3"
MASTER="spark://${SPARK_MASTER_IP}:${SPARK_MASTER_PORT}"

# 更改spark-master-rest 的端口

SPARK_MASTER_OPTS="-Dspark.master.rest.port=7000"

SPARK_WORKER_MEMORY="40g"

SPARK_WORKER_CORES=10
export JAVA_HOME="/opt/jdk1.6.0_45"

我来简单解释一下，有些参数可能我理解得不对，如果有误，请大家指出，谢谢！

SPARK_MASTER_PORT  指定 spark master 的启动端口，默认为 7077
SPARK_MASTER_IP   指定spark 集群的master ip 地址，主要是让各个worker 知道master 在哪里

SPARK_WORKER_INSTANCES 指定每台机器启动多少个worker，worker 越多，计算并发能力越强，资源的使用率越高（但是过多worker也容易将机器跑死）

SPARK_MASTER_WEBUI_PORT 指定 spark master 的web ui 端口，就是后续从web 端查看spark 执行任务情况的端口号，默认为8080

SPARK_CLASSPATH 增加spark 运行时依赖的jar 包，由于我这里是对SequoiaDB 进行对接，所以这里填写了sdb 的驱动。 如果大家对如何对接SequoiaDB，可以移步到 http://www.sequoiadb.com/cn/document/1.12/integration/spark_integration/installation/topics/install_by_manual.html

SPARK_MASTER_OPTS 增加 jvm 运行时的参数，这里主要是指定了 master 的rest 端口，默认是6066

SPARK_WORKER_MEMORY 指定Worker 最大的存储大小

SPARK_WORKER_CORES 指定每个Worker 最多可以拥有CPU 核数

export JAVA_HOME="/opt/jdk1.6.0_45" 这句是写明JAVA_HOME 在哪里（虽然我在env 里设置了，但是它就是会出现莫名奇怪的错误，所以我干脆设置它）

3 指定slave

拷贝slave 模版文件

cp /opt/spark-1.3.-bin-hadoop2./conf/slaves.template /opt/spark-1.3.-bin-hadoop2./conf/slaves

往里面增加slave 的hostname

ubuntu2

4 修改log4j 配置文件

cp conf/log4j.properties.template conf/log4j.properties

将里面的配置修改为WARN，避免运行时输出太多信息

log4j.rootCategory=WARN, console

log4j.logger.org.apache.spark.repl.SparkIMain$exprTyper=WARN

log4j.logger.org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=WARN

5 启动spark

/opt/spark-1.3.-bin-hadoop2./sbin/start-all.sh

启动后可以通过浏览器查看spark 的状况，例如：http://192.168.231.135:8010/

这样我们就正确部署好standalone版本的spark 了

部署spark 1.3.1 standalong模式的更多相关文章

spark 源码编译 standalone 模式部署
本文介绍如何编译 spark 的源码,并且用 standalone 的方式在单机上部署 spark. 步骤如下: 1. 下载 spark 并且解压本文选择 spark 的最新版本 2.2.0 (20 ...
Spark internal - 多样化的运行模式（上）
Spark的运行模式多种多样,在单机上既可以以本地模式运行,也可以以伪分布式模式运行.而当以分布式的方式运行在Cluster集群中时,底层的资源调度可以使用Mesos 或者是Hadoop Yarn , ...
2 Spark角色介绍及运行模式
第2章 Spark角色介绍及运行模式 2.1 集群角色从物理部署层面上来看,Spark主要分为两种类型的节点,Master节点和Worker节点:Master节点主要运行集群管理器的中心化部分,所承 ...
使用docker安装部署Spark集群来训练CNN（含Python实例）
使用docker安装部署Spark集群来训练CNN(含Python实例) http://blog.csdn.net/cyh_24/article/details/49683221 实验室有4台神服务器 ...
Spark进阶之路-Standalone模式搭建
Spark进阶之路-Standalone模式搭建作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Spark的集群的准备环境 1>.master节点信息(s101) 2&g ...
06、部署Spark程序到集群上运行
06.部署Spark程序到集群上运行 6.1 修改程序代码修改文件加载路径在spark集群上执行程序时,如果加载文件需要确保路径是所有节点能否访问到的路径,因此通常是hdfs路径地址.所以需要修改 ...
使用Cloudera Manager部署Spark服务
使用Cloudera Manager部署Spark服务作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 1>.点击添加服务进入CM服务安装向导 2>.选择需要安装的spa ...
小记--------spark的两种提交模式
spark的两种提交模式:yarn-cluster . yarn-client 图解
大话Spark(5)-三图详述Spark Standalone/Client/Cluster运行模式
之前在大话Spark(2)里讲过Spark Yarn-Client的运行模式,有同学反馈与Cluster模式没有对比, 这里我重新整理了三张图分别看下Standalone,Yarn-Client 和 ...

随机推荐

mongodb分页
1 什么是mongodb的分页就是一次返回表中的连续若干行. 2 什么是sql分页同样是返回表中的连续若干行. 3 如何实现sql分页利用order by xxx limit xxx 4 如何实 ...
AmIBeingDebugged 函数方法的定义实现
#include <assert.h> #include <stdbool.h> #include <sys/types.h> #include <unist ...
shared SDK 微信开放平台遇到的问题
shared sdk是用于集成到app中,方便快速社交化分享的组件,其使用方法比较简单,参考官网的快速集成步骤就能搞定.稍微麻烦一点的就是需要到各个开放平台去注册你的APP. 在各个开放平台注册好之后 ...
拓展gcd求不定方程通解
void gcd(LL a,LL b,LL &d,LL &x,LL &y){ ){d=a;x=;y=;return;} gcd(b,a%b,d,x,y); int t=x; x ...
BZOJ2120 数颜色 —— 待修改莫队
题目链接:https://vjudge.net/problem/HYSBZ-2120 2120: 数颜色 Time Limit: 6 Sec Memory Limit: 259 MBSubmit: ...
android中获取包名，类名
LogUtil.i("getPackageName()=" + getPackageName()); //Context类 LogUtil.i("getClass().g ...
fiddler_test
fiddler学习第二天啦啦啦拉拉呀
【MongoDB学习-在.NET中的简单操作类】
1.新建MVC项目, 管理NuGet包,进入下载MongDB.net库文件 2.新增项目DAL数据访问层,引用以下库文件: 3.C# 访问MongoDB通用方法类: using MongoDB.Dri ...
【linux】lsof命令和{Linux下文件删除、句柄与空间释放问题}
导读: 一.用事实说话二.关于LSOF命令的其它用法: 三.参考文档: 正文: lsof:Finding open files with lsof 作用:查看文件被哪些进程打开一.用事实说 ...
Servlet读取配置文件的三种方式
一.利用ServletContext.getRealPath()[或getResourceAsStream()] 特点:读取应用中的任何文件.只能在web环境下. private void text3 ...

部署spark 1.3.1 standalong模式

部署spark 1.3.1 standalong模式的更多相关文章

随机推荐

热门专题