部署spark 1.3.1 standalong模式
之前已经写过很多次部署spark 的博客,但是之前部署都是照瓢画葫芦,不得其中的细节,并且以前都是部署spark on yarn
部署环境
scala 2.10.2,jdk 1.6,spark 版本1.3.1 下载地址:https://spark.apache.org/downloads.html
两台ubuntu14.04 x64桌面版,其中ubuntu1 做master , ubuntu2 做slave,
spark 版本为 1.3.1
部署spark 前,首先要做的配置两台机器的信任关系,安装jdk,安装scala,设置好环境变量JAVA_HOME 和 SCALA_HOME
开始部署(需要同时对两台机器执行)
1 对spark-1.3.1-bin-hadoop2.6.tgz 进行解压,解压地址为 /opt/spark-1.3.1-bin-hadoop2.6
tar -zxvf /opt/spark-1.3.-bin-hadoop2..tgz
2 配置spark-env.sh
拷贝spark-env.sh 模版(其实里面什么也没有,都是注释)
cp /opt/spark-1.3.-bin-hadoop2./conf/spark-env.sh.template /opt/spark-1.3.-bin-hadoop2./conf/spark-env.sh
给spark-env.sh 增加参数
SPARK_MASTER_PORT=""
SPARK_MASTER_WEBUI_PORT=""
SPARK_CLASSPATH="/opt/sequoiadb/java/sequoiadb.jar:/opt/sequoiadb/spark/spark-sequoiadb_2.10-1.12.jar"
SPARK_MASTER_IP="ubuntu1"
SPARK_WORKER_INSTANCES="3"
MASTER="spark://${SPARK_MASTER_IP}:${SPARK_MASTER_PORT}"
# 更改spark-master-rest 的端口
SPARK_MASTER_OPTS="-Dspark.master.rest.port=7000"
SPARK_WORKER_MEMORY="40g"
SPARK_WORKER_CORES=10
export JAVA_HOME="/opt/jdk1.6.0_45"
我来简单解释一下,有些参数可能我理解得不对,如果有误,请大家指出,谢谢!
SPARK_MASTER_PORT 指定 spark master 的启动端口,默认为 7077
SPARK_MASTER_IP 指定spark 集群的master ip 地址,主要是让各个worker 知道master 在哪里
SPARK_WORKER_INSTANCES 指定每台机器启动多少个worker,worker 越多,计算并发能力越强,资源的使用率越高(但是过多worker也容易将机器跑死)
SPARK_MASTER_WEBUI_PORT 指定 spark master 的web ui 端口,就是后续从web 端查看spark 执行任务情况的端口号,默认为8080
SPARK_CLASSPATH 增加spark 运行时依赖的jar 包,由于我这里是对SequoiaDB 进行对接,所以这里填写了sdb 的驱动。 如果大家对如何对接SequoiaDB,可以移步到 http://www.sequoiadb.com/cn/document/1.12/integration/spark_integration/installation/topics/install_by_manual.html
SPARK_MASTER_OPTS 增加 jvm 运行时的参数,这里主要是指定了 master 的rest 端口,默认是6066
SPARK_WORKER_MEMORY 指定Worker 最大的存储大小
SPARK_WORKER_CORES 指定每个Worker 最多可以拥有CPU 核数
export JAVA_HOME="/opt/jdk1.6.0_45" 这句是写明JAVA_HOME 在哪里(虽然我在env 里设置了,但是它就是会出现莫名奇怪的错误,所以我干脆设置它)
3 指定slave
拷贝slave 模版文件
cp /opt/spark-1.3.-bin-hadoop2./conf/slaves.template /opt/spark-1.3.-bin-hadoop2./conf/slaves
往里面增加slave 的hostname
ubuntu2
4 修改log4j 配置文件
cp conf/log4j.properties.template conf/log4j.properties
将里面的配置修改为WARN,避免运行时输出太多信息
log4j.rootCategory=WARN, console
log4j.logger.org.apache.spark.repl.SparkIMain$exprTyper=WARN
log4j.logger.org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=WARN
5 启动spark
/opt/spark-1.3.-bin-hadoop2./sbin/start-all.sh
启动后可以通过浏览器查看spark 的状况,例如:http://192.168.231.135:8010/

这样我们就正确部署好standalone版本的spark 了
部署spark 1.3.1 standalong模式的更多相关文章
- spark 源码编译 standalone 模式部署
本文介绍如何编译 spark 的源码,并且用 standalone 的方式在单机上部署 spark. 步骤如下: 1. 下载 spark 并且解压 本文选择 spark 的最新版本 2.2.0 (20 ...
- Spark internal - 多样化的运行模式(上)
Spark的运行模式多种多样,在单机上既可以以本地模式运行,也可以以伪分布式模式运行.而当以分布式的方式运行在Cluster集群中时,底层的资源调度可以使用Mesos 或者是Hadoop Yarn , ...
- 2 Spark角色介绍及运行模式
第2章 Spark角色介绍及运行模式 2.1 集群角色 从物理部署层面上来看,Spark主要分为两种类型的节点,Master节点和Worker节点:Master节点主要运行集群管理器的中心化部分,所承 ...
- 使用docker安装部署Spark集群来训练CNN(含Python实例)
使用docker安装部署Spark集群来训练CNN(含Python实例) http://blog.csdn.net/cyh_24/article/details/49683221 实验室有4台神服务器 ...
- Spark进阶之路-Standalone模式搭建
Spark进阶之路-Standalone模式搭建 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Spark的集群的准备环境 1>.master节点信息(s101) 2&g ...
- 06、部署Spark程序到集群上运行
06.部署Spark程序到集群上运行 6.1 修改程序代码 修改文件加载路径 在spark集群上执行程序时,如果加载文件需要确保路径是所有节点能否访问到的路径,因此通常是hdfs路径地址.所以需要修改 ...
- 使用Cloudera Manager部署Spark服务
使用Cloudera Manager部署Spark服务 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 1>.点击添加服务进入CM服务安装向导 2>.选择需要安装的spa ...
- 小记--------spark的两种提交模式
spark的两种提交模式:yarn-cluster . yarn-client 图解
- 大话Spark(5)-三图详述Spark Standalone/Client/Cluster运行模式
之前在 大话Spark(2)里讲过Spark Yarn-Client的运行模式,有同学反馈与Cluster模式没有对比, 这里我重新整理了三张图分别看下Standalone,Yarn-Client 和 ...
随机推荐
- EasyDarwin开发出类似于美拍、秒拍的短视频拍摄SDK:EasyVideoRecorder
EasyVideoRecorder Github:https://github.com/EasyDarwin/EasyVideoRecorder EasyVideoRecorder作为一款短视频拍摄的 ...
- 九度OJ 1112:拦截导弹 (DP、最长下降子序列)
时间限制:1 秒 内存限制:32 兆 特殊判题:否 提交:3124 解决:1525 题目描述: 某国为了防御敌国的导弹袭击,开发出一种导弹拦截系统.但是这种导弹拦截系统有一个缺陷:虽然它的第一发炮弹能 ...
- java web项目初始化启动一个java方法
项目中需要一些初始化数据,或者加载中断的任务. 首先在web.xml中配置信息,配置在<web-app>中: <servlet> <servlet-name>Ini ...
- jmeter之java请求
通常情况下,推荐使用jmeter之java请求编写一beashell调用java代码(上篇)(推荐)编写Java 请求 有以下优势 脚本易维护 易调试 开发脚本周期短 不过网上扩展java请求文章比较 ...
- cURL范例(包括错误输出和详情输出)
//1.初始化 $ch = curl_init(); //2.设置选项,包括URL curl_setopt($ch, CURLOPT_URL, 'http://www.baidu.com'); cur ...
- UVA1482 Playing With Stones —— SG博弈
题目链接:https://vjudge.net/problem/UVA-1482 题意: 有n堆石子, 每堆石子有ai(ai<=1e18).两个人轮流取石子,要求每次只能从一堆石子中抽取不多于一 ...
- Discuz/X3.1去掉标题中的Powered by Discuz!以及解决首页标题后的"-"
虽然不提倡大家去掉版权信息,但是在实际操作的时候还是去掉,毕竟每个页面标题最后面出现”Powered by Discuz!“会显得页面标题比较冗长. 经过本人的实践,论坛里也有操作方法,不过那个操作方 ...
- 基于BASYS2的VHDL程序与仿真——50%占空比8分频器
转帖请注明转自http://www.cnblogs.com/connorzx/p/3547673.html 一.新建工程 1.点击File->New Project, 2.点击Next 注:此处 ...
- mysql批量sql插入优化
对于一些数据量较大的系统,数据库面临的问题除了查询效率低下,还有就是数据入库时间长.特别像报表系统,每天花费在数据导入上的时间可能会长达几个小时或十几个小时之久.因此,优化数据库插入性能是很有意义的. ...
- html5--3.18 新增的output元素
html5--3.18 新增的output元素 学习要点 了解output元素的用法 output元素:数据的输出 output元素是HTML5新增的元素,用来设置不同数据的输出 output元素的输 ...