部署spark 1.3.1 standalong模式

之前已经写过很多次部署spark 的博客，但是之前部署都是照瓢画葫芦，不得其中的细节，并且以前都是部署spark on yarn

部署环境

scala 2.10.2，jdk 1.6，spark 版本1.3.1 下载地址：https://spark.apache.org/downloads.html

两台ubuntu14.04 x64桌面版，其中ubuntu1 做master ， ubuntu2 做slave，

spark 版本为 1.3.1

部署spark 前，首先要做的配置两台机器的信任关系，安装jdk，安装scala，设置好环境变量JAVA_HOME 和 SCALA_HOME

开始部署（需要同时对两台机器执行）

1 对spark-1.3.1-bin-hadoop2.6.tgz 进行解压，解压地址为 /opt/spark-1.3.1-bin-hadoop2.6

tar -zxvf /opt/spark-1.3.-bin-hadoop2..tgz

2 配置spark-env.sh

拷贝spark-env.sh 模版（其实里面什么也没有，都是注释）

cp /opt/spark-1.3.-bin-hadoop2./conf/spark-env.sh.template /opt/spark-1.3.-bin-hadoop2./conf/spark-env.sh

给spark-env.sh 增加参数

SPARK_MASTER_PORT=""

SPARK_MASTER_WEBUI_PORT=""

SPARK_CLASSPATH="/opt/sequoiadb/java/sequoiadb.jar:/opt/sequoiadb/spark/spark-sequoiadb_2.10-1.12.jar"

SPARK_MASTER_IP="ubuntu1"
SPARK_WORKER_INSTANCES="3"
MASTER="spark://${SPARK_MASTER_IP}:${SPARK_MASTER_PORT}"

# 更改spark-master-rest 的端口

SPARK_MASTER_OPTS="-Dspark.master.rest.port=7000"

SPARK_WORKER_MEMORY="40g"

SPARK_WORKER_CORES=10
export JAVA_HOME="/opt/jdk1.6.0_45"

我来简单解释一下，有些参数可能我理解得不对，如果有误，请大家指出，谢谢！

SPARK_MASTER_PORT  指定 spark master 的启动端口，默认为 7077
SPARK_MASTER_IP   指定spark 集群的master ip 地址，主要是让各个worker 知道master 在哪里

SPARK_WORKER_INSTANCES 指定每台机器启动多少个worker，worker 越多，计算并发能力越强，资源的使用率越高（但是过多worker也容易将机器跑死）

SPARK_MASTER_WEBUI_PORT 指定 spark master 的web ui 端口，就是后续从web 端查看spark 执行任务情况的端口号，默认为8080

SPARK_CLASSPATH 增加spark 运行时依赖的jar 包，由于我这里是对SequoiaDB 进行对接，所以这里填写了sdb 的驱动。 如果大家对如何对接SequoiaDB，可以移步到 http://www.sequoiadb.com/cn/document/1.12/integration/spark_integration/installation/topics/install_by_manual.html

SPARK_MASTER_OPTS 增加 jvm 运行时的参数，这里主要是指定了 master 的rest 端口，默认是6066

SPARK_WORKER_MEMORY 指定Worker 最大的存储大小

SPARK_WORKER_CORES 指定每个Worker 最多可以拥有CPU 核数

export JAVA_HOME="/opt/jdk1.6.0_45" 这句是写明JAVA_HOME 在哪里（虽然我在env 里设置了，但是它就是会出现莫名奇怪的错误，所以我干脆设置它）

3 指定slave

拷贝slave 模版文件

cp /opt/spark-1.3.-bin-hadoop2./conf/slaves.template /opt/spark-1.3.-bin-hadoop2./conf/slaves

往里面增加slave 的hostname

ubuntu2

4 修改log4j 配置文件

cp conf/log4j.properties.template conf/log4j.properties

将里面的配置修改为WARN，避免运行时输出太多信息

log4j.rootCategory=WARN, console

log4j.logger.org.apache.spark.repl.SparkIMain$exprTyper=WARN

log4j.logger.org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=WARN

5 启动spark

/opt/spark-1.3.-bin-hadoop2./sbin/start-all.sh

启动后可以通过浏览器查看spark 的状况，例如：http://192.168.231.135:8010/

这样我们就正确部署好standalone版本的spark 了

部署spark 1.3.1 standalong模式的更多相关文章

spark 源码编译 standalone 模式部署
本文介绍如何编译 spark 的源码,并且用 standalone 的方式在单机上部署 spark. 步骤如下: 1. 下载 spark 并且解压本文选择 spark 的最新版本 2.2.0 (20 ...
Spark internal - 多样化的运行模式（上）
Spark的运行模式多种多样,在单机上既可以以本地模式运行,也可以以伪分布式模式运行.而当以分布式的方式运行在Cluster集群中时,底层的资源调度可以使用Mesos 或者是Hadoop Yarn , ...
2 Spark角色介绍及运行模式
第2章 Spark角色介绍及运行模式 2.1 集群角色从物理部署层面上来看,Spark主要分为两种类型的节点,Master节点和Worker节点:Master节点主要运行集群管理器的中心化部分,所承 ...
使用docker安装部署Spark集群来训练CNN（含Python实例）
使用docker安装部署Spark集群来训练CNN(含Python实例) http://blog.csdn.net/cyh_24/article/details/49683221 实验室有4台神服务器 ...
Spark进阶之路-Standalone模式搭建
Spark进阶之路-Standalone模式搭建作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Spark的集群的准备环境 1>.master节点信息(s101) 2&g ...
06、部署Spark程序到集群上运行
06.部署Spark程序到集群上运行 6.1 修改程序代码修改文件加载路径在spark集群上执行程序时,如果加载文件需要确保路径是所有节点能否访问到的路径,因此通常是hdfs路径地址.所以需要修改 ...
使用Cloudera Manager部署Spark服务
使用Cloudera Manager部署Spark服务作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 1>.点击添加服务进入CM服务安装向导 2>.选择需要安装的spa ...
小记--------spark的两种提交模式
spark的两种提交模式:yarn-cluster . yarn-client 图解
大话Spark(5)-三图详述Spark Standalone/Client/Cluster运行模式
之前在大话Spark(2)里讲过Spark Yarn-Client的运行模式,有同学反馈与Cluster模式没有对比, 这里我重新整理了三张图分别看下Standalone,Yarn-Client 和 ...

随机推荐

Java，获取文件的Base64字符串，解码Base64字符串还原文件
在jdk1.8以前,获取文件Base64字符串需要用到第三方库,从1.8开始,Java中引入了Base64相关的类以下是代码示例获取文件的Base64编码字符串 import java.io.Fi ...
剑指Offer：反转链表【24】
剑指Offer:反转链表[24] 题目描述输入一个链表,反转链表后,输出新链表的表头. 解题分析这道题我才发现我是属于那种真的笨,图都画出来了流程写不出来.看了别人的代码,总觉得自己差一步. 这也 ...
codeforces 715c
题目大意:给定一个有N个点的树,问其中有多少条路径满足他们的边权连成的数对M取余为0.其中gcd(M,10)=1. 题解: 很亲民的点分治题目,对每一层点分治,预处理每个点到当前根的数字并对m取余,和 ...
【 spring配置文件详解】
转自: http://book.51cto.com/art/201004/193743.htm Spring配置文件是用于指导Spring工厂进行Bean生产.依赖关系注入(装配)及Bean实例分发的 ...
在jboss中部署可执行jar, deploy executable jar in jboss
首先,题目是个伪命题, jboss容器是不支持直接部署可执行jar包的,jar只会被加载当作lib对待.这里提供了一个小的变通方案. 今天我遇到个问题,把我们的项目中的监控模块独立成一个小项目部署,监 ...
Android高手应该精通哪些内容
很多Android开发者已经度过了初级.中级,如何成为一个Android高手呢? Android123就各个级别的程序员应该掌握哪些内容作为下面分类. 一.初级 1. 拥有娴熟的Java基础,理解设计 ...
多线程设计模式（一） Single Threaded Execution
这里有一座独木桥.因为桥身非常的细,一次只能允许一个人通过.当这个人没有下桥,另一个人就不能过桥.如果桥上同时又两个人,桥就会因为无法承重而破碎而掉落河里. 这就是Single Threaded Ex ...
Understand JavaScript’s “this” With Clarity, and Master It
The this keyword in JavaScript confuses new and seasoned JavaScript developers alike. This article a ...
codeforces 702B B. Powers of Two(水题)
题目链接: B. Powers of Two time limit per test 3 seconds memory limit per test 256 megabytes input stand ...
RQNOJ魔法石之恋
魔法石之恋 (stone.pas/c/cpp) [问题描述] 在<Harry Potter and the Sorcerer's Stone>中,想得到魔法石,必须要通过许许多多的测试和游 ...

部署spark 1.3.1 standalong模式

部署spark 1.3.1 standalong模式的更多相关文章

随机推荐

热门专题