本文介绍如何编译 spark 的源码，并且用 standalone 的方式在单机上部署 spark。

步骤如下：

1. 下载 spark 并且解压

本文选择 spark 的最新版本 2.2.0 （2017/07/01 发布）
下载源码和解压的命令如下：

SPARK_VERSION=2.2.

wget https://github.com/apache/spark/archive/v${SPARK_VERSION}.tar.gz -O spark-${SPARK_VERSION}.tar.gz

tar -zvxf spark-${SPARK_VERSION}.tar.gz

2. 编译

编译大概需要半个小时左右时间，不同的机器可能用的时间不同。
执行以下命令编译

cd spark-${SPARK_VERSION}

build/mvn -DskipTests clean package

可参考 http://spark.apache.org/docs/latest/building-spark.html

3. 配置

如果都使用默认，可以略过这一步。如果要改配置，按照下面步骤。

首先用下面的命令创建配置文件：

cp conf/spark-defaults.conf.template conf/spark-defaults.conf
cp conf/spark-env.sh.template conf/spark-env.sh

cp conf/slaves.template conf/slaves

然后，修改 conf/spark-defaults.conf，主要有以下配置

spark.master                     spark://master:7077

spark.eventLog.enabled           true

spark.eventLog.dir               hdfs://namenode:8021/directory

spark.serializer                 org.apache.spark.serializer.KryoSerializer

spark.driver.memory              5g

spark.executor.extraJavaOptions  -XX:+PrintGCDetails -Dkey=value -Dnumbers="one two three"

然后，修改 conf/spark-env.sh，主要修改的有以下配置

HADOOP_CONF_DIR=/home/work/hadoop-2.6.-cdh5.7.0/

SPARK_WORKER_CORES=

SPARK_WORKER_MEMORY=40g

SPARK_MASTER_HOST=192.168.1.112

SPARK_LOCAL_IP=192.168.1.112

然后，修改 conf/slaves，添加 slave 的 hostname 或者 IP，如果只有一个 slave，conf/slaves 内容如下：

192.168.1.112

如果有多个 slave，每个 slave 占一行，如下：

192.168.1.112

192.168.1.113

3. standalone 模式部署

使用下面的命令部署 spark：

./sbin/start-all.sh

或者用下面的命令分步骤执行，效果是一样的：

./sbin/start-master.sh
./sbin/start-slave.sh spark://localhost:7077

执行上面的命令之后，spark 服务就在单机上起来了。可以用命令 ps aux | grep spark 查看，会有两个 spark 的进程。

4. 测试

用下面的命令可以提交一个任务给 spark 执行，测试部署是否成功。

./bin/spark-submit \

--master spark://localhost:7077 \

examples/src/main/python/pi.py

如果没有出现错误信息，表示部署和执行任务成功。这个例子是让 spark 计算圆周率，结果是打印出来。

5. 查看监控和统计信息

http://<hostname>:8080/

6. 关闭服务

下面的命令可以关闭 spark 服务

./sbin/stop-all.sh

7. 查看log

logs 在目录 ./logs/ 下

8. 注意事项

1. 如果机器有多个网口绑定多个 IP，配置文件的 IP 和启动 spark 服务 IP，以及 spark-submit 中的 IP 必须保持一致。localhost 在有些机器要配置好。

spark 源码编译 standalone 模式部署的更多相关文章

Spark源码分析：多种部署方式之间的区别与联系（转）
原文链接:Spark源码分析:多种部署方式之间的区别与联系(1) 从官方的文档我们可以知道,Spark的部署方式有很多种:local.Standalone.Mesos.YARN.....不同部署方式的 ...
Spark源码编译
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3822995.html spark源码编译步骤如下: cd /home/hdpusr/workspace ...
Spark源码在Eclipse中部署/编译/运行
(1)下载Spark源码到官方网站下载:Openfire.Spark.Smack,其中Spark只能使用SVN下载,源码的文件夹分别对应Openfire.Spark和Smack. 直接下载Openf ...
Spark源码编译并在YARN上运行WordCount实例
在学习一门新语言时,想必我们都是"Hello World"程序开始,类似地,分布式计算框架的一个典型实例就是WordCount程序,接触过Hadoop的人肯定都知道用MapRedu ...
spark源码编译记录
spark在项目中已经用了一段时间了,趁现在空闲,下个源码编译在IDEA里面阅读下,特此记录过程. 前提已经安装maven和git 1.上官网下载源码的包: 2.然后解压到一个文件夹 3.编译,编译的 ...
Apache Spark源码走读之9 -- Spark源码编译
欢迎转载,转载请注明出处,徽沪一郎. 概要本来源码编译没有什么可说的,对于java项目来说,只要会点maven或ant的简单命令,依葫芦画瓢,一下子就ok了.但到了Spark上面,事情似乎不这么简单 ...
Spark源码编译（未完待续）
在这里我们不需要搭建独立的Spark集群,利用Yarn Client调用Hadoop集群的计算资源. Spark源码编译生成配置包: 解压源码,在根去根目录下执行以下命令(sbt编译我没尝试) ./m ...
源码编译配置lnmp部署zabbix
环境说明: [root@wcy ~]# cat /etc/redhat-release CentOS release 6.9 (Final) [root@wcy ~]# uname -a Linux ...
Spark源码编译，官网学习
这里以spark-1.6.0版本为例官网网址 http://spark.apache.org/docs/1.6.0/building-spark.html#building-with-build ...

随机推荐

07 MySQL之索引原理
一.介绍为什么有索引:使用索引可快速访问数据库表中的特定信息.索引是对数据库表中一列或多列的值进行排序的一种结构. 作用: 1. 快速查询数据 2. 保证数据的唯一性 3 ...
Django框架——基础之模型系统（ORM相关操作）
------------恢复内容开始------------ 1.必定会的十三条! 1.1记忆方法一:(按字母顺序记忆) <1> all(): 查询所有结果 <2> cou ...
配置maven的国内镜像
pom.xml文件出现错误标记,一般是相关的maven资源没有下载完整. 1,配置maven的国内镜像,保证能够顺利下载maven中配置的资源. 在maven的配置文件 settings.xml ...
Delphi 参数的传递
【LeetCode】451-根据字符出现频率排序
题目描述给定一个字符串,请将字符串里的字符按照出现的频率降序排列. 示例 1: 输入: "tree" 输出: "eert" 解释: 'e'出现两次,'r'和' ...
关于ORACLE事务处理的一些笔记
这是2013年在看ORACLE概念手册的时候的一些笔记,现在整理如下(可能跟其他一些文章的内容有重复): 20131012 周六 oracle概念手册中文版第4章事务管理事务具有原子 ...
优秀.NET界面控件DevExpress v19.1.6全新来袭！新改进抢“鲜”看
DevExpress Universal Subscription(又名DevExpress宇宙版或DXperience Universal Suite)是全球使用广泛的.NET用户界面控件套包,De ...
微信小程序data数组push和remove问题
因为在做一个小程序的demo时.由于不向后台请求数据,所以就涉及到对本地数据的操作,现在就做一些数组的增删 //添加新元素 addItemFn: function () { var { lists } ...
GO 语言队列实现
队列(queue)是只允许在一端进行插入操作,而在另一端进行删除操作的线性表. 队列是一种先进先出的t(First In First Out)的线性表,简称FIFO.允许插入的一端为队尾,允许删除的一 ...
b2b推广方式有哪些-
b2b推广方式有哪些老黄牛推广软件订做 Q:935744345 专业团队,高效推广

spark 源码编译 standalone 模式部署