版本号：

RedHat6.5 RHEL 6.5系统安装配置图解教程(rhel-server-6.5)

JDK1.8 http://blog.csdn.net/chongxin1/article/details/68957808

Hadoop2.7.3 RedHat6.5上安装Hadoop集群

scala-2.11.8

spark-2.1.1-bin-hadoop2.7

1 安装Spark依赖的Scala

Hadoop的安装请参考上面提到的博文，因为Spark依赖scala，所以在安装Spark之前，这里要先安装scala。

在每个节点上都进行安装，本文主要是master、slave1、slave2三台机器。

1.1 下载和解压缩Scala

官网下载地址：https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz

百度云盘下载地址：链接：http://pan.baidu.com/s/1eSiVjO2 密码：y8b1

linux在服务器的/usr/local目录下新建一个名为scala的文件夹，并将下载的压缩包上载上去

如图：

执行命令，进入到该目录：

cd /usr/local/scala

执行命令进行解压缩：

tar -xvf scala-2.11.8.tgz

1.2 配置环境变量

sudo gedit /et/profile

编辑/etc/profile这个文件，在文件中增加一行配置：

#set Scala environment
export SCALA_HOME=/usr/local/scala/scala-2.11.8
export PATH=$SCALA_HOME/bin:$PATH

添加完成后，我的/etc/profile的配置如下：

#set Java environment
export JAVA_HOME=/usr/local/java/jdk1.8
export JRE_HOME=/usr/local/java/jdk1.8/jre
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$JAVA_HOME:$PATH
#set Hadoop enviroment
export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.3
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
#set Scala environment
export SCALA_HOME=/usr/local/scala/scala-2.11.8
export PATH=$SCALA_HOME/bin:$PATH

环境变量配置完成后，执行下面的命令：

source /etc/profile

1.3 验证Scala

执行命令： scala -version

如图：

以上是在master机器上安装，将安装好的scala复制到slave1、slave2机器上：

scp -r /usr/local/scala root@slave1:/usr/local

scp -r /usr/local/scala root@slave2:/usr/local

修改slave1、slave2的/etc/profile环境变量配置文件，方法同1.2。

2 下载和解压缩Spark

2.1 下载Spark压缩包

官网下载地址：http://mirrors.hust.edu.cn/apache/spark/spark-2.1.1/spark-2.1.1-bin-hadoop2.7.tgz

百度云盘下载地址：链接：http://pan.baidu.com/s/1cGTtgU 密码：hciq

2.2 解压缩Spark

下载完成后，在Linux服务器的/usr/local目录下新建一个名为spark的文件夹，把刚才下载的压缩包，上传上去。

如图：

进入到该目录内，也就是执行下面的命令：

cd /usr/local/spark

执行解压缩命令：

tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz

3 Spark相关的配置

说明：因为我们搭建的是基于hadoop集群的Spark集群，所以每个hadoop节点上我都安装了Spark，都需要按照下面的步骤做配置，启动的话只需要在Spark集群的Master机器上启动即可，我这里是在master上启动。

3.1 配置环境变量

sudo gedit /etc/profile

编辑/etc/profile文件，增加

#set Spark environment
export SPARK_HOME=/usr/local/spark/spark-2.1.1-bin-hadoop2.7
export PATH=$SPARK_HOME/bin:$PATH

注意：因为$SPARK_HOME/sbin目录下有一些文件名称和$HADOOP_HOME/sbin目录下的文件同名，为了避免同名文件冲突，这里不在PATH变量里添加$SPARK_HOME/sbin只添加了$SPARK_HOME/bin。

修改完成后，/etc/profile文件内容是：

#set Java environment
export JAVA_HOME=/usr/local/java/jdk1.8
export JRE_HOME=/usr/local/java/jdk1.8/jre
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$JAVA_HOME:$PATH
#set Hadoop enviroment
export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.3
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
#set Scala environment
export SCALA_HOME=/usr/local/scala/scala-2.11.8
export PATH=$SCALA_HOME/bin:$PATH
#set Spark environment
export SPARK_HOME=/usr/local/spark/spark-2.1.1-bin-hadoop2.7
export PATH=$SPARK_HOME/bin:$PATH

编辑完成后，执行命令：

source /etc/profile

3.2 配置conf目录下的文件

对/usr/local/spark/spark-2.1.1-bin-hadoop2.7/conf目录下的文件进行配置。

3.2.1 新建spark-env.h文件

执行命令，进入到/usr/local/spark/spark-2.1.1-bin-hadoop2.7/conf目录内：

cd /usr/local/spark/spark-2.1.1-bin-hadoop2.7/conf

以spark为我们创建好的模板创建一个spark-env.h文件，命令是：

cp spark-env.sh.template spark-env.sh

编辑spark-env.sh文件，在里面加入配置(具体路径以自己的为准)：

export JAVA_HOME=/usr/local/java/jdk1.8
export SCALA_HOME=/usr/local/scala/scala-2.11.8
export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.3
export HADOOP_CONF_DIR=/usr/local/hadoop/hadoop-2.7.3
export SPARK_MASTER_IP=192.168.168.200
export SPARK_MASTER_HOST=192.168.168.200
export SPARK_LOCAL_IP=192.168.168.200
export SPARK_HOME=/usr/local/spark/spark-2.1.1-bin-hadoop2.7
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/hadoop-2.7.3/bin/hadoop classpath)

3.2.2 新建slaves文件

执行命令，进入到/usr/local/spark/spark-2.1.1-bin-hadoop2.7/conf目录内：

cd /usr/local/spark/spark-2.1.1-bin-hadoop2.7/conf

以spark为我们创建好的模板创建一个slaves文件，命令是：

cp slaves.template slaves

编辑slaves文件，里面的内容为：

master

slave1

slave2

如图：

3.3WorkerN节点：（slave1、slave2两台机器）

将配置好的spark文件复制到workerN节点

scp -r /usr/local/spark root@slave1:/usr/local

scp -r /usr/local/spark root@slave2:/usr/local

在slave1和slave2上分别修改/etc/profile，增加Spark的配置，过程同master一样。

在slave1和slave2修改$SPARK_HOME/conf/spark-env.sh，将 export SPARK_LOCAL_IP=192.168.168.200 改成slave1和slave2对应节点的IP。

export SPARK_LOCAL_IP=192.168.168.201

export SPARK_LOCAL_IP=192.168.168.202

4 启动和测试Spark集群

4.1 启动Spark

因为spark是依赖于hadoop提供的分布式文件系统的，所以在启动spark之前，先确保hadoop在正常运行。

在hadoop正常运行的情况下，在master（也就是hadoop的namenode，spark的marster节点）上执行命令：

cd /usr/local/spark/spark-2.1.1-bin-hadoop2.7/sbin

执行启动脚本：

./start-all.sh

完整控制台输出内容是：

[root@master conf]# cd /usr/local/spark/spark-2.1.1-bin-hadoop2.7/sbin
[root@master sbin]# ./start-all.sh
starting org.apache.spark.deploy.master.Master, logging to /usr/local/spark/spark-2.1.1-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.master.Master-1-master.out
slave1: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local/spark/spark-2.1.1-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-slave1.out
slave2: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local/spark/spark-2.1.1-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-slave2.out
master: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local/spark/spark-2.1.1-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-master.out
master: failed to launch: nice -n 0 /usr/local/spark/spark-2.1.1-bin-hadoop2.7/bin/spark-class org.apache.spark.deploy.worker.Worker --webui-port 8081 spark://master:7077
master: full log in /usr/local/spark/spark-2.1.1-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-master.out

注意：上面的命令中有./这个不能少，./的意思是执行当前目录下的start-all.sh脚本。

4.2 测试和使用Spark集群

4.2.1 访问Spark集群提供的URL

在浏览器里访问Mster机器，我的Spark集群里Master机器是master，IP地址是192.168.168.200，访问8080端口，URL是：

http://192.168.168.200:8080

如图：

参考资料：http://blog.csdn.net/pucao_cug/article/details/72353701

RedHat6.5安装Spark集群的更多相关文章

RedHat6.5安装kafka集群
版本号: Redhat6.5 JDK1.8 zookeeper-3.4.6 kafka_2.11-0.8.2.1 1.软件环境 1.3台RedHat机器,master.slave1. ...
Spark学习笔记--Linux安装Spark集群详解
本文主要讲解如何在Linux环境下安装Spark集群,安装之前我们需要Linux已经安装了JDK和Scala,因为Spark集群依赖这些.下面就如何安装Spark进行讲解说明. 一.安装环境操作系统 ...
安装Spark集群(在CentOS上)
环境:CentOS 6.4, Hadoop 1.1.2, JDK 1.7, Spark 0.7.2, Scala 2.9.3 1. 安装 JDK 1.7 yum search openjdk-deve ...
CentOS7 安装spark集群
Spark版本 1.6.0 Scala版本 2.11.7 Zookeeper版本 3.4.7 配置虚拟机 3台虚拟机,sm,sd1,sd2 1. 关闭防火墙 systemctl stop firewa ...
CentOS6.5 安装Spark集群
一.安装依赖软件Scala(所有节点) 1.下载Scala:http://www.scala-lang.org/files/archive/scala-2.10.4.tgz 2.解压: [root@H ...
RedHat6.5安装zookeeper集群
版本号: Redhat6.5 zookeeper-3.4.6 JDK1.8 zookeeper下载官网下载地址:https://mirrors.tuna.tsinghua.edu.cn/apac ...
redhat6.4安装storm集群-4节点
0.搭建ftp服务器并建立yum源 1.在每个节点上安装java并设置环境变量 2.在三个节点上安装zookeeper 3.安装zeromq 过程中发现运行./configure时出现问题: conf ...
Spark新手入门——3.Spark集群(standalone模式)安装
主要包括以下三部分,本文为第三部分: 一. Scala环境准备查看二. Hadoop集群(伪分布模式)安装查看三. Spark集群(standalone模式)安装 Spark集群(standalo ...
Spark集群安装和WordCount编写
一.Spark概述官网:http://spark.apache.org/ Apache Spark™是用于大规模数据处理的统一分析引擎. 为大数据处理而设计的快速通用的计算引擎. Spark加州大学 ...

随机推荐

目录文件管理及vim
一.查看(七种看) cat tac nl more less ====================== head tail tail -f 看动态更新尾部的信息 ================= ...
实现在当前的日期上加N天
function getNewDay(dateTemp, days) { var dateTemp = dateTemp.split("-"); var nDate = new D ...
前端笔记（3.JavaScript 1）
JavaScript 是属于网络的脚本语言! JavaScript 是一种轻量级的编程语言. JavaScript 是可插入 HTML 页面的编程代码. JavaScript 插入 HTML 页面后, ...
linux 调试技巧
1.添加log printf("\033[1;43m %s,%s,%d\033[0m\n",__FILE__,__FUNCTION__,__LINE__); FILE:文件名 FU ...
centos 安装thrift
Thrift介绍 Thrift是一个软件框架,用来进行可扩展且跨语言的服务的开发.它结合了功能强大的软件堆栈和代码生成引擎,以构建在 C++, Java, Python, PHP, Ruby, Erl ...
centos7 安装mysql--python模块出现EnvironmentError: mysql_config not found和error: command 'gcc' failed with exit status 1
要想使python可以操作mysql 就需要MySQL-python驱动,它是python 操作mysql必不可少的模块. 下载地址:https://pypi.python.org/pypi/MySQ ...
修改JAVA代码，需要重启Tomcat的原因
准确的说只有修改方法中的内容才不需要重启,因为tomcat中对于方法的调用是动态的,调用方法的时候,方法的内容才会被加载新增成员变量,方法,或修改静态方法和静态变量.创建新的类这些都是需要重启的, ...
The 2018 ACM-ICPC Asia Qingdao Regional Contest, Online -C：Halting Problem（模拟）
C Halting Problem In computability theory, the halting problem is the problem of determining, from a ...
51Nod 1070：Bash游戏 V4（斐波那契博弈）
1070 Bash游戏 V4 基准时间限制:1 秒空间限制:131072 KB 分值: 40 难度:4级算法题收藏关注有一堆石子共有N个.A B两个人轮流拿,A先拿.每次拿的数量最少1个 ...
HPU第四次积分赛-K ：方框（水题，打印图形）
方框描述用'*'打印出一个nxn的字符图形(1<=n<=100). 输入多组输入.每行输入一个n,输入EOF结束文件. 输出输出一个满足题意的图形. 输入样例 1 1 2 5 6 ...

RedHat6.5安装Spark集群