版本号:

RedHat6.5   RHEL 6.5系统安装配置图解教程(rhel-server-6.5)

JDK1.8      http://blog.csdn.net/chongxin1/article/details/68957808

Hadoop2.7.3   RedHat6.5上安装Hadoop集群

scala-2.11.8

spark-2.1.1-bin-hadoop2.7

1 安装Spark依赖的Scala

Hadoop的安装请参考上面提到的博文,因为Spark依赖scala,所以在安装Spark之前,这里要先安装scala。

在每个节点上都进行安装,本文主要是master、slave1、slave2三台机器。

1.1  下载和解压缩Scala

官网下载地址:https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz

百度云盘下载地址:链接:http://pan.baidu.com/s/1eSiVjO2 密码:y8b1

linux在服务器的/usr/local目录下新建一个名为scala的文件夹,并将下载的压缩包上载上去

如图:

执行命令,进入到该目录:

cd    /usr/local/scala

执行命令进行解压缩:

tar   -xvf   scala-2.11.8.tgz

1.2  配置环境变量

sudo gedit /et/profile

编辑/etc/profile这个文件,在文件中增加一行配置:


  1. #set Scala environment
  2. export SCALA_HOME=/usr/local/scala/scala-2.11.8
  3. export PATH=$SCALA_HOME/bin:$PATH

添加完成后,我的/etc/profile的配置如下:


  1. #set Java environment
  2. export JAVA_HOME=/usr/local/java/jdk1.8
  3. export JRE_HOME=/usr/local/java/jdk1.8/jre
  4. export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
  5. export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$JAVA_HOME:$PATH
  6. #set Hadoop enviroment
  7. export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.3
  8. export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
  9. export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
  10. export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop​
  11. #set Scala environment
  12. export SCALA_HOME=/usr/local/scala/scala-2.11.8
  13. export PATH=$SCALA_HOME/bin:$PATH

环境变量配置完成后,执行下面的命令:

source   /etc/profile

1.3 验证Scala

执行命令: scala     -version

如图:

以上是在master机器上安装,将安装好的scala复制到slave1、slave2机器上:

scp -r /usr/local/scala root@slave1:/usr/local

scp -r /usr/local/scala root@slave2:/usr/local

修改slave1、slave2的/etc/profile环境变量配置文件,方法同1.2。

2 下载和解压缩Spark

2.1 下载Spark压缩包

官网下载地址:http://mirrors.hust.edu.cn/apache/spark/spark-2.1.1/spark-2.1.1-bin-hadoop2.7.tgz

百度云盘下载地址:链接:http://pan.baidu.com/s/1cGTtgU 密码:hciq

2.2  解压缩Spark

下载完成后,在Linux服务器的/usr/local目录下新建一个名为spark的文件夹,把刚才下载的压缩包,上传上去。

如图:

进入到该目录内,也就是执行下面的命令:

cd    /usr/local/spark

执行解压缩命令:

tar   -zxvf   spark-2.1.1-bin-hadoop2.7.tgz

3  Spark相关的配置

说明:因为我们搭建的是基于hadoop集群的Spark集群,所以每个hadoop节点上我都安装了Spark,都需要按照下面的步骤做配置,启动的话只需要在Spark集群的Master机器上启动即可,我这里是在master上启动。

3.1  配置环境变量

sudo gedit /etc/profile

编辑/etc/profile文件,增加


  1. #set Spark environment
  2. export SPARK_HOME=/usr/local/spark/spark-2.1.1-bin-hadoop2.7
  3. export PATH=$SPARK_HOME/bin:$PATH

注意:因为$SPARK_HOME/sbin目录下有一些文件名称和$HADOOP_HOME/sbin目录下的文件同名,为了避免同名文件冲突,这里不在PATH变量里添加$SPARK_HOME/sbin只添加了$SPARK_HOME/bin。

修改完成后,/etc/profile文件内容是:


  1. #set Java environment
  2. export JAVA_HOME=/usr/local/java/jdk1.8
  3. export JRE_HOME=/usr/local/java/jdk1.8/jre
  4. export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
  5. export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$JAVA_HOME:$PATH
  6. #set Hadoop enviroment
  7. export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.3
  8. export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
  9. export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
  10. export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop​
  11. #set Scala environment
  12. export SCALA_HOME=/usr/local/scala/scala-2.11.8
  13. export PATH=$SCALA_HOME/bin:$PATH
  14. #set Spark environment
  15. export SPARK_HOME=/usr/local/spark/spark-2.1.1-bin-hadoop2.7
  16. export PATH=$SPARK_HOME/bin:$PATH

编辑完成后,执行命令:

source   /etc/profile

3.2 配置conf目录下的文件

对/usr/local/spark/spark-2.1.1-bin-hadoop2.7/conf目录下的文件进行配置。

3.2.1  新建spark-env.h文件

执行命令,进入到/usr/local/spark/spark-2.1.1-bin-hadoop2.7/conf目录内:

cd    /usr/local/spark/spark-2.1.1-bin-hadoop2.7/conf

以spark为我们创建好的模板创建一个spark-env.h文件,命令是:

cp    spark-env.sh.template   spark-env.sh

编辑spark-env.sh文件,在里面加入配置(具体路径以自己的为准):


  1. export JAVA_HOME=/usr/local/java/jdk1.8
  2. export SCALA_HOME=/usr/local/scala/scala-2.11.8
  3. export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.3
  4. export HADOOP_CONF_DIR=/usr/local/hadoop/hadoop-2.7.3
  5. export SPARK_MASTER_IP=192.168.168.200
  6. export SPARK_MASTER_HOST=192.168.168.200
  7. export SPARK_LOCAL_IP=192.168.168.200
  8. export SPARK_HOME=/usr/local/spark/spark-2.1.1-bin-hadoop2.7
  9. export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/hadoop-2.7.3/bin/hadoop classpath)

3.2.2 新建slaves文件

执行命令,进入到/usr/local/spark/spark-2.1.1-bin-hadoop2.7/conf目录内:

cd   /usr/local/spark/spark-2.1.1-bin-hadoop2.7/conf

以spark为我们创建好的模板创建一个slaves文件,命令是:

cp    slaves.template   slaves

编辑slaves文件,里面的内容为:

master

slave1

slave2

如图:

3.3WorkerN节点:(slave1、slave2两台机器)

将配置好的spark文件复制到workerN节点

scp  -r  /usr/local/spark  root@slave1:/usr/local

scp  -r  /usr/local/spark  root@slave2:/usr/local

在slave1和slave2上分别修改/etc/profile,增加Spark的配置,过程同master一样。

在slave1和slave2修改$SPARK_HOME/conf/spark-env.sh,将 export SPARK_LOCAL_IP=192.168.168.200 改成slave1和slave2对应节点的IP。


  1. export SPARK_LOCAL_IP=192.168.168.201

  1. export SPARK_LOCAL_IP=192.168.168.202

4 启动和测试Spark集群

4.1 启动Spark

因为spark是依赖于hadoop提供的分布式文件系统的,所以在启动spark之前,先确保hadoop在正常运行。

在hadoop正常运行的情况下,在master(也就是hadoop的namenode,spark的marster节点)上执行命令:

cd  /usr/local/spark/spark-2.1.1-bin-hadoop2.7/sbin

执行启动脚本:

./start-all.sh

完整控制台输出内容是:


  1. [root@master conf]# cd /usr/local/spark/spark-2.1.1-bin-hadoop2.7/sbin
  2. [root@master sbin]# ./start-all.sh
  3. starting org.apache.spark.deploy.master.Master, logging to /usr/local/spark/spark-2.1.1-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.master.Master-1-master.out
  4. slave1: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local/spark/spark-2.1.1-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-slave1.out
  5. slave2: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local/spark/spark-2.1.1-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-slave2.out
  6. master: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local/spark/spark-2.1.1-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-master.out
  7. master: failed to launch: nice -n 0 /usr/local/spark/spark-2.1.1-bin-hadoop2.7/bin/spark-class org.apache.spark.deploy.worker.Worker --webui-port 8081 spark://master:7077
  8. master: full log in /usr/local/spark/spark-2.1.1-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-master.out

注意:上面的命令中有./这个不能少,./的意思是执行当前目录下的start-all.sh脚本。

4.2  测试和使用Spark集群

4.2.1  访问Spark集群提供的URL

在浏览器里访问Mster机器,我的Spark集群里Master机器是master,IP地址是192.168.168.200,访问8080端口,URL是:

http://192.168.168.200:8080

如图:

参考资料:http://blog.csdn.net/pucao_cug/article/details/72353701

RedHat6.5安装Spark集群的更多相关文章

  1. RedHat6.5安装kafka集群

    版本号: Redhat6.5    JDK1.8     zookeeper-3.4.6   kafka_2.11-0.8.2.1 1.软件环境 1.3台RedHat机器,master.slave1. ...

  2. Spark学习笔记--Linux安装Spark集群详解

    本文主要讲解如何在Linux环境下安装Spark集群,安装之前我们需要Linux已经安装了JDK和Scala,因为Spark集群依赖这些.下面就如何安装Spark进行讲解说明. 一.安装环境 操作系统 ...

  3. 安装Spark集群(在CentOS上)

    环境:CentOS 6.4, Hadoop 1.1.2, JDK 1.7, Spark 0.7.2, Scala 2.9.3 1. 安装 JDK 1.7 yum search openjdk-deve ...

  4. CentOS7 安装spark集群

    Spark版本 1.6.0 Scala版本 2.11.7 Zookeeper版本 3.4.7 配置虚拟机 3台虚拟机,sm,sd1,sd2 1. 关闭防火墙 systemctl stop firewa ...

  5. CentOS6.5 安装Spark集群

    一.安装依赖软件Scala(所有节点) 1.下载Scala:http://www.scala-lang.org/files/archive/scala-2.10.4.tgz 2.解压: [root@H ...

  6. RedHat6.5安装zookeeper集群

    版本号: Redhat6.5  zookeeper-3.4.6  JDK1.8 zookeeper下载 官网下载地址:https://mirrors.tuna.tsinghua.edu.cn/apac ...

  7. redhat6.4安装storm集群-4节点

    0.搭建ftp服务器并建立yum源 1.在每个节点上安装java并设置环境变量 2.在三个节点上安装zookeeper 3.安装zeromq 过程中发现运行./configure时出现问题: conf ...

  8. Spark新手入门——3.Spark集群(standalone模式)安装

    主要包括以下三部分,本文为第三部分: 一. Scala环境准备 查看二. Hadoop集群(伪分布模式)安装 查看三. Spark集群(standalone模式)安装 Spark集群(standalo ...

  9. Spark集群安装和WordCount编写

    一.Spark概述 官网:http://spark.apache.org/ Apache Spark™是用于大规模数据处理的统一分析引擎. 为大数据处理而设计的快速通用的计算引擎. Spark加州大学 ...

随机推荐

  1. python 正则匹配时间格式转换方法

    import re from datetime import datetime a = '2018年8月9日 10:10' s = re.findall('\d+',a) print(s) d = ' ...

  2. Java学习笔记11(this,super)

    this在构造方法间的使用, public class Person { private String name; private int age; public Person() { //this( ...

  3. Python扩展库1—numpy

      1 数组对象 创建数组 import numpy as np a = np.arange(10) b = np.arange(2,10,1) #[2,10)步长为1 c = np.linspace ...

  4. vue 之 Virtual Dom

    什么是Virtual Dom Virtual Dom可以看做一棵模拟了DOM树的JavaScript树,其主要是通过vnode,实现一个无状态的组件,当组件状态发生更新时,然后触发Virtual Do ...

  5. 训练 の Bessie的体重问题

    Bessie的体重问题 题目描述 Bessie像她的诸多姊妹一样,因为从Farmer John的草地吃了太多美味的草而长出了太多的赘肉.所以FJ将她置于一个及其严格的节食计划之中.她每天不能吃多过H ...

  6. 普通new和placement new的重载

    对于自定义对象,我们可以重载普通new操作符,这时候使用new Test()时就会调用到我们重载的普通new操作符. 示例程序: #include <iostream> #include ...

  7. nginx 重定向与反向代理

    server{    listen       80;    server_name  dianxi.test.net; #将地址重定向为新的ip地址    #rewrite  "^/env ...

  8. xdoj 1146 (逆向01背包)

    背包 有:01背包 逆向背包  多重背包 完全背包  所有的背包都可以根据更新的方向一维实现 amazing?! #include <iostream> #include <cstd ...

  9. ccf-170902-公共钥匙盒(模拟)

    这是一道典型的模拟题 首先我们把借钥匙和还钥匙切分成两个事件 保存于两个数组中 然后我对还钥匙的活动按照时间发生次序和还得钥匙序号排序,即按照题意对事件发生的次序排序 最后按照时间的进行 一个一个进行 ...

  10. MyBatis sql语句使用总结

    MyBatis中Like语句使用总结 oracle数据库: SELECT * FROM user WHERE name like CONCAT('%',#{name},'%') 或 : SELECT ...