第一步:安装软件

        Spark 1.5.4:wget http://www.apache.org/dyn/closer.lua/spark/spark-1.5.2/spark-1.5.2-bin-hadoop2.6.tgz

        Hadoop 2.6.3:wget http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.6.3/hadoop-2.6.3.tar.gz

        scala :apt-get install scala

第二步:配置环境变量

        运行/etc/profile

        export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_80

        export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/BIN:${SCALA_HOME}/bin:${SPARK_HOME}/bin:/home/supermap/program/hadoop-2.6.3/bin:$PATH

        export CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

        export SCALA_HOME=/usr/lib/scala/scala-2.11.7

        export PATH=${SCALA_HOME}/bin:$PATH

        export SPARK_HOME=/program/spark-1.5.2-bin-hadoop2.6

        source /etc/profile

第三步:创建镜像

        通过OpenStack管理器依据配置好的虚拟机创建镜像。生成的镜像配置例如以下:     

        镜像概况信息
        ________________________________________

        名称        spark-hadoop

        ID            61055db5-598b-4f1a-98fa-d2cbbf305d0c

        状态        Active

        公有        False

        受保护的        False

        校验和        47acf7993101713aee17764802602941

        ________________________________________

        配置               4.4 GB

        容器格式        BARE

        磁盘格式        QCOW2

        最小磁盘        60.0GB

第四步:创建虚拟机

        基于创建的镜像,生成2台虚拟机,加上最開始用于创建镜像的1台,一共3台虚拟主机。名称分别为:

        spark_hadoop_master

        spark_hadoop_slave1

        spark_hadoop_slave2

        以下就能够開始做与创建Spark集群相关的操作了。

第五步:设置主机名

        1.在/etc/hostname中就改主机名,分别设置三台主机为master、slave1、slave2,并重新启动

         



        2.重新启动之后,分别设置三个节点etc/hosts,指定ip和主机名的相应关系。

        

        通过測试root@master:~# ssh slave1,在输入root用户password后能够登录。

第六步:改动ssh无password訪问

        首先开启root用户訪问权限

        1. 改动/etc/ssh/sshd-config文件。设置例如以下:

        2. PermitRootLogin yes

        3. PubkeyAuthentication yes

        4. PasswordAuthentication yes

        又一次启动ssh服务:service ssh restart

        再进行例如以下測试,能够免输入password登录了。

        

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center">

第七步:配置Spark集群

        进入Spark的conf文件夹:

        

把spark-env.sh.template拷贝为spark-env.sh

        把slaves.template拷贝为slaves

vim打开spark-env.sh改动当中的内容。增加下面设置

export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_80

        export SPARK_MASTER_IP=192.168.12.154

        export SPARK_WORKER_MEMORY=4g

        export SCALA_HOME=/usr/lib/scala/scala-2.11.7

        export HADOOP_CONF_DIR=/home/supermap/program/hadoop-2.6.3/etc/hadoop

SPARK_WORKER_MEMORY:制定的Worker节点可以最大分配给Excutors的内存大小,因为配置的虚拟机是4g内存,为了最大限度使用内存,这里设置4G。

        接下来配置slaves文件,把Workers节点都加入进去:

        

        这样的配置把master也作为一个Worker节点。

以上配置在master和slave1。slave2节点都做同样处理。

第八步:启动集群

        这里測试没有启动Hadoop集群。仅仅须要Spark集群进行启动就可以,在Spark文件夹下,执行sbin/start-all.sh就可以启动集群服务。



        最后通过訪问spark管理页面查看服务状态

        

GIS+=地理信息+云计算技术——Spark集群部署的更多相关文章

  1. Hadoop记录-Apache hadoop+spark集群部署

    Hadoop+Spark集群部署指南 (多节点文件分发.集群操作建议salt/ansible) 1.集群规划节点名称 主机名 IP地址 操作系统Master centos1 192.168.0.1 C ...

  2. Spark集群部署

    Spark是通用的基于内存计算的大数据框架,可以和hadoop生态系统很好的兼容,以下来部署Spark集群 集群环境:3节点 Master:bigdata1 Slaves:bigdata2,bigda ...

  3. Spark集群部署(standLone)模式

      安装部署: 1. 配置spark为1个master,2个slave的独立集群(Standlone)模式, 可以在VMWare中构建3台运行Ubuntu的机器作为服务器: master主机配置如下: ...

  4. SPARK安装三:SPARK集群部署

    使用2.3.0版本,因为公司生产环境是这个版本 一.下载安装 cd /opt wget https://archive.apache.org/dist/spark/spark-2.3.0/spark- ...

  5. 在Docker中从头部署自己的Spark集群

    由于自己的电脑配置普普通通,在VM虚拟机中搭建的集群规模也就是6个节点左右,再多就会卡的不行 碰巧接触了Docker这种轻量级的容器虚拟化技术,理论上在普通PC机上搭建的集群规模可以达到很高(具体能有 ...

  6. Spark standalone安装(最小化集群部署)

    Spark standalone安装-最小化集群部署(Spark官方建议使用Standalone模式)        集群规划:    主机        IP                    ...

  7. 使用docker安装部署Spark集群来训练CNN(含Python实例)

    使用docker安装部署Spark集群来训练CNN(含Python实例) http://blog.csdn.net/cyh_24/article/details/49683221 实验室有4台神服务器 ...

  8. 使用fabric解决百度BMR的spark集群各节点的部署问题

    前言 和小伙伴的一起参加的人工智能比赛进入了决赛之后的一段时间里面,一直在构思将数据预处理过程和深度学习这个阶段合并起来.然而在合并这两部分代码的时候,遇到了一些问题,为此还特意写了脚本文件进行处理. ...

  9. 大数据技术之_19_Spark学习_01_Spark 基础解析 + Spark 概述 + Spark 集群安装 + 执行 Spark 程序

    第1章 Spark 概述1.1 什么是 Spark1.2 Spark 特点1.3 Spark 的用户和用途第2章 Spark 集群安装2.1 集群角色2.2 机器准备2.3 下载 Spark 安装包2 ...

随机推荐

  1. HTML5增加与改良的input元素

    h5中form表单中input新增的属性值 在HTML5中增加了许多新的标签和功能属性,今天我们来看一个Form表单在HTML5中新的使用方法.那么在HTML5中新加入的这个功能与之前咱们使用的功能区 ...

  2. python_面向对象笔记

    继承 什么是继承? 继承是一种新建类的方式,新建的类称为子类或派生类父类又称为基类.超类 子类可以“遗传”父类的属性,从而可以减少代码冗余 如何寻找继承关系?先抽象,再继承,继承描述的就是一种父子关系 ...

  3. 2018 GDCPC 省赛总结

    第二次参加省赛了,对比上年连STL都不会的acm入门者来说, 今年是接触acm的第二年. 首先要说的是今年的省赛比上年人数多了很多, 闭幕式200多支队伍坐满了整个礼堂还要站着不少人,所以今年的竞争其 ...

  4. LeetCode 309. Best Time to Buy and Sell Stock with Cooldown (stock problem)

    Say you have an array for which the ith element is the price of a given stock on day i. Design an al ...

  5. 创建ArrayList集合对象并添加元素

    ArrayListDemo.java import java.util.ArrayList; /* * 为什么出现集合类: * 我们学习的是面向对象编程语言,而面向对象编程语言对事物的描述都是通过对象 ...

  6. java使用反射的好处

    文章:框架使用java反射好处 讲了框架读取配置文件的类名,使用反射灵活的创建对象.不用在代码层面写死,可以在一些场合非常灵活. 文章:Java 反射在实际开发中的应用 还没具体

  7. ASP.NET MVC WebAPI请求

    基础: 首先,先创建一个“ASP.NET 空Web应用程序” : 然后添加对 “System.Web.Http” 和 “System.Web.Http.WebHost” 的引用: 再添加对“Syste ...

  8. hdu3516 Tree Construction (四边形不等式)

    题意:给定一些点(xi,yi)(xj,yj)满足:i<j,xi<xj,yi>yj.用下面的连起来,使得所有边的长度最小? 题解:直接给出吧 f[i][j]=min(f[i][k]+f ...

  9. 2016 Multi-University Training Contest 5 solutions BY ZSTU

    ATM Mechine E(i,j):存款的范围是[0,i],还可以被警告j次的期望值. E(i,j) = \(max_{k=1}^{i}{\frac{i-k+1}{i+1} * E(i-k,j)+\ ...

  10. js1:对象的学习,构造函数,继承构造函数【使用教材:JavaScript深度剖析第2版】

    原文发布时间为:2008-11-08 -- 来源于本人的百度文章 [由搬家工具导入] <html> <head> <title>js</title> & ...