第一步:安装软件

        Spark 1.5.4:wget http://www.apache.org/dyn/closer.lua/spark/spark-1.5.2/spark-1.5.2-bin-hadoop2.6.tgz

        Hadoop 2.6.3:wget http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.6.3/hadoop-2.6.3.tar.gz

        scala :apt-get install scala

第二步:配置环境变量

        运行/etc/profile

        export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_80

        export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/BIN:${SCALA_HOME}/bin:${SPARK_HOME}/bin:/home/supermap/program/hadoop-2.6.3/bin:$PATH

        export CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

        export SCALA_HOME=/usr/lib/scala/scala-2.11.7

        export PATH=${SCALA_HOME}/bin:$PATH

        export SPARK_HOME=/program/spark-1.5.2-bin-hadoop2.6

        source /etc/profile

第三步:创建镜像

        通过OpenStack管理器依据配置好的虚拟机创建镜像。生成的镜像配置例如以下:     

        镜像概况信息
        ________________________________________

        名称        spark-hadoop

        ID            61055db5-598b-4f1a-98fa-d2cbbf305d0c

        状态        Active

        公有        False

        受保护的        False

        校验和        47acf7993101713aee17764802602941

        ________________________________________

        配置               4.4 GB

        容器格式        BARE

        磁盘格式        QCOW2

        最小磁盘        60.0GB

第四步:创建虚拟机

        基于创建的镜像,生成2台虚拟机,加上最開始用于创建镜像的1台,一共3台虚拟主机。名称分别为:

        spark_hadoop_master

        spark_hadoop_slave1

        spark_hadoop_slave2

        以下就能够開始做与创建Spark集群相关的操作了。

第五步:设置主机名

        1.在/etc/hostname中就改主机名,分别设置三台主机为master、slave1、slave2,并重新启动

         



        2.重新启动之后,分别设置三个节点etc/hosts,指定ip和主机名的相应关系。

        

        通过測试root@master:~# ssh slave1,在输入root用户password后能够登录。

第六步:改动ssh无password訪问

        首先开启root用户訪问权限

        1. 改动/etc/ssh/sshd-config文件。设置例如以下:

        2. PermitRootLogin yes

        3. PubkeyAuthentication yes

        4. PasswordAuthentication yes

        又一次启动ssh服务:service ssh restart

        再进行例如以下測试,能够免输入password登录了。

        

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center">

第七步:配置Spark集群

        进入Spark的conf文件夹:

        

把spark-env.sh.template拷贝为spark-env.sh

        把slaves.template拷贝为slaves

vim打开spark-env.sh改动当中的内容。增加下面设置

export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_80

        export SPARK_MASTER_IP=192.168.12.154

        export SPARK_WORKER_MEMORY=4g

        export SCALA_HOME=/usr/lib/scala/scala-2.11.7

        export HADOOP_CONF_DIR=/home/supermap/program/hadoop-2.6.3/etc/hadoop

SPARK_WORKER_MEMORY:制定的Worker节点可以最大分配给Excutors的内存大小,因为配置的虚拟机是4g内存,为了最大限度使用内存,这里设置4G。

        接下来配置slaves文件,把Workers节点都加入进去:

        

        这样的配置把master也作为一个Worker节点。

以上配置在master和slave1。slave2节点都做同样处理。

第八步:启动集群

        这里測试没有启动Hadoop集群。仅仅须要Spark集群进行启动就可以,在Spark文件夹下,执行sbin/start-all.sh就可以启动集群服务。



        最后通过訪问spark管理页面查看服务状态

        

GIS+=地理信息+云计算技术——Spark集群部署的更多相关文章

  1. Hadoop记录-Apache hadoop+spark集群部署

    Hadoop+Spark集群部署指南 (多节点文件分发.集群操作建议salt/ansible) 1.集群规划节点名称 主机名 IP地址 操作系统Master centos1 192.168.0.1 C ...

  2. Spark集群部署

    Spark是通用的基于内存计算的大数据框架,可以和hadoop生态系统很好的兼容,以下来部署Spark集群 集群环境:3节点 Master:bigdata1 Slaves:bigdata2,bigda ...

  3. Spark集群部署(standLone)模式

      安装部署: 1. 配置spark为1个master,2个slave的独立集群(Standlone)模式, 可以在VMWare中构建3台运行Ubuntu的机器作为服务器: master主机配置如下: ...

  4. SPARK安装三:SPARK集群部署

    使用2.3.0版本,因为公司生产环境是这个版本 一.下载安装 cd /opt wget https://archive.apache.org/dist/spark/spark-2.3.0/spark- ...

  5. 在Docker中从头部署自己的Spark集群

    由于自己的电脑配置普普通通,在VM虚拟机中搭建的集群规模也就是6个节点左右,再多就会卡的不行 碰巧接触了Docker这种轻量级的容器虚拟化技术,理论上在普通PC机上搭建的集群规模可以达到很高(具体能有 ...

  6. Spark standalone安装(最小化集群部署)

    Spark standalone安装-最小化集群部署(Spark官方建议使用Standalone模式)        集群规划:    主机        IP                    ...

  7. 使用docker安装部署Spark集群来训练CNN(含Python实例)

    使用docker安装部署Spark集群来训练CNN(含Python实例) http://blog.csdn.net/cyh_24/article/details/49683221 实验室有4台神服务器 ...

  8. 使用fabric解决百度BMR的spark集群各节点的部署问题

    前言 和小伙伴的一起参加的人工智能比赛进入了决赛之后的一段时间里面,一直在构思将数据预处理过程和深度学习这个阶段合并起来.然而在合并这两部分代码的时候,遇到了一些问题,为此还特意写了脚本文件进行处理. ...

  9. 大数据技术之_19_Spark学习_01_Spark 基础解析 + Spark 概述 + Spark 集群安装 + 执行 Spark 程序

    第1章 Spark 概述1.1 什么是 Spark1.2 Spark 特点1.3 Spark 的用户和用途第2章 Spark 集群安装2.1 集群角色2.2 机器准备2.3 下载 Spark 安装包2 ...

随机推荐

  1. svn搭建脚本

    1.yum install subversion 2.输入rpm -ql subversion查看安装位置 我们知道svn在bin目录下生成了几个二进制文件. 输入 svn --help可以查看svn ...

  2. Nginx配置ThinkPHP和Laravel虚拟主机

    ThinkPHP server { listen 443 ssl; server_name abc.com; root /var/www/abc; ssl on; ssl_certificate /e ...

  3. Django框架基础知识12-中间件及上下文处理器

    Django中间件(Middleware) 是一个轻量级.底层的“插件”系统,可以介入Django的请求和响应处理过程,修改Django的输入或输出. django 中的中间件(middleware) ...

  4. vim的操作命令

    vim常用命令 在命令状态下对当前行用== (连按=两次), 或对多行用n==(n是自然数)表示自动缩进从当前行起的下面n行.你可以试试把代码缩进任意打乱再用n==排版,相当于一般IDE里的code ...

  5. 07 mongodb

    mongodb mongodb简介 简介 MongoDB是一个基于分布式文件存储的数据库.由C++语言编写.旨在为Web应用提供可扩展的高性能数据存储解决方案.    MongoDB是一个介于关系数据 ...

  6. Linux(3):linux目录结构

    查看系统版本: [root@neo ~]# cat /etc/redhat-release CentOS release 6.9 (Final) [root@neo ~]# uname -r 2.6. ...

  7. Codeforces889C. Maximum Element

    $n \leq 2000000$的排列,问有多少满足:存在个$i$,使得$p_i \neq n$,且$p_j<p_i,j \in [i+1,i+K]$,$K \leq 2000000$是给定常数 ...

  8. 2014 蓝桥杯 预赛 c/c++ 本科B组 第九题:地宫取宝(12') [ dp ]

      历届试题 地宫取宝   时间限制:1.0s   内存限制:256.0MB     锦囊1   锦囊2   锦囊3   问题描述 X 国王有一个地宫宝库.是 n x m 个格子的矩阵.每个格子放一件 ...

  9. Speculative store buffer

    A speculative store buffer is speculatively updated in response to speculative store memory operatio ...

  10. 前端学习之-- Jquery

    Jquery学习笔记 中文参考文档:http://jquery.cuishifeng.cn Jquery是一个包含DOM/BOM/JavaScript的类库引入jquery文件方法:<scrip ...