第一步:安装软件

        Spark 1.5.4:wget http://www.apache.org/dyn/closer.lua/spark/spark-1.5.2/spark-1.5.2-bin-hadoop2.6.tgz

        Hadoop 2.6.3:wget http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.6.3/hadoop-2.6.3.tar.gz

        scala :apt-get install scala

第二步:配置环境变量

        运行/etc/profile

        export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_80

        export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/BIN:${SCALA_HOME}/bin:${SPARK_HOME}/bin:/home/supermap/program/hadoop-2.6.3/bin:$PATH

        export CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

        export SCALA_HOME=/usr/lib/scala/scala-2.11.7

        export PATH=${SCALA_HOME}/bin:$PATH

        export SPARK_HOME=/program/spark-1.5.2-bin-hadoop2.6

        source /etc/profile

第三步:创建镜像

        通过OpenStack管理器依据配置好的虚拟机创建镜像。生成的镜像配置例如以下:     

        镜像概况信息
        ________________________________________

        名称        spark-hadoop

        ID            61055db5-598b-4f1a-98fa-d2cbbf305d0c

        状态        Active

        公有        False

        受保护的        False

        校验和        47acf7993101713aee17764802602941

        ________________________________________

        配置               4.4 GB

        容器格式        BARE

        磁盘格式        QCOW2

        最小磁盘        60.0GB

第四步:创建虚拟机

        基于创建的镜像,生成2台虚拟机,加上最開始用于创建镜像的1台,一共3台虚拟主机。名称分别为:

        spark_hadoop_master

        spark_hadoop_slave1

        spark_hadoop_slave2

        以下就能够開始做与创建Spark集群相关的操作了。

第五步:设置主机名

        1.在/etc/hostname中就改主机名,分别设置三台主机为master、slave1、slave2,并重新启动

         



        2.重新启动之后,分别设置三个节点etc/hosts,指定ip和主机名的相应关系。

        

        通过測试root@master:~# ssh slave1,在输入root用户password后能够登录。

第六步:改动ssh无password訪问

        首先开启root用户訪问权限

        1. 改动/etc/ssh/sshd-config文件。设置例如以下:

        2. PermitRootLogin yes

        3. PubkeyAuthentication yes

        4. PasswordAuthentication yes

        又一次启动ssh服务:service ssh restart

        再进行例如以下測试,能够免输入password登录了。

        

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center">

第七步:配置Spark集群

        进入Spark的conf文件夹:

        

把spark-env.sh.template拷贝为spark-env.sh

        把slaves.template拷贝为slaves

vim打开spark-env.sh改动当中的内容。增加下面设置

export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_80

        export SPARK_MASTER_IP=192.168.12.154

        export SPARK_WORKER_MEMORY=4g

        export SCALA_HOME=/usr/lib/scala/scala-2.11.7

        export HADOOP_CONF_DIR=/home/supermap/program/hadoop-2.6.3/etc/hadoop

SPARK_WORKER_MEMORY:制定的Worker节点可以最大分配给Excutors的内存大小,因为配置的虚拟机是4g内存,为了最大限度使用内存,这里设置4G。

        接下来配置slaves文件,把Workers节点都加入进去:

        

        这样的配置把master也作为一个Worker节点。

以上配置在master和slave1。slave2节点都做同样处理。

第八步:启动集群

        这里測试没有启动Hadoop集群。仅仅须要Spark集群进行启动就可以,在Spark文件夹下,执行sbin/start-all.sh就可以启动集群服务。



        最后通过訪问spark管理页面查看服务状态

        

GIS+=地理信息+云计算技术——Spark集群部署的更多相关文章

  1. Hadoop记录-Apache hadoop+spark集群部署

    Hadoop+Spark集群部署指南 (多节点文件分发.集群操作建议salt/ansible) 1.集群规划节点名称 主机名 IP地址 操作系统Master centos1 192.168.0.1 C ...

  2. Spark集群部署

    Spark是通用的基于内存计算的大数据框架,可以和hadoop生态系统很好的兼容,以下来部署Spark集群 集群环境:3节点 Master:bigdata1 Slaves:bigdata2,bigda ...

  3. Spark集群部署(standLone)模式

      安装部署: 1. 配置spark为1个master,2个slave的独立集群(Standlone)模式, 可以在VMWare中构建3台运行Ubuntu的机器作为服务器: master主机配置如下: ...

  4. SPARK安装三:SPARK集群部署

    使用2.3.0版本,因为公司生产环境是这个版本 一.下载安装 cd /opt wget https://archive.apache.org/dist/spark/spark-2.3.0/spark- ...

  5. 在Docker中从头部署自己的Spark集群

    由于自己的电脑配置普普通通,在VM虚拟机中搭建的集群规模也就是6个节点左右,再多就会卡的不行 碰巧接触了Docker这种轻量级的容器虚拟化技术,理论上在普通PC机上搭建的集群规模可以达到很高(具体能有 ...

  6. Spark standalone安装(最小化集群部署)

    Spark standalone安装-最小化集群部署(Spark官方建议使用Standalone模式)        集群规划:    主机        IP                    ...

  7. 使用docker安装部署Spark集群来训练CNN(含Python实例)

    使用docker安装部署Spark集群来训练CNN(含Python实例) http://blog.csdn.net/cyh_24/article/details/49683221 实验室有4台神服务器 ...

  8. 使用fabric解决百度BMR的spark集群各节点的部署问题

    前言 和小伙伴的一起参加的人工智能比赛进入了决赛之后的一段时间里面,一直在构思将数据预处理过程和深度学习这个阶段合并起来.然而在合并这两部分代码的时候,遇到了一些问题,为此还特意写了脚本文件进行处理. ...

  9. 大数据技术之_19_Spark学习_01_Spark 基础解析 + Spark 概述 + Spark 集群安装 + 执行 Spark 程序

    第1章 Spark 概述1.1 什么是 Spark1.2 Spark 特点1.3 Spark 的用户和用途第2章 Spark 集群安装2.1 集群角色2.2 机器准备2.3 下载 Spark 安装包2 ...

随机推荐

  1. 环境变量HISTCONTROL命令及对快捷键Ctrl+o命令的影响

    在linux中环境变量HISTCONTROL可以控制历史的记录方式. HISTCONTROL有以下的选项: ignoredups          默认,忽略重复命令 ignorespace      ...

  2. linux配置网桥

    实现环境: centos7   Linux devstack01 3.10.0-693.el7.x86_64 1.创建br配置文件,ifcfg-br2 cp ifcfg-br0 ifcfg-br2 2 ...

  3. 嵩天老师的零基础Python笔记:https://www.bilibili.com/video/av13570243/?from=search&seid=15873837810484552531 中的1-14讲

    #coding=gbk#嵩天老师的零基础Python笔记:https://www.bilibili.com/video/av13570243/?from=search&seid=1587383 ...

  4. jquery的ajax和getJson跨域获取json数据

    目前浏览器端跨域访问常用的两种方法有两种: 1.通过jQuery的ajax进行跨域,这其实是采用的jsonp的方式来实现的. jsonp是英文json with padding的缩写.它允许在服务器端 ...

  5. squid重定向(python 代码)

    #!/usr/bin/python2.7 # coding: utf-8 import sys,os,stat import transport def redirect_url(line,concu ...

  6. NOIP2013D1T3货车运输(最大生成树+倍增lca)

    传送门 这道题,先用kruskal求一遍图中的最大生成树. 然后,倍增求lca,求lca的同时求出边权的最小值. #include <cstring> #include <cstdi ...

  7. 【NOIP模拟&POJ2152】灰色的果实(树形DP)

    题意: Nebula 历 2014 年 12 月 17 日,欢迎来到异世界. 面对截然不同的新世界,你决定采取最普通但最为有效的方式来探索,那便 是徒步.准备好营地的一切,你开始了探索的旅程. 步行大 ...

  8. 学习日常笔记<day15>mysql基础

    1.数据库入门 1.1数据库软件 数据库:俗称数据的仓库,方便管理数据的软件(或程序) 1.2市面上数据库软件 Oracle,甲骨文公司的产品. 当前最流行应用最广泛的数据库软件.和java语言兼容非 ...

  9. Java加载配置文件类

    /** *  对应配置文件类, */ package com.up72.parkSys.ThirdParty; import java.io.IOException;import java.io.In ...

  10. eclipse提速01 - 禁用不常用的eclipse启动插件

    会不断更新,需要的收藏 禁用不常用的eclipse启动插件(当然如果不需要可以卸载)