网上关于spark的安装说明很多了,这里就以spark  pre-build with user provided hadoop 安装包为例讲解,

下载spark  pre-build with user provided hadoop,这里版本为2.1.0

假设集群节点为

192.168.1.12(slave1)

192.168.1.13(slave2)

192.168.1.14(master)

假设这三个节点均实现ssh免密码登陆。

在master节点上,解压安装包,然后进入目录

cd spark-2.1./conf

复制两个文件

cp spark-env.sh.template spark-env.sh
cp slaves.template slaves

salves文件中添加如下两行

slave1
slave2

spark-env.sh文件添加如下

export JAVA_HOME=/usr/java/default
export SCALA_HOME=/usr/local/scala-2.12.
export SPARK_MASTER_IP=192.168.1.14
export HADOOP_HOME=/root/hadoop-2.8.
export HADOOP_CONF_DIR=/root/hadoop-2.8./etc/hadoop
SPARK_DIST_CLASSPATH=$(/root/hadoop-2.8./bin/hadoop classpath)
export SPARK_DIST_CLASSPATH=$SPARK_DIST_CLASSPATH:/root/hadoop-2.8./share/hadoop/tools/lib/*

注意,最后两行的设置是因为这里使用的是user provided hadoop,所有需要指定classpath,否则运行spark报错,参见 这里

将spark-2.1.0文件夹复制到slave1和slave2上相同的目录下

设置/etc/hosts

192.168.1.12 slave1
192.168.1.13 slave2
192.168.1.14 master

如果不设置hosts文件,而在conf/slaves中使用节点IP,那么运行 ./sbin/start-all.sh时,将看不到worker节点,而需要手动将slave(worker)连接master,具体操作为:

如果spark集群web管理页面无法显示worker,则可以分别在每个worker节点上执行

[root@slave2 home]# spark/sbin/start-slave.sh spark://<master ip>:7077

设置/etc/profile

export JAVA_HOME=/..
export SCALA_HOME=/..
export SPARK_HOME=/..
PATH=$PATH:$SCALA_HOME/bin:$SPARK_HOME/bin
export PATH

设置完毕,启动spark

./sbin/start-all.sh

spark on yarn安装的更多相关文章

  1. Ubuntu 14.10 下Spark on yarn安装

    1 服务器分布 服务器 说明 192.168.1.100 NameNode 192.168.1.101 DataNode 192.168.1.102 DataNode 2 软件环境 2.1 安装JDK ...

  2. spark on yarn 安装笔记

    yarn版本:hadoop2.7.0 spark版本:spark1.4.0 0.前期环境准备: jdk 1.8.0_45 hadoop2.7.0 Apache Maven 3.3.3 1.编译spar ...

  3. Spark on YARN模式的安装(spark-1.6.1-bin-hadoop2.6.tgz + hadoop-2.6.0.tar.gz)(master、slave1和slave2)(博主推荐)

    说白了 Spark on YARN模式的安装,它是非常的简单,只需要下载编译好Spark安装包,在一台带有Hadoop YARN客户端的的机器上运行即可.  Spark on YARN简介与运行wor ...

  4. CDH5.5.1 安装Spark ON Yarn环境

    CDH对我们已经封装了,我们如果需要Spark on Yarn,只需要yum安装几个包就可以了. 前面的文章我有写过如果搭建自己内网的CDH Yum服务器,请参考<CDH 5.5.1 Yum源服 ...

  5. cdh 上安装spark on yarn

    在cdh 上安装spark on yarn 还是比较简单的,不需要独立安装什么模块或者组件. 安装服务 选择on yarn 模式:上面 Spark 在spark 服务中添加 在yarn 服务中添加 g ...

  6. Spark on YARN的部署

    Spark on YARN的原理就是依靠yarn来调度Spark,比默认的Spark运行模式性能要好的多,前提是首先部署好hadoop HDFS并且运行在yarn上,然后就可以开始部署spark on ...

  7. spark 源码安装

    clone 源码 git clone git://github.com/apache/spark.git maven编译源码 国外镜像比较慢,此处修改maven仓库的镜像为阿里云镜像: <mir ...

  8. Spark on Yarn

    Spark on Yarn 1. Spark on Yarn模式优点 与其他计算框架共享集群资源(eg.Spark框架与MapReduce框架同时运行,如果不用Yarn进行资源分配,MapReduce ...

  9. Spark on Yarn遇到的问题及解决思路

    原文:http://www.aboutyun.com/thread-9425-1-1.html 问题导读1.Connection Refused可能原因是什么?2.如何判断内存溢出,该如何解决?扩展: ...

随机推荐

  1. Daily Scrum 12/25/2015

    Process: Zhaoyang: Implement the Alex 50M model in the Caffe framework. Yandong: The Azure Back end ...

  2. RabbitMQ 消息队列入门

    文档 入门 主要的内容:one two three four five six seven 前言 中间件 消息队列 异步处理,注册完发短信 应用解耦,订单接口调用扣库存接口,失败了怎么办? 流量削峰, ...

  3. [YII2] 展示页面显示图片 以及手机号隐藏为*和姓名隐藏姓为*,

  4. fasttext的使用,预料格式,调用方法

    数据格式:分词后的句子+\t__label__+标签 fasttext_model.py from fasttext import FastText import numpy as np def ge ...

  5. liunx常用知识基本命令大全

    liunx基础命令使用 标签(空格分隔):liunx常用命令 网络配置 虚拟网卡的绝对路径 /etc/sysconfig/network-scripts/ifcfg-eth0 DEVICE=eth0 ...

  6. Python网络爬虫:伪装浏览器

    一.添加超时跳过功能 首先, 我简单地将 urlop = urllib.request.urlopen(url) 改为 urlop = urllib.request.urlopen(url, time ...

  7. PHP(ThinkPHP5.0) + PHPMailer 进行邮箱发送验证码

    GitHub下载最新版第三方类库PHPMailer: 第一步: 打开网址https://github.com/PHPMailer/PHPMailer/ 下载PHPMailer,PHPMailer 需要 ...

  8. 2019-2020-1 20199303《Linux内核原理与分析》第九周作业

    进程的切换和一般执行过程 知识总结 操作系统原理中介绍了大量进程调度算法,这些算法从实现的角度看仅仅是从运行队列中选择一个新进程,选择的过程中运用了不同的策略而已. 对于理解操作系统的工作机制,反而是 ...

  9. java学习(第四篇)数组

    一.一维数组 1.声明,分配内存 int[] a=new int[10]; 数组元素的数据类型 [] 数组名=new 类型 [数组元素个数]: 2.初始化 int[] a=new int[] {1,2 ...

  10. RANet : 分辨率自适应网络,效果和性能的best trade-off | CVPR 2020

    基于对自适应网络的研究,论文提出了自适应网络RANet(Resolution Adaptive Network)来进行效果与性能上的取舍,该网络包含多个不同输入分辨率和深度的子网,难易样本的推理会自动 ...