Spark on YARN的部署

　　Spark on YARN的原理就是依靠yarn来调度Spark，比默认的Spark运行模式性能要好的多，前提是首先部署好hadoop HDFS并且运行在yarn上，然后就可以开始部署spark on yarn了，假设现在准备环境已经部署完毕，这里是在CDH 环境下部署Spark

　　除了上面的环境准备，安装Spark前，还应该保证Scala正常安装，基于Scala的情况下，就可以开始部署Spark了，

　　首先还是解压Spark，安装位置就是/bigdata/spark

tar -xvzf spark-1.6.-bin-hadoop2..tgz

mv spark-1.6.-bin-hadoop2. /bigdata/

ln -s /bigdata/spark-1.6.-bin-hadoop2. /bigdata/spark

cd /bigdata/spark

　　这里为了方便升级，使用/bigdata/sprak指向具体的spark目录，接下来可以配置环境变量，以方便随时输入命令来提交相关程序，直接在环境变量配置文件的PATH变量最后追加 :/bigdata/spark/bin 即可配置，配置完成后source一下即可生效

　　然后同样是处理配置文件：

cp conf/spark-env.sh.template conf/spark-env.sh

cp conf/slaves.template conf/slaves

　　这时slaves不用做任何修改默认即可，如果有多台spark，也可以配置除master之外的主机名列表，这个不用配置也可以

　　执行 vim conf/spark-env.sh 编辑配置文件，在最后追加如下配置：

# JDK目录

export JAVA_HOME=/usr/local/java/jdk1..0_73

# Scala目录

export SCALA_HOME=/usr/local/scala/scala-2.11.

# Master IP地址

export SPARK_MASTER_IP=192.168.0.187

# Worker运行内存

export SPARK_WORKER_MEMORY=2G

# hadoop配置文件目录 cdh中默认是如下目录 这个hadoop必须运行在yarn上 spark才能直接通过此配置文件目录通过yarn进行调度

export HADOOP_CONF_DIR=/etc/hadoop/conf

# spark master端口 默认7077 下面是可选的

export SPARK_MASTER_PORT=

# 此项默认 也是可选的

export MASTER=spark://${SPARK_MASTER_IP}:${SPARK_MASTER_PORT}

　　配置完这些项之后，spark就可以跑在yarn上了，到这里就部署完了，也没必要启动spark的master和slaves服务，因为是靠yarn进行任务调度，所以直接提交任务即可

Spark on YARN的部署的更多相关文章

Spark 1.0.0 横空出世 Spark on Yarn 部署(Hadoop 2.4)
就在昨天,北京时间5月30日20点多.Spark 1.0.0最终公布了:Spark 1.0.0 released 依据官网描写叙述,Spark 1.0.0支持SQL编写:Spark SQL Progr ...
Spark on Yarn 学习(一)
最近看到明风的关于数据挖掘平台下实用Spark和Yarn来做推荐的PPT,感觉很赞,现在基于大数据和快速计算方面技术的发展很快,随着Apache基金会上发布的一个个项目,感觉真的新技术将会不断出现在大 ...
运行 Spark on YARN
运行 Spark on YARN Spark 0.6.0 以上的版本添加了在yarn上执行spark application的功能支持,并在之后的版本中持续的改进.关于本文的内容是翻译官网的内容,大 ...
【Spark】----Spark on Yarn
最近从Hadoop 1.x 转到Hadoop 2.x 同时将一些java 程序转为Scala的程序将平台上的代码减少了很多,在实施的过程中,开到一些Spark相关的YARN的部署上都是基于之前的Had ...
Apache Spark源码走读之8 -- Spark on Yarn
欢迎转载,转载请注明出处,徽沪一郎. 概要 Hadoop2中的Yarn是一个分布式计算资源的管理平台,由于其有极好的模型抽象,非常有可能成为分布式计算资源管理的事实标准.其主要职责将是分布式计算集群的 ...
Spark on Yarn
Spark on Yarn 1. Spark on Yarn模式优点与其他计算框架共享集群资源(eg.Spark框架与MapReduce框架同时运行,如果不用Yarn进行资源分配,MapReduce ...
Spark on Yarn 架构解析
. 一.Hadoop Yarn组件介绍: 我们都知道yarn重构根本的思想,是将原有的JobTracker的两个主要功能资源管理器和任务调度监控分离成单独的组件.新的架构使用全局管理所有应用程序 ...
Spark on Yarn遇到的问题及解决思路
原文:http://www.aboutyun.com/thread-9425-1-1.html 问题导读1.Connection Refused可能原因是什么?2.如何判断内存溢出,该如何解决?扩展: ...
【原】Spark on YARN
在YARN上运行Spark 在Spark0.6.0版本开始支持YARN模式,随后的版本在逐渐地完善. 在YARN上启动Spark 确保HADOOP_CONF_DIR或YARN_CONF_DIR属性的值 ...

随机推荐

队列&生产者消费者
Queue是python标准库中的线程安全的队列(FIFO)实现,提供了一个适用多线程的先进先出的数据结构,即队列,用来在生产者和消费者线程之间信息传递. 如果在多线程中,给存放数据,也就是修改同一份 ...
js中的json对象和字符串之间的转化
字符串转对象(strJSON代表json字符串) var obj = eval(strJSON); var obj = strJSON.parseJSON(); var obj = JSO ...
基于ArcGIS API for Javascript的地图编辑工具
最近工作上需要用ArcGIS API for Javascript来开发一个浏览器上使用的地图编辑工具,分享一下一些相关的开发经验. 我开发的地图编辑工具是根据ESRI提供的例子修改而来的,参考的例子 ...
一个脚本可以一直运行 ignore_user_abort
php中ignore_user_abort函数的用法 PHP中的ignore_user_abort函数是当用户关掉终端后脚本不停止仍然在执行,可以用它来实现计划任务与持续进程,下面会通过实例讨论ign ...
DirectWrite 模糊问题——如何正确根据DIP计算实际像素
使用Windows.Graphics.Display.DisplayInformation的时候,一定要根据RawPixelsPerViewPixel计算,而不是RawDpiX或RawDpiY,或许L ...
Leetcode 15. 3Sum
Given an array S of n integers, are there elements a, b, c in S such that a + b + c = 0? Find all un ...
java 方法
方法命名规范要求类的命名规范:“全部单词的首字母必须大写”.那么在定义方法的时候也是有命名规范要求的:“第一个单词的首字母小写,之后每个单词的首字母大写”,那么这就是方法的命名规范. 递归调用 ...
C#微信公众平台接入示例代码
http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 这是微信公众平台提供的接入指南.官网只提供了php的示例代码 ...
BZOJ2730: [HNOI2012]矿场搭建
传送门图的连通性相关的必和割点割边之类的有关. 题目要求对于一个无向图,任意一点被删除后,所有点都和某些指定点是联通的. 这道题比较简单的做法就是求出来所有的块.对于一个块,如果块里有两个及两个以上 ...
JAVA源码分析-HashMap源码分析(一)
一直以来,HashMap就是Java面试过程中的常客,不管是刚毕业的,还是工作了好多年的同学,在Java面试过程中,经常会被问到HashMap相关的一些问题,而且每次面试都被问到一些自己平时没有注意的 ...

Spark on YARN的部署

Spark on YARN的部署的更多相关文章

随机推荐

热门专题