spark on yarn详解

1、参考文档：

spark-1.3.0：http://spark.apache.org/docs/1.3.0/running-on-yarn.html

spark-1.6.0：http://spark.apache.org/docs/1.6.0/running-on-yarn.html

备注：从spark-1.6.0开始，spark on yarn命令有略微改变，具体参考官方文档，这里以spark 1.3.0集群为主。

2、前期准备

编译spark，参看文档：http://www.cnblogs.com/wcwen1990/p/7688027.html

spark安装部署（包括local模式和standalone模式）：http://www.cnblogs.com/wcwen1990/p/6889521.html

3、spark on yarn配置：

1）启动hadoop集群：

sbin/hadoop-daemon.sh start namenode

sbin/hadoop-daemon.sh start datanode

sbin/yarn-daemon.sh start resourcemanager

sbin/yarn-daemon.sh start nodemanager

sbin/mr-jobhistory-daemon.sh start historyserver

2）启动spark历史日志服务：

sbin/start-history-server.sh

3）查看进程信息：

$ jps

3182 DataNode

3734 JobHistoryServer

3949 Jps

3555 NodeManager

3295 ResourceManager

3857 HistoryServer

3094 NameNode

4、spark-submit方式提交应用到yarn（提交可以以client模式和cluster模式进行应用提交）：

1）spark-1.3.0：

$ ./bin/spark-submit --class path.to.your.Class --master yarn-cluster [options] <app jar> [app options]

For example:

$ ./bin/spark-submit --class org.apache.spark.examples.SparkPi \
     --master yarn-cluster \
     --num-executors 3 \
     --driver-memory 4g \
     --executor-memory 2g \
     --executor-cores 1 \
     --queue thequeue \
     lib/spark-examples*.jar \
     10

2）spark-1.6.0：

$ ./bin/spark-submit --class path.to.your.Class --master yarn --deploy-mode cluster [options] <app jar> [app options]

For example:

$ ./bin/spark-submit --class org.apache.spark.examples.SparkPi \
     --master yarn \
     --deploy-mode cluster \
     --driver-memory 4g \
     --executor-memory 2g \
     --executor-cores 1 \
     --queue thequeue \
     lib/spark-examples*.jar \
     10

5、spark-shell方式运行在yarn上(spark-shell只能通过client模式运行)：

1）spark-1.3.0：

$ ./bin/spark-shell --master yarn-client

2）spark-1.6.0：

$ ./bin/spark-shell --master yarn --deploy-mode client

6、测试，这里以spark-1.3.0为例：

$ ./bin/spark-shell --master yarn-client

spark on yarn模式下运行wordcount程序：

scala> sc.textFile("/user/hadoop/mapreduce/wordcount/input/wc.input").flatMap(_.split(" ")).map((_,1)).reduceByKey(_ + _).map(x => (x._2,x._1)).sortByKey(false).map(x => (x._2,x._1)).collect

... ...

res0: Array[(String, Int)] = Array((scala,1), (hive,1), (oozie,1), (mapreduce,1), (zookeeper,1), (hue,1), (yarn,1), (sqoop,1), (kafka,1), (spark,1), (hadoop,1), (flume,1), (hdfs,1), (storm,1), (hbase,1))

scala> sc.stop

以上程序运行过程可以通过web ui查看详情，具体地址有以下几个：

yarn：http://chavin.king:8088

spark应用监控：http://chavin.king:4040

历史日志服务：http://chavin.king:18080

spark on yarn详解的更多相关文章

Hadoop 新 MapReduce 框架 Yarn 详解
Hadoop 新 MapReduce 框架 Yarn 详解: http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/ Ap ...
hadoop之yarn详解（框架进阶篇）
前面在hadoop之yarn详解(基础架构篇)这篇文章提到了yarn的重要组件有ResourceManager,NodeManager,ApplicationMaster等,以及yarn调度作业的运行 ...
Hive on Spark安装配置详解（都是坑啊）
个人主页:http://www.linbingdong.com 简书地址:http://www.jianshu.com/p/a7f75b868568 简介本文主要记录如何安装配置Hive on Sp ...
Apache Spark 内存管理详解（转载）
Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色.理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优.本文旨在梳理出 ...
Yarn 详解
唐清原, 咨询顾问简介: 本文介绍了 Hadoop 自 0.23.0 版本后新的 map-reduce 框架(Yarn) 原理,优势,运作机制和配置方法等:着重介绍新的 yarn 框架相对于原框架 ...
Hadoop 新 MapReduce 框架 Yarn 详解【转】
[转自:http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/] 简介: 本文介绍了 Hadoop 自 0.23.0 版本 ...
hadoop之yarn详解（命令篇）
本篇主要对yarn命令进行阐述一.yarn命令概述 [root@lgh ~]# yarn -help Usage: yarn [--config confdir] COMMAND where COM ...
spark内存管理详解
Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色.理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优.本文旨在梳理出 ...
Spark配置参数详解
以下是整理的Spark中的一些配置参数,官方文档请参考Spark Configuration. Spark提供三个位置用来配置系统: Spark属性:控制大部分的应用程序参数,可以用SparkConf ...

随机推荐

11G新特性 -- 块介质恢复性能增强(block media recovery)
块介质恢复性能增强(block media recovery) :只是恢复受损的块.不需要将受损的数据文件offline.针对受损的数据块,使用备份中好的数据块进行restore和recover,避免 ...
[svc]linux下网桥-docker网桥
网桥和交换机 2口交换机=网桥交换机: 工作在数据链路层,根据源mac学习(控制层),目的mac转发(数据层). linux的网卡 vmware workstation中的桥接参考: http:/ ...
python requests库使用
迫不及待了吗?本页内容为如何入门 Requests 提供了很好的指引.其假设你已经安装了 Requests.如果还没有,去安装一节看看吧. 首先,确认一下: Requests 已安装 Requests ...
【Linux高级驱动】如何分析并移植网卡驱动
dm9000的驱动分析 m9000_init platform_driver_register(); db); db); ); ; id_val ; id_val ; /* 获取芯片型号 */ id ...
4. Tensorflow的Estimator实践原理
1. Tensorflow高效流水线Pipeline 2. Tensorflow的数据处理中的Dataset和Iterator 3. Tensorflow生成TFRecord 4. Tensorflo ...
【GMT43智能液晶模块】例程六：WWDG看门狗实验——复位ARM
实验原理: STM32内部包含窗口看门狗,通过看门狗可以监控程序运行,程序运行错误时,未在规定时间喂狗,自动复位ARM.本实验通过UI界面中按钮按下停止喂狗,制造程序运行错误,从而产生复位. 示例 ...
[C#] 一款代码注释清理工具
[C#] 一款代码注释清理工具在程序开发过程中,很多时候我们都会在代码中进行注释,以便大家更容易理解或能更直观明白某个类或方法是用来做什么的,我们就会用注释就以C#为列子,注释符大致为'//' ...
[js] 处理字符串换行造成的json解析失败
需求:从数据库某个字段取出字符串出来,转为json,结果发现报错为解析失败,发现是因为取出的字符串换行导致,现在需要将字符串里面的换行替换为'',使字符串可依成功解析成json对象. 技术:依靠re ...
python笔记2-数据类型：列表[List]常用操作
序列是Python中最基本的数据结构.序列中的每个元素都分配一个数字 - 它的位置,或索引,索引从0开始,依此类推. 序列都可以进行的操作:包括索引,切片,加,乘,检查成员. 列表是最常用的Pyth ...
(原)java 向上转型中，任何域的访问操作都是由编译器解析，不是多态
最近在向java发力,学习学习了下.看到了多态这一节,书中有个比较好的例子,所以就准备写下来,记录下来: package dynamic_binding01; public class dynamic ...

spark on yarn详解

spark on yarn详解的更多相关文章

随机推荐

热门专题