Spark 1.0.0 横空出世 Spark on Yarn 部署(Hadoop 2.4)
就在昨天,北京时间5月30日20点多。Spark 1.0.0最终公布了:Spark 1.0.0 released
依据官网描写叙述,Spark 1.0.0支持SQL编写:Spark SQL Programming Guide
个人认为这个功能对Hive的市场的影响非常小。但对Shark冲击非常大。就像win7和winXP的关系,自相残杀嘛?
这么着急的公布1.x 版是商业行为还是货真价实的体现,让我们拭目以待吧~~~~
本文是CSDN-撸大湿原创,如要转载请注明出处,谢谢:http://blog.csdn.net/tntzbzc/article/details/27817189
进入今天的正题:Spark 1.x onYarn (Hadoop 2.4)
源代码编译
我的測试环境:
- 系统:Centos 6.4 - 64位
- Java:1.7.45
- Scala:2.10.4
- Hadoop:2.4.0 社区版
Spark 1.0.0 源代码地址:http://d3kbcqa49mib13.cloudfront.net/spark-1.0.0.tgz
解压源代码,在根去根文件夹下运行下面命令(sbt编译我没尝试)
./make-distribution.sh --hadoop 2.4.0 --with-yarn --tgz --with-hive
几个重要參数
--hadoop :指定Hadoop版本号
--with-yarn yarn支持是必须的
--with-hive 读取hive数据也是必须的,反正我非常讨厌Shark,以后开发们能够在Spark上自己封装SQL&HQLclient。也是个不错的选择。
# --tgz: Additionally creates spark-$VERSION-bin.tar.gz
# --hadoop VERSION: Builds against specified version of Hadoop.
# --with-yarn: Enables support for Hadoop YARN.
# --with-hive: Enable support for reading Hive tables.
# --name: A moniker for the release target. Defaults to the Hadoop verison.不想自己编译的话直接下载二进制包吧:
Spark 1.0.0 on Hadoop 1 / CDH3, CDH4 二进制包:http://d3kbcqa49mib13.cloudfront.net/spark-1.0.0-bin-hadoop1.tgz
Spark 1.0.0 on Hadoop 2 / CDH5, HDP2 二进制包:http://d3kbcqa49mib13.cloudfront.net/spark-1.0.0-bin-hadoop2.tgz
进过漫长的等待。在源代码跟文件夹下会生成一个tgz压缩包
把这个包copy到你想部署的文件夹并解压。
特别注意:仅仅须要把解压包copy到yarn集群中的随意一台。一个节点就够了,不须要在全部节点都部署。除非你须要多个Client节点调用spark作业。
在这里我们不须要搭建独立的Spark集群,利用Yarn Client调用Hadoop集群的计算资源。
mv 解压后的文件夹/conf/spark-env.sh.template 解压后的文件夹/conf/spark-env.sh编辑spark-env.sh
export HADOOP_HOME=/opt/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
SPARK_EXECUTOR_INSTANCES=4
SPARK_EXECUTOR_CORES=1
SPARK_EXECUTOR_MEMORY=1G
SPARK_DRIVER_MEMORY=2G
SPARK_YARN_APP_NAME="Spark 1.0.0"这是我的配置,配置和之前的几个版本号略有不同,但大差不差。
用Yarn Client调用一下MR中的经典样例:Spark版的word count
这里要特别注意。SparkContext有变动。之前版本号wordcount样例中的的第一个參数要去掉。
为了方便。我把 SPARK_HOME/lib/spark-assembly-1.0.0-hadoop2.4.0.jar 复制到了HDFS中进行调用。(直接调用本地磁盘也是能够的)
![]()
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdG50emJ6Yw==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="" width="888" height="256">
SPARK_JAR="hdfs://master001.bj:9000/jar/spark/spark-assembly-1.0.0-hadoop2.4.0.jar" \
./bin/spark-class org.apache.spark.deploy.yarn.Client \
--jar ./lib/spark-examples-1.0.0-hadoop2.4.0.jar \
--class org.apache.spark.examples.JavaWordCount \
--args hdfs://master001.bj:9000/temp/read.txt \
--num-executors 50 \
--executor-cores 1 \
--driver-memory 2048M \
--executor-memory 1000M \
--name "word count on spark"执行结果在stdout中查看
速度还行吧,用6台节点/50个core计算4.3GB文件,用时31秒。
今天就到这吧,有时间还的把那篇神经网络继续写下去,下次再见
Spark 1.0.0 横空出世 Spark on Yarn 部署(Hadoop 2.4)的更多相关文章
- Kafka:ZK+Kafka+Spark Streaming集群环境搭建(六)针对spark2.2.1以yarn方式启动spark-shell抛出异常:ERROR cluster.YarnSchedulerBackend$YarnSchedulerEndpoint: Sending RequestExecutors(0,0,Map(),Set()) to AM was unsuccessful
Spark以yarn方式运行时抛出异常: [spark@master bin]$ cd /opt/spark--bin-hadoop2./bin [spark@master bin]$ ./spark ...
- spark 在yarn执行job时一直抱0.0.0.0:8030错误
近日新写完的spark任务放到yarn上面执行时,在yarn的slave节点中一直看到报错日志:连接不到0.0.0.0:8030 . The logs are as below: 2014-08-11 ...
- spark 1.1.0 单机与yarn部署
环境:ubuntu 14.04, jdk 1.6, scala 2.11.4, spark 1.1.0, hadoop 2.5.1 一 spark 单机模式 部分操作参考:http://www.cnb ...
- Spark 1.1.0 编译(为了支持hbase 0.98.6)
为了支持hbase0.98.6,需要重新编译spark 1. 下载spark 1.1.0源代码,以及 scala-2.10.4的bin包. 将环境变量 SCALA_HOME 设置为 scala-2.1 ...
- Spark1.0新特性-->Spark SQL
Spark1.0出来了,变化还是挺大的,文档比以前齐全了,RDD支持的操作比以前多了一些,Spark on yarn功能我居然跑通了.但是最最重要的就是多了一个Spark SQL的功能,它能对RDD进 ...
- 【Spark学习】Spark 1.1.0 with CDH5.2 安装部署
[时间]2014年11月18日 [平台]Centos 6.5 [工具]scp [软件]jdk-7u67-linux-x64.rpm spark-worker-1.1.0+cdh5.2.0+56-1.c ...
- Spark系列(一)Spark1.0.0源码编译及安装
最近想对自己学的东西做些回顾,想到写博客是个不错的方式,方便他人也有利自己,刚开始写不足之处大家多担待. 编译前需要安装JDK1.6以上.scala.Maven.Ant.hadoop2.20 如下图( ...
- Spark 1.0.0版本号公布
前言 今天Spark最终跨出了里程碑的一步,1.0.0版本号的公布标志着Spark已经进入1.0时代.1.0.0版本号不仅增加了非常多新特性,而且提供了更好的API支持.Spark SQL作为一个新的 ...
- Spark 1.0.0版本发布
前言 如今Spark终于迈出了里程碑一步,1.0.0标记的版本号出版物Spark1.0时代.1.0.0版本号不仅增加了非常多新特性.而且提供了更好的API支持.Spark SQL作为一个新的组件增加. ...
随机推荐
- c++
使用全局变量的方法多个文件
启动错误的做法 在global.h声明和定义变量 int sharedData = 9; 编译出错 Building target: CTest Invoking: GCC C++ Linker g+ ...
- WM_PARENTNOTIFY的作用(不完全)
VCL里源码如下: procedure TWinControl.WMParentNotify(var Message: TWMParentNotify); begin with Message do ...
- 欧拉计划·第四题
题目4:找出由两个三位数乘积构成的回文. 一个回文数指的是从左向右和从右向左读都一样的数字.最大的由两个两位数乘积构成的回文数是9009 = 91 * 99. 找出最大的有由个三位数乘积构成的回文数. ...
- Android 增量更新实例(Smart App Updates)
原地址:http://my.oschina.net/liucundong/blog/160436 官方说明 实现原理 实现 (1)生成差异包 (2)使用旧apk+差异包,在客户端合成新apk 注意事项 ...
- Windows - Windows的文件名的全路径(Fully Qualified File Name)的最大长度为260字节
例如,你可以做以下实验来验证这个限制值: 在随意文件夹下新建一个文件夹. 在该新建文件夹下创建一个随意文件.使其名字长度不能再输入为止. 把该文件的全路径名copy到Microsoft Word中进行 ...
- Linux 核心阅读工具vim+ctags+cscope+taglist
今天.介绍vim+ctags+cscope+taglist的内核阅读配置. 当使用过之后,我相信大部分人都会舍弃之前的Eclipse(我就是活生生的一个样例).我们先来看看实现的界面是怎么样的: 我们 ...
- hdu4738(双连通分量)
传送门:Caocao's Bridges 题意:n个岛,曹操在一些岛之间建了一些桥,每个桥上有一些士兵把守,周瑜只有一个炸弹只能炸掉一个桥,并能使一些岛被孤立出来,炸弹需要士兵带过去,士兵的数量不能小 ...
- PostgreSQL代码分析,查询优化部分,pull_ands()和pull_ors()
PostgreSQL代码分析,查询优化部分. 这里把规范谓词表达式的部分就整理完了,阅读的顺序例如以下: 一.PostgreSQL代码分析,查询优化部分,canonicalize_qual 二.Pos ...
- 内存级别/栅栏 ( Memory Barriers / Fences ) – 翻译
翻译自:Martin Thompson – Memory Barriers/Fences 在这篇文章里,我将讨论并发编程里最基础的技术–以内存关卡或栅栏著称.那让进程内的内存状态对其它进程可见. CP ...
- 使用yiic安装开发web应用和解决yiic不是内部命令
使用yii创建应用程序,推荐博客:http://www.cnblogs.com/waitingbar/archive/2013/02/28/2937308.html 把php.exe加入为系统环境变量 ...