Spark 1.0.0 横空出世 Spark on Yarn 部署(Hadoop 2.4)

就在昨天，北京时间5月30日20点多。Spark 1.0.0最终公布了：Spark 1.0.0 released

依据官网描写叙述，Spark 1.0.0支持SQL编写：Spark SQL Programming Guide

个人认为这个功能对Hive的市场的影响非常小。但对Shark冲击非常大。就像win7和winXP的关系，自相残杀嘛?

这么着急的公布1.x 版是商业行为还是货真价实的体现，让我们拭目以待吧~~~~

本文是CSDN-撸大湿原创，如要转载请注明出处，谢谢：http://blog.csdn.net/tntzbzc/article/details/27817189

进入今天的正题：Spark 1.x onYarn (Hadoop 2.4)

源代码编译

我的測试环境：

系统：Centos 6.4 - 64位

Java：1.7.45

Scala：2.10.4

Hadoop：2.4.0 社区版

Spark 1.0.0 源代码地址：http://d3kbcqa49mib13.cloudfront.net/spark-1.0.0.tgz

解压源代码，在根去根文件夹下运行下面命令(sbt编译我没尝试)

./make-distribution.sh --hadoop 2.4.0 --with-yarn --tgz --with-hive

几个重要參数

--hadoop ：指定Hadoop版本号

--with-yarn yarn支持是必须的

--with-hive 读取hive数据也是必须的，反正我非常讨厌Shark，以后开发们能够在Spark上自己封装SQL&HQLclient。也是个不错的选择。

# --tgz: Additionally creates spark-$VERSION-bin.tar.gz

# --hadoop VERSION: Builds against specified version of Hadoop.

# --with-yarn: Enables support for Hadoop YARN.

# --with-hive: Enable support for reading Hive tables.

# --name: A moniker for the release target. Defaults to the Hadoop verison.

不想自己编译的话直接下载二进制包吧：

Spark 1.0.0 on Hadoop 1 / CDH3, CDH4 二进制包：http://d3kbcqa49mib13.cloudfront.net/spark-1.0.0-bin-hadoop1.tgz

Spark 1.0.0 on Hadoop 2 / CDH5, HDP2 二进制包：http://d3kbcqa49mib13.cloudfront.net/spark-1.0.0-bin-hadoop2.tgz

进过漫长的等待。在源代码跟文件夹下会生成一个tgz压缩包

把这个包copy到你想部署的文件夹并解压。

特别注意：仅仅须要把解压包copy到yarn集群中的随意一台。一个节点就够了，不须要在全部节点都部署。除非你须要多个Client节点调用spark作业。

在这里我们不须要搭建独立的Spark集群，利用Yarn Client调用Hadoop集群的计算资源。
mv 解压后的文件夹/conf/spark-env.sh.template 解压后的文件夹/conf/spark-env.sh
编辑spark-env.sh

export HADOOP_HOME=/opt/hadoop

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

SPARK_EXECUTOR_INSTANCES=4

SPARK_EXECUTOR_CORES=1

SPARK_EXECUTOR_MEMORY=1G

SPARK_DRIVER_MEMORY=2G

SPARK_YARN_APP_NAME="Spark 1.0.0"

这是我的配置，配置和之前的几个版本号略有不同，但大差不差。

用Yarn Client调用一下MR中的经典样例：Spark版的word count

这里要特别注意。SparkContext有变动。之前版本号wordcount样例中的的第一个參数要去掉。

为了方便。我把 SPARK_HOME/lib/spark-assembly-1.0.0-hadoop2.4.0.jar 复制到了HDFS中进行调用。(直接调用本地磁盘也是能够的)

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdG50emJ6Yw==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="" width="888" height="256">
SPARK_JAR="hdfs://master001.bj:9000/jar/spark/spark-assembly-1.0.0-hadoop2.4.0.jar" \

./bin/spark-class org.apache.spark.deploy.yarn.Client \

--jar ./lib/spark-examples-1.0.0-hadoop2.4.0.jar \

--class org.apache.spark.examples.JavaWordCount \

--args hdfs://master001.bj:9000/temp/read.txt \

--num-executors 50 \

--executor-cores 1 \

--driver-memory 2048M \

--executor-memory 1000M \

--name "word count on spark"
执行结果在stdout中查看

速度还行吧，用6台节点/50个core计算4.3GB文件，用时31秒。

今天就到这吧，有时间还的把那篇神经网络继续写下去，下次再见

Spark 1.0.0 横空出世 Spark on Yarn 部署(Hadoop 2.4)的更多相关文章

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（六）针对spark2.2.1以yarn方式启动spark-shell抛出异常：ERROR cluster.YarnSchedulerBackend$YarnSchedulerEndpoint: Sending RequestExecutors(0,0,Map(),Set()) to AM was unsuccessful
Spark以yarn方式运行时抛出异常: [spark@master bin]$ cd /opt/spark--bin-hadoop2./bin [spark@master bin]$ ./spark ...
spark 在yarn执行job时一直抱0.0.0.0:8030错误
近日新写完的spark任务放到yarn上面执行时,在yarn的slave节点中一直看到报错日志:连接不到0.0.0.0:8030 . The logs are as below: 2014-08-11 ...
spark 1.1.0 单机与yarn部署
环境:ubuntu 14.04, jdk 1.6, scala 2.11.4, spark 1.1.0, hadoop 2.5.1 一 spark 单机模式部分操作参考:http://www.cnb ...
Spark 1.1.0 编译(为了支持hbase 0.98.6)
为了支持hbase0.98.6,需要重新编译spark 1. 下载spark 1.1.0源代码,以及 scala-2.10.4的bin包. 将环境变量 SCALA_HOME 设置为 scala-2.1 ...
Spark1.0新特性-->Spark SQL
Spark1.0出来了,变化还是挺大的,文档比以前齐全了,RDD支持的操作比以前多了一些,Spark on yarn功能我居然跑通了.但是最最重要的就是多了一个Spark SQL的功能,它能对RDD进 ...
【Spark学习】Spark 1.1.0 with CDH5.2 安装部署
[时间]2014年11月18日 [平台]Centos 6.5 [工具]scp [软件]jdk-7u67-linux-x64.rpm spark-worker-1.1.0+cdh5.2.0+56-1.c ...
Spark系列（一）Spark1.0.0源码编译及安装
最近想对自己学的东西做些回顾,想到写博客是个不错的方式,方便他人也有利自己,刚开始写不足之处大家多担待. 编译前需要安装JDK1.6以上.scala.Maven.Ant.hadoop2.20 如下图( ...
Spark 1.0.0版本号公布
前言今天Spark最终跨出了里程碑的一步,1.0.0版本号的公布标志着Spark已经进入1.0时代.1.0.0版本号不仅增加了非常多新特性,而且提供了更好的API支持.Spark SQL作为一个新的 ...
Spark 1.0.0版本发布
前言如今Spark终于迈出了里程碑一步,1.0.0标记的版本号出版物Spark1.0时代.1.0.0版本号不仅增加了非常多新特性.而且提供了更好的API支持.Spark SQL作为一个新的组件增加. ...

随机推荐

CodeForces Round #191 (327C) - Magic Five 等比数列求和的快速幂取模
很久以前做过此类问题..就因为太久了..这题想了很久想不出..卡在推出等比的求和公式,有除法运算,无法快速幂取模... 看到了 http://blog.csdn.net/yangshuolll/art ...
C语言函数调用约定
在C语言中,假设我们有这样的一个函数: int function(int a,int b) 调用时只要用result = function(1,2)这样的方式就可以使用这个函数.但是,当高级语言被编译 ...
百度GPSutil
＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝ package com.qcar.benz.biz.common; import com.aliba ...
使用Python在2M内存中排序一百万个32位整数
译言网 | 使用Python在2M内存中排序一百万个32位整数使用Python在2M内存中排序一百万个32位整数译者:小鼠发表时间:2008-11-13浏览量:6757评论数:2挑错数:0 作者 ...
SilkTest高级进阶系列7-用PostMessage模拟鼠标
SilkTest可以通过调用Windows API来向控件发送消息,从而进行特定的操作.下面这段code使用PostMessage来向计算器上的清除键发送WM_LBUTTONDOWN和WM_LBUTT ...
YII 实现布局
布局文件: <div>我是头部</div>  <!--$content代表我们已经提取出来的首页.登录.注冊等页面 ...
实现自己的http server - loop_in_codes - C++博客
实现自己的http server - loop_in_codes - C++博客实现自己的http server Write your own http server author : Kevin ...
Graphviz 绘制流程图
凝视说明非常具体.不再详述. digraph G{ //dot 是一种画图语言,它能够方便你採用图形的方式高速.直观地表达一些想法, //比方描写叙述某个问题的解决方式,构思一个程序的流程,澄清一堆貌 ...
找工作笔试面试那些事儿(8)---常问的CC++基础题
这一部分是C/C++程序员在面试的时候会被问到的一些题目的汇总.来源于基本笔试面试书籍,可能有一部分题比较老,但是这也算是基础中的基础,就归纳归纳放上来了.大牛们看到一笑而过就好,普通人看看要是能补上 ...
C语言里为何会有“2+2=5”的结果
写这篇原创文章是由于看到了极客中的一篇文章<有趣各种编程语言实现2+2=5>,当中C语言是这样实现的: int main() { char __func_version__[] = &qu ...

Spark 1.0.0 横空出世 Spark on Yarn 部署(Hadoop 2.4)

Spark 1.0.0 横空出世 Spark on Yarn 部署(Hadoop 2.4)的更多相关文章

随机推荐

热门专题