Spark 1.0.0 横空出世 Spark on Yarn 部署(Hadoop 2.4)

就在昨天，北京时间5月30日20点多。Spark 1.0.0最终公布了：Spark 1.0.0 released

依据官网描写叙述，Spark 1.0.0支持SQL编写：Spark SQL Programming Guide

个人认为这个功能对Hive的市场的影响非常小。但对Shark冲击非常大。就像win7和winXP的关系，自相残杀嘛?

这么着急的公布1.x 版是商业行为还是货真价实的体现，让我们拭目以待吧~~~~

本文是CSDN-撸大湿原创，如要转载请注明出处，谢谢：http://blog.csdn.net/tntzbzc/article/details/27817189

进入今天的正题：Spark 1.x onYarn (Hadoop 2.4)

源代码编译

我的測试环境：

系统：Centos 6.4 - 64位

Java：1.7.45

Scala：2.10.4

Hadoop：2.4.0 社区版

Spark 1.0.0 源代码地址：http://d3kbcqa49mib13.cloudfront.net/spark-1.0.0.tgz

解压源代码，在根去根文件夹下运行下面命令(sbt编译我没尝试)

./make-distribution.sh --hadoop 2.4.0 --with-yarn --tgz --with-hive

几个重要參数

--hadoop ：指定Hadoop版本号

--with-yarn yarn支持是必须的

--with-hive 读取hive数据也是必须的，反正我非常讨厌Shark，以后开发们能够在Spark上自己封装SQL&HQLclient。也是个不错的选择。

# --tgz: Additionally creates spark-$VERSION-bin.tar.gz

# --hadoop VERSION: Builds against specified version of Hadoop.

# --with-yarn: Enables support for Hadoop YARN.

# --with-hive: Enable support for reading Hive tables.

# --name: A moniker for the release target. Defaults to the Hadoop verison.

不想自己编译的话直接下载二进制包吧：

Spark 1.0.0 on Hadoop 1 / CDH3, CDH4 二进制包：http://d3kbcqa49mib13.cloudfront.net/spark-1.0.0-bin-hadoop1.tgz

Spark 1.0.0 on Hadoop 2 / CDH5, HDP2 二进制包：http://d3kbcqa49mib13.cloudfront.net/spark-1.0.0-bin-hadoop2.tgz

进过漫长的等待。在源代码跟文件夹下会生成一个tgz压缩包

把这个包copy到你想部署的文件夹并解压。

特别注意：仅仅须要把解压包copy到yarn集群中的随意一台。一个节点就够了，不须要在全部节点都部署。除非你须要多个Client节点调用spark作业。

在这里我们不须要搭建独立的Spark集群，利用Yarn Client调用Hadoop集群的计算资源。
mv 解压后的文件夹/conf/spark-env.sh.template 解压后的文件夹/conf/spark-env.sh
编辑spark-env.sh

export HADOOP_HOME=/opt/hadoop

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

SPARK_EXECUTOR_INSTANCES=4

SPARK_EXECUTOR_CORES=1

SPARK_EXECUTOR_MEMORY=1G

SPARK_DRIVER_MEMORY=2G

SPARK_YARN_APP_NAME="Spark 1.0.0"

这是我的配置，配置和之前的几个版本号略有不同，但大差不差。

用Yarn Client调用一下MR中的经典样例：Spark版的word count

这里要特别注意。SparkContext有变动。之前版本号wordcount样例中的的第一个參数要去掉。

为了方便。我把 SPARK_HOME/lib/spark-assembly-1.0.0-hadoop2.4.0.jar 复制到了HDFS中进行调用。(直接调用本地磁盘也是能够的)

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdG50emJ6Yw==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="" width="888" height="256">
SPARK_JAR="hdfs://master001.bj:9000/jar/spark/spark-assembly-1.0.0-hadoop2.4.0.jar" \

./bin/spark-class org.apache.spark.deploy.yarn.Client \

--jar ./lib/spark-examples-1.0.0-hadoop2.4.0.jar \

--class org.apache.spark.examples.JavaWordCount \

--args hdfs://master001.bj:9000/temp/read.txt \

--num-executors 50 \

--executor-cores 1 \

--driver-memory 2048M \

--executor-memory 1000M \

--name "word count on spark"
执行结果在stdout中查看

速度还行吧，用6台节点/50个core计算4.3GB文件，用时31秒。

今天就到这吧，有时间还的把那篇神经网络继续写下去，下次再见

Spark 1.0.0 横空出世 Spark on Yarn 部署(Hadoop 2.4)的更多相关文章

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（六）针对spark2.2.1以yarn方式启动spark-shell抛出异常：ERROR cluster.YarnSchedulerBackend$YarnSchedulerEndpoint: Sending RequestExecutors(0,0,Map(),Set()) to AM was unsuccessful
Spark以yarn方式运行时抛出异常: [spark@master bin]$ cd /opt/spark--bin-hadoop2./bin [spark@master bin]$ ./spark ...
spark 在yarn执行job时一直抱0.0.0.0:8030错误
近日新写完的spark任务放到yarn上面执行时,在yarn的slave节点中一直看到报错日志:连接不到0.0.0.0:8030 . The logs are as below: 2014-08-11 ...
spark 1.1.0 单机与yarn部署
环境:ubuntu 14.04, jdk 1.6, scala 2.11.4, spark 1.1.0, hadoop 2.5.1 一 spark 单机模式部分操作参考:http://www.cnb ...
Spark 1.1.0 编译(为了支持hbase 0.98.6)
为了支持hbase0.98.6,需要重新编译spark 1. 下载spark 1.1.0源代码,以及 scala-2.10.4的bin包. 将环境变量 SCALA_HOME 设置为 scala-2.1 ...
Spark1.0新特性-->Spark SQL
Spark1.0出来了,变化还是挺大的,文档比以前齐全了,RDD支持的操作比以前多了一些,Spark on yarn功能我居然跑通了.但是最最重要的就是多了一个Spark SQL的功能,它能对RDD进 ...
【Spark学习】Spark 1.1.0 with CDH5.2 安装部署
[时间]2014年11月18日 [平台]Centos 6.5 [工具]scp [软件]jdk-7u67-linux-x64.rpm spark-worker-1.1.0+cdh5.2.0+56-1.c ...
Spark系列（一）Spark1.0.0源码编译及安装
最近想对自己学的东西做些回顾,想到写博客是个不错的方式,方便他人也有利自己,刚开始写不足之处大家多担待. 编译前需要安装JDK1.6以上.scala.Maven.Ant.hadoop2.20 如下图( ...
Spark 1.0.0版本号公布
前言今天Spark最终跨出了里程碑的一步,1.0.0版本号的公布标志着Spark已经进入1.0时代.1.0.0版本号不仅增加了非常多新特性,而且提供了更好的API支持.Spark SQL作为一个新的 ...
Spark 1.0.0版本发布
前言如今Spark终于迈出了里程碑一步,1.0.0标记的版本号出版物Spark1.0时代.1.0.0版本号不仅增加了非常多新特性.而且提供了更好的API支持.Spark SQL作为一个新的组件增加. ...

随机推荐

Mysql自增主键ID重新排序方法详解
Mysql数据库表的自增主键ID号乱了,需要重新排列. 原理:删除原有的自增ID,重新建立新的自增ID. 1,删除原有主键: ALTER TABLE `table_name` DROP `id`; 2 ...
HDU 3473 Minimum Sum （划分树）
题意:给定一个数组,有Q次的询问,每次询问的格式为(l,r),表示求区间中一个数x,使得sum = sigma|x - xi|最小(i在[l,r]之间),输出最小的sum. 思路:本题一定是要O(nl ...
POJ 2991 Crane（线段树+计算几何）
POJ 2991 Crane 题目链接题意:给定一个垂直的挖掘机臂.有n段,如今每次操作能够旋转一个位置,把[s, s + 1]专程a度,每次旋转后要输出第n个位置的坐标思路:线段树.把每一段当成 ...
expression:stream!=NULL
如果fopen()后返回的是NULL:就不能调用fclose()了: 用fopen()获得的文件句柄不是NULL,那么就需要用fclose()来关闭它.如果是NULL则不需要 null就表示你打开文件 ...
spring MVC 下载文件(转)
springle MVC中如何下载文件呢? 比struts2 下载文件简单得多先看例子: @ResponseBody @RequestMapping(value = "/download& ...
Androidclient和server端数据交互的第一种方法
网上有非常多样例来演示Android客户端和server端数据怎样实现交互只是这些样例大多比較繁杂,对于刚開始学习的人来说这是不利的.如今介绍几种代码简单.逻辑清晰的交互样例,本篇博客介绍第一种: 一 ...
【足迹C++primer】30、概要（泛型算法）
概要(泛型算法) 大多数算法的头文件中定义algorithm在. 标准库也是第一个文件numeric它定义了一套通用算法. #include<iostream> #include<n ...
命令行參数选项处理：getopt()及getopt_long()函数使用
在执行某个程序的时候,我们通常使用命令行參数来进行配置其行为.命令行选项和參数控制 UNIX 程序,告知它们怎样动作. 当 gcc的程序启动代码调用我们的入口函数 main(int argc ...
ZTESoft 持续集成编年史之持续集成探索---平台选择
2012 年 7.8 月份,我们逐渐了解了持续集成的概念,同时我们家庭作坊的dailybuild方式不断爆出各种问题,并且已经无法满足日益增长的各种需求. 我们开始探索持续集成的不同实现方式,首先我们 ...
JAVA取整以及四舍五入
JAVA取整以及四舍五入 import java.math.BigDecimal; //引入这个包 public class Test { public static void main(String ...

Spark 1.0.0 横空出世 Spark on Yarn 部署(Hadoop 2.4)

Spark 1.0.0 横空出世 Spark on Yarn 部署(Hadoop 2.4)的更多相关文章

随机推荐

热门专题