Spark系列（一）Spark1.0.0源码编译及安装

最近想对自己学的东西做些回顾，想到写博客是个不错的方式，方便他人也有利自己，刚开始写不足之处大家多担待。

编译前需要安装JDK1.6以上、scala、Maven、Ant、hadoop2.20 如下图(/etc/profile)：

Spark编译有提供了两种方式：

Maven编译：在 /etc/profile文中添加:export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"
执行命令:mvn -Pyarn -Dhadoop.version=2.2.0 -Dyarn.version=2.2.0 -DskipTests clean package
SBT 编译配置文件：Spark安装目录下的 project/SparkBuilder.scala 执行:SPARK_HADOOP_VERSION=2.2.0 SPARK_YARN=true sbt/sbt assembly

说明：第一次编译时间会比较长因为需要下载依赖的jar包，(如果编译有失败基本上都是网络原因，重新执行编译命令就ok了)；
编译完Spark后整个目录大小大概900M,如果再通过scp拷贝到其他节点那占空间，所以下一步还需要生成Spark部署包；

Spark 部署包生成命令make-distribution.sh
--hadoop VERSION ： Hadoop 版本号，不加此参数时hadoop 版本为1.0.4 。
--with-yarn ：是否支持Hadoop YARN ，不加参数时为不支持yarn 。
--with-hive ：是否在Spark SQL 中支持hive ，不加此参数时为不支持hive 。
--skip-java-test ：是否在编译的过程中略过java 测试，不加此参数时为略过。
--with-tachyon ：是否支持内存文件系统Tachyon ，不加此参数时不支持tachyon 。
--tgz ：在根目录下生成 spark-$VERSION-bin.tgz ，不加此参数时不生成tgz 文件，只生
成/dist 目录。
--name NAME ：和— tgz 结

例：
生成支持yarn 、hive 的部署包：
./make-distribution.sh --hadoop 2.2.0 --with-yarn --with-hive --tgz

注：参数具有顺序性，安装过程中又会输入提示(如果你的JDK版本不是1.6)直接输入YES回车即可；

完成Spark部署包的生成后解压scp到各个节点，然后更改以下配置：

配置Spark安装目录下的 conf/slave文件，添加各个节点IP或主机名(如果配置主机名需配置 /etc/sysconfig/hosts文件 IP与主机名的对应关系) 4.2、配置Spark安装目录下的conf/spark-env.sh文件

export SPARK_MASTER_IP=chenx [Master主机名]
export SPARK_MASTER_PORT=7077 [访问端口]
export SPARK_WORKER_CORES=1 [使用的内核数]
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_MEMORY=3g [使用内存大小]

以下为Spark的HA配置根据需求二选一；

//Spark 基于文件系统的HA配置

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=FILESYSTEM -Dspark.deploy.recoveryDirectory=/temp/recovery"

//Spark基于zookeeper的HA配置

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=hadoop1:2181,hadoop2:2181,hadoop3:2181 -Dspar
k.deploy.zookeeper.dir=/temp/recover"

最后运行： ./sbin/start-all.sh

单机模式运行jps命令看到 Master和Worker两个进程就ok了;

Spark系列（一）Spark1.0.0源码编译及安装的更多相关文章

spark2.1.0的源码编译
本文介绍spark2.1.0的源码编译 1.编译环境: Jdk1.8或以上 Hadoop2.7.3 Scala2.10.4 必要条件: Maven 3.3.9或以上(重要) 点这里下载 http:// ...
英蓓特Mars board的android4.0.3源码编译过程
英蓓特Mars board的android4.0.3源码编译过程作者:StephenZhu(大桥++) 2013年8月22日若要转载,请注明出处一.编译环境搭建及要点: 1. 虚拟机软件virt ...
非寻常方式学习ApacheTomcat架构及10.0.12源码编译
概述开启博客分享已近三个月,感谢所有花时间精力和小编一路学习和成长的伙伴们,有你们的支持,我们继续再接再厉 **本人博客网站 **IT小神 www.itxiaoshen.com 定义 Tomcat官 ...
解决Tomcat10.0.12源码编译问题进而剖析其优秀分层设计架构
概述 Tomcat.Jetty.Undertow这几个都是非常有名实现Servlet规范的应用服务器,Tomcat本身也是业界上非常优秀的中间件,简单可将Tomcat看成是一个Http服务器+Serv ...
pentaho专题系列之kettle篇--kettle源码编译
最近看了一些kettle的文章,都是kettle7.0以前的,已经跟不上时代了.截止笔者写这篇文章的时候,github上面的已经是7.1.0.3了,而且是发行版的,最新的快照版本已经是8.0的了.基于 ...
Ubuntu 环境 TensorFlow (最新版1.4) 源码编译、安装
Ubuntu 环境 TensorFlow 源码编译安装基于(Ubuntu 14.04LTS/Ubuntu 16.04LTS/) 一.编译环境 1) 安装 pip sudo apt-get insta ...
Spark-2.0.2源码编译
注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6813925210731840013/ Spark官网下载地址: http://spark.apache.org/d ...
android 5.0 (lollipop)源码编译环境搭建（Mac OS X)
硬件环境:MacBook Pro Retina, 13-inch, Late 2013 处理器 2.4 GHz Intel Core i5 内存 8 GB 1600 MHz DDR3 硬盘60G以 ...
hadoop2.0 eclipse 源码编译
在eclipse下编译hadoop2.0源码 http://www.cnblogs.com/meibenjin/archive/2013/07/05/3172889.html hadoop cdh4编 ...
kafka 0.11.0.3 源码编译
首先下载 kafka 0.11.0.3 版本源码: http://mirrors.hust.edu.cn/apache/kafka/0.11.0.3/ 下载源码首先安装 gradle,不再说明 1 ...

随机推荐

整理grep实战文本搜索过滤技巧
一:grep的简介: 文本搜索工具,根据用户指定的文本模式对目标文件进行逐行搜索,显示能够被模式所匹配到的行.配合正则表达式的使用可以实现强大的文本处理.下面一一说明正则的例子. 二:文本处理工具分类 ...
【BZOJ】1046 : [HAOI2007]上升序列
1046: [HAOI2007]上升序列题意:给定S={a1,a2,a3,…,an}问是否存在P={ax1,ax2,ax3,…,axm},满足(x1 < x2 < … < xm)且 ...
ios短信和电话--参考
调用打电话功能 [[UIApplicationsharedApplication] openURL:[NSURL URLWithString:@"tel://10086"]]; 调 ...
aircrack-ng on OSX 从零开始之安装
今天在知乎上看到了Evil1m0在知乎上写的一个关于无线网入侵的帖子,激起我也想折腾一下想法.其实这个想法已经由来已久了.如今WIFI遍地都有,这里面的安全隐患我真心觉得太大.实在需要舆论来给大家普及 ...
Hyper-V中安装CentOS分辨率修改
Hyper-V还是极好用的,不过对linux的支持优点问题, 比如默认情况,linux分辨率被锁定了,这里有一个比较简单的方法修改,针对CentOS grubby --update-kernel=AL ...
MAC下《暗黑世界》客户端版本编译说明！！
原地址:http://blog.csdn.net/uxqclm/article/details/11970659 2013-09-24 12:02 161人阅读评论(0) 收藏举报目录(?) ...
UVALive 3211 Now or later
每架飞机有早晚起降两种方式,给定n架飞机两种方式的起落时间,为每架飞机安排起落时间(早或晚),使得所有飞机起降时间按照早到晚的顺序之间的间隔时间最小值尽量大. 分析: 最小时间尽量大应该采用二分的方法 ...
github Git 原理简介
由于Git是一个DVCS(Distributed Version Control System,分布式版本控制系统),不同于传统的CVS/SVN版本系统那样必须由一个中央服务器来管理所有的版本记录,它 ...
ssh 密钥详解
ssh 无密码登录要使用公钥与私钥.linux下可以用用ssh-keygen生成公钥/私钥对,下面我以CentOS为例. 有机器A(192.168.1.155),B(192.168.1.181).现想 ...
Android include的使用
如果在程序中多次用到一部分相同的布局,可以先将这部分布局定义为一个单独的XML,然后在需要的地方通过<include>引入,如下: main.xml <?xml version=&q ...

Spark系列（一）Spark1.0.0源码编译及安装

Spark系列（一）Spark1.0.0源码编译及安装的更多相关文章

随机推荐

热门专题