基于cdh5.10.x hadoop版本的apache源码编译安装spark
参考文档:http://spark.apache.org/docs/1.6.0/building-spark.html
spark安装需要选择源码编译方式进行安装部署,cdh5.10.0提供默认的二进制安装包存在未知问题,如果直接下载spark二进制安装文件,配置完成后会发现启动spark及相关使用均会报错。
编译spark需要联网,spark使用scala语言编写,所以运行spark需要scala语言,上一步已经安装了scala,scala使用java编写,所以安装scala需要jdk支持,上文已经安装了jdk环境,同时编译spark最好手动安装maven,这里主要目的是更改maven工程镜像地址为国内镜像地址,这样可以加快spark编译安装速度,最主要的是可能你使用原生地址会出现各种奇怪问题,这也是我们独一无二的国情所决定的,国内想培养出顶尖级别计算机科学家,除了良好教育方式的欠缺,基于这些先决条件估计也是不可能的。
1、下载spark安装介质
maven安装介质:http://archive.apache.org/dist/maven/maven-3/3.3.3/binaries/apache-maven-3.3.3-bin.tar.gz
spark源码包:http://archive.apache.org/dist/spark/spark-1.6.0/spark-1.6.0.tgz
2、安装mave:
1)解压缩maven
tar -zxvf apache-maven-3.3.3-bin.tar.gz
mv apache-maven-3.3.3 /opt/service/maven-3.3.3
chown -R hadoop:hadoop /opt/service/maven-3.3.3/
2)配置maven环境变量:
export MAVEN_HOME=/opt/service/maven-3.3.3
export PATH=$MAVEN_HOME/bin:$PATH
3)本机编译环境如下:
#java -version
java version "1.7.0_67"
Java(TM) SE Runtime Environment (build 1.7.0_67-b01)
Java HotSpot(TM) 64-Bit Server VM (build 24.65-b04, mixed mode)
# scala -version
Scala code runner version 2.10.6 -- Copyright 2002-2013, LAMP/EPFL
# mvn -version
Apache Maven 3.3.3 (7994120775791599e205a5524ec3e0dfe41d4a06; 2015-04-22T19:57:37+08:00)
Maven home: /opt/service/maven-3.3.3
Java version: 1.7.0_67, vendor: Oracle Corporation
Java home: /opt/service/jdk1.7.0_67/jre
Default locale: en_US, platform encoding: UTF-8
OS name: "linux", version: "3.10.0-514.el7.x86_64", arch: "amd64", family: "unix"
4)修改maven仓库默认位置:
vim conf/settings.xml
--添加如下内容:
<localRepository>/home/hadoop/.m2/repository/</localRepository>
5)修改maven镜像位置为阿里云的maven镜像仓库
<mirrors>
<!-- mirror
| Specifies a repository mirror site to use instead of a given repository. The repository that
| this mirror serves has an ID that matches the mirrorOf element of this mirror. IDs are used
| for inheritance and direct lookup purposes, and must be unique across the set of mirrors.
|
<mirror>
<id>mirrorId</id>
<mirrorOf>repositoryId</mirrorOf>
<name>Human Readable Name for this Mirror.</name>
<url>http://my.repository.com/repo/path</url>
</mirror>
-->
<mirror>
<id>alimaven</id>
<mirrorOf>central</mirrorOf>
<name>aliyun maven</name>
<url>http://maven.aliyun.com/nexus/content/repositories/central/</url>
</mirror>
<mirror>
<id>repo1</id>
<mirrorOf>central</mirrorOf>
<name>Human Readable Name for this Mirror</name>
<url>http://repo1.maven.org/maven2/</url>
</mirror>
<mirror>
<id>repo2</id>
<mirrorOf>central</mirrorOf>
<name>Human Readable Name for this Mirror</name>
<url>http://repo2.maven.org/maven2/</url>
</mirror>
</mirrors>
更改完成之后可以在命令行,执行命令验证一下:mvn help:system
命令执行完成后我们可以在目录/home/hadoop/.m2/repository/下看到很多文件,这时表示maven已经配置成功了。
$ ls /home/hadoop/.m2/repository/
backport-util-concurrent classworlds com commons-cli commons-lang jdom jtidy junit org plexus xmlpull xpp3
3、编译spark源码
sudo tar -zxvf spark-1.6.0.tgz
sudo chown -R hadoop:hadoop spark-1.6.0
cd spark-1.6.0
vim pom.xml
==注释掉以下部分,否则编译过程会报错:
<!-- For transitive dependencies brougt by parquet-thrift -->
<repository>
<id>twttr-repo</id>
<name>Twttr Repository</name>
<url>http://maven.twttr.com</url>
<releases>
<enabled>true</enabled>
</releases>
<snapshots>
<enabled>false</enabled>
</snapshots>
</repository>
1)maven方式编译spark:
export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"
nohup mvn -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.0 -Phive -Phive-thriftserver -Dmaven.test.skip=true package -X >> spark_build_log.output & tail -f spark_build_log.output --已测试通过
nohup mvn -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.0 -Phive -Phive-thriftserver -Pspark-ganglia-lgpl -Dmaven.test.skip=true package -X >> spark_build_log.output & tail -f spark_build_log.output --未测试
2)打包工程:
vim make-distribution.sh
修改 MVN="$SPARK_HOME/build/mvn" 为 MVN="/opt/service/maven-3.3.3/bin/mvn" 形式,保存。
./make-distribution.sh --tgz --name 2.6.0 -Pyarn -Phadoop-2.6 -Pspark-ganglia-lgpl -P hive --已测试通过
./make-distribution.sh --tgz --name -Phadoop-2.6 -Dhadoop-version=2.6.0 -Pyarn -Phive-1.1.0 -Phive-thriftserver -Pspark-ganglia-lgpl --未测试
--注意:编译过程中出现问题,根据日志输出处理问题,然后重复执行以上两步,直到编译成功为止。
3)编译成功后会在spark源码包根目录下生成spark tar包文件:
$ls spark-1.6.0-bin-2.6.0.tgz
spark-1.6.0-bin-2.6.0.tgz
4、安装spark
tar -zxvf spark-1.6.0-bin-2.6.0.tgz -C /opt/cdh5/
cd /opt/cdh5/spark-1.6.0
5、配置环境变量
:spart-env.sh
JAVA_HOME=/opt/service/jdk1.7.0_67
SCALA_HOME=/opt/service/scala-2.10.6
HADOOP_CONF_DIR=/opt/cdh5/hadoop-2.6.0-cdh5.10.0/etc/hadoop
SPARK_MASTER_IP=db01
SPARK_MASTER_PORT=7077
SPARK_MASTER_WEBUI_PORT=8080
SPARK_WORKER_CORES=8
SPARK_WORKER_MEMORY=5g
SPARK_WORKER_PORT=7078
SPARK_WORKER_WEBUI_PORT=8081
SPARK_WORKER_INSTANCES=4
SPARK_WORKER_DIR=/opt/cdh5/spark-1.6.0/data/tmp
:slaves
db02
db03
db04
db05
6、配置spark-defaults.conf文件:不配置此选项运行spark服务还是在local模式下运行。
spark.master spark://db01:7077
7、scp安装文件到其他节点
scp -r spark-1.6.0/ db02:/opt/cdh5/
scp -r spark-1.6.0/ db03:/opt/cdh5/
scp -r spark-1.6.0/ db04:/opt/cdh5/
scp -r spark-1.6.0/ db05:/opt/cdh5/
8、启动spark集群
sbin/start-master.sh
sbin/start-slaves.sh
基于cdh5.10.x hadoop版本的apache源码编译安装spark的更多相关文章
- Apache源码编译安装脚本
Apache是开源的的.最流行的Web服务器软件之一,它快速.可靠并且可通过简单的API扩充,将Perl/Python/PHP等解释器编译到服务器中.Apache的模块超多,以及具有运行稳定,强大 ...
- apache源码编译安装
源码安装apche 下载apache的源码包文件 访问http://mirror.bit.edu.cn/apache/httpd/,复制如下gz文件的链接地址,并使用wget下载到本地 wget -P ...
- centos 7.1 apache 源码编译安装
Apache编译安装 一,需要软件: http://mirrors.cnnic.cn/apache//apr/apr-1.5.2.tar.gz 1.apr-1.5.2.tar.gz http://mi ...
- apache源码编译安装详解
查看是否安装 rpm -qa httpd 如果已安装,则卸载:rpm -e 卸载 --nodeps 不考虑意外 下载 wget http://mirrors.sohu.c ...
- Apache源码包安装和子配置文件介绍--update.2014-12-5
安装apache: 官网:http://httpd.apache.org/download.cgi#apache24 1.wget http://mirror.bit.edu.cn/apache//h ...
- centos 6.5源码编译安装subversion 1.8.10
一.简介 CentOS 6.5的yum源可以安装的SVN客户端版本太低了,1.6.11,所以需要升级到1.8.10,而官网有没有找到1.8.10的安装包,只能选择源码编译安装. 二.安装步骤 参考官网 ...
- zstack源码编译安装(1.7.x版本)
图片没粘贴过来,请看本人gitbook吧https://www.gitbook.com/book/jingtyu/how-to-learn-zstack-code 运行环境 zstack的安装方式有很 ...
- centos7 源码编译安装TensorFlow CPU 版本
一.前言 我们都知道,普通使用pip安装的TensorFlow是万金油版本,当你运行的时候,会提示你不是当前电脑中最优的版本,特别是CPU版本,没有使用指令集优化会让TensorFlow用起来更慢. ...
- mysql5.7.10 源码编译安装记录 (centos6.4)【转】
一.准备工作 1.1 卸载系统自带mysql 查看系统是否自带MySQL, 如果有就卸载了, 卸载方式有两种yum, rpm, 这里通过yum卸载 rpm -qa | grep mysql //查看系 ...
随机推荐
- 《Redis入门指南(第2版)》读后感
今天刚刚将此书看完,现在还能记住一些内容,还有一些感慨感想,正好又想写点什么了就随便记录一下吧!也许灵感明天就消失了呢? 首先觉得作者非常的厉害,年纪轻轻的就写出了这么一本非常不错的书籍! 然后就是对 ...
- 常用七种排序的python实现
1 算法复杂度 算法复杂度分为时间复杂度和空间复杂度.其中, 时间复杂度是指执行算法所需要的计算工作量:而空间复杂度是指执行这个算法所需要的内存空间. 算法的复杂性体现在运行该算法时的计算机所需资源的 ...
- 8个非常个性化的CSS3单/复选框
单选框和复选框在网页表单中应用十分广泛,但是浏览器默认自带的单选框和复选框样式不仅不统一,而且大多都比较简单丑陋.本文给大家介绍了一些基于CSS3的个性化单选框和复选框,一些选中动画是基于jQuery ...
- html网页采集
UI_Less.pas: unit UI_Less; interface uses Windows, Classes, Messages, Forms, MsHtml, Urlmon, ActiveX ...
- Java多线程系列——过期的suspend()挂起、resume()继续执行线程
简述 这两个操作就好比播放器的暂停和恢复. 但这两个 API 是过期的,也就是不建议使用的. 不推荐使用 suspend() 去挂起线程的原因,是因为 suspend() 在导致线程暂停的同时,并不会 ...
- 导出表结构sql语句
-- C:/dba必需是已经存在的目录 -- create or replace directory UTL_DIR as 'C:\dba'; --用sys用户登录给要访问的用户指定访问目录的权限gr ...
- Go指南练习_Reader
https://tour.go-zh.org/methods/22 一.题目描述 实现一个 Reader 类型,它产生一个 ASCII 字符 'A' 的无限流. 二.题目分析 io 包指定了 io.R ...
- WebSphere集群环境修改IHS端口号的方法 分类: WebSphere 2015-08-06 13:41 14人阅读 评论(0) 收藏
参考资料:http://wenku.baidu.com/link?url=E9BkuEjJ16i9lg7l91L0-xhKCYkHV0mAnlwAeSlDCFM4TjZyk4ZVxmUu64BGd4F ...
- Oracle Enterprise Linux 6.4 下配置vncserver
① 安装vncserveryum install tigervnc-server ② 配置/etc/sysconfig/vncservers 配置参数 # VNCSERVERS="2 ...
- (转) at&T语法格式 与 at&T - intel格式对比
原地址 示例: movl (%ebp), %eax, 等同于Intel格式中的 ] ,AT&T中,源操作数在左,目的操作数在右.“l”是Longword,相当于Intel格式中的dword p ...