Windows环境编译Spark源码

一、下载源码包

　　1. 下载地址有官网和github：

　　http://spark.apache.org/downloads.html

　　https://github.com/apache/spark

　　Linux服务器上直接下载：wget https://archive.apache.org/dist/spark/spark-2.4.0/spark-2.4.0.tgz

　　2. 解压源码

二、解压环境

　　需要maven、jdk、git、scala、hadoop环境，并配置环境变量。

二、使用Maven编译Spark

　　先找到解压后的spark文件里的pom.xml把maven、jdk、scala、hadoop改成当前安装的版本。如图：

　　maven库的地址建议换成阿里的地址：http://maven.aliyun.com/nexus/content/groups/public

　　在编译过程需要保证编译机器的是联网的，以保证Maven从网上下载其依赖包。另外，编译前需要设置JVM内存大小，否则在编译过程中，会由于默认内存小而出现内存溢出的错误。编译执行脚本如下，其中，参数-P表示激活依赖的程序及版本，-Dskip Tests表示编译时跳过测试环节。

　　1、设置maven内存的环境变量

　　　　MAVEN_OPTS=-Xmx2g -XX:MaxPermSize=2048M -XX:ReservedCodeCacheSize=2048M

　　2、右击spark-2.4.0文件夹，选择Git Bash here，弹出git窗口，输入以下命令：

　　./build/mvn -Pyarn -Phadoop-2.8.4 -Dhadoop.version=2.8.4 -DskipTests clean package

　　整个编译过程编译了约29个任务，每个版本的数量不同。如果是已经下载依赖包的情况，则编译耗时1分钟左右。由于编译过程中需要下载较多的依赖包，因此整个编译时间取决于网速，最终编译完成后的文件夹大约为899MB。整个编译可能会很长，要耐心等待。

　　最终成功结果如下图：

　　如果在编译过程中出现了错误，解决后再重新执行编译命令：

　　错误1：Failed to collect dependencies at org.jpmml:pmml-model:jar:1.2.15

　　　　Could not resolve dependencies for project org.apache.spark:spark-core_2.11:jar:2.4.0

　　这两种都是依赖包下载失败，为了避免重新跑脚本还会失败浪费时间，建议使用idea加载jar包，或者到maven官网手动下载好放到maven本地库里。

　　错误2：有时第二次编译时，会删除源码包里面target里面的文件失败，可以手动删除，或者重新解压个新的spark源码文件，再编译。

Windows环境编译Spark源码的更多相关文章

编译spark源码及塔建源码阅读环境
编译spark源码及塔建源码阅读环境 (一),编译spark源码 1,更换maven的下载镜像: <mirrors>  <mirror> ...
Spark 学习(三) maven 编译spark 源码
spark 源码编译 scala 版本2.11.4 os:ubuntu 14.04 64位 memery 3G spark :1.1.0 下载源码后解压 1 准备环境,安装jdk和scala,具体参考 ...
Spark笔记--使用Maven编译Spark源码(windows)
1. 官网下载源码 source code,地址: http://spark.apache.org/downloads.html 2. 使用maven编译: 注意在编译之前,需要设置java堆大小以及 ...
Windows使用Idea编译spark源码
1. 环境准备 JDK1.8 Scala2.11.8 Maven 3.3+ IDEA with scala plugin 2. 下载spark源码下载地址 https://archive.apach ...
window环境下使用sbt编译spark源码
前些天用maven编译打包spark,搞得焦头烂额的,各种错误,层出不穷,想想也是醉了,于是乎,换种方式,使用sbt编译,看看人品如何! 首先,从官网spark官网下载spark源码包,解压出来.我这 ...
编译Spark源码
Spark编译有两种处理方式,第一种是通过SBT,第二种是通过Maven.作过Java工作的一般对于Maven工具会比较熟悉,这边也是选用Maven的方式来处理Spark源码编译工作. 在开始编译工作 ...
Windows下编译live555源码
Windos下编译live555源码环境 Win7 64位 + VS2012 步骤 1)源码下载并解压在官网上下载最新live555源码,并对其进行解压. 2)VS下建立工程项目新建Win32项 ...
Spark—编译Spark源码
Spark版本:Spark-2.1.0 Hadoop版本:hadooop-2.6.0-cdh5.7.0 官方文档:http://spark.apache.org/docs/latest/buildin ...
windows环境中hbase源码编译遇到的问题
转载请注明出处问题一 [ERROR] Failed to execute goal org.codehaus.mojo:findbugs-maven-plugin:3.0.0:findbugs (d ...

随机推荐

Docker镜像-列出镜像
列出镜像镜像体积虚悬镜像中间层镜像列出部分镜像要想列出已经下载下来的镜像,可以使用docker images 或者 docker image ls 命令. $ docker image ls ...
MRCTF 2020-“TiKi小组”
题目状态: OPEN - 正在试图解这道题CLOSED - 这道题还没有打开SOLVED - 解决了!鼓掌撒花! 赛事信息 Flag格式:MRCTF{}起止时间:2020-03-27 18:00:00 ...
day58 bootstrap效果无法显示
在学习bootstrap时直接复制官网的组件的时候,如果效果无法想官网一样显示,最大的可能是类库导入的顺序问题. 打开页面>检查>Console 我们会发现一条报错,导入的js需要jQue ...
redis（十)：Redis 列表(List)
Redis 列表(List) Redis列表是简单的字符串列表,按照插入顺序排序.你可以添加一个元素到列表的头部(左边)或者尾部(右边) 一个列表最多可以包含 232 - 1 个元素 (4294967 ...
如何用 Python 做自动化测试【进阶必看】
一.Selenium 环境部署 1. window 环境部署 1.1 当前环境Win10 64 位系统:Python3.6.2(官方已经更新到了 3.6.4) 官方下载地址:https://www.p ...
OSCP Learning Notes - Exploit(5)
Java Applet Attacks Download virtual machines from the following website: https://developer.microsof ...
SQL : 把特定的数据排前面 & 分别查询几组数据的最大值
把特定的数据排前面 : 比如说,把没有审核身份证的人排最前面,然后再按userId正序排. select case when idcardverified = 1 then 0 else 1 end ...
重磅分享：美团点评架构师私藏的内部Linux运维笔记
最近不少小伙伴后台联系,希望能弄一些大厂的学习资料,我这边费了很大劲,联系到老朋友,原美团点评架构师张sir,问他要了些美团点评架构的内部资料. 这份资料含金量非常高,包含整个美团点评架构架构图,Li ...
epic游戏平台如何启用认证器应用程序/二次验证码/谷歌身份验证器？
1.登陆epic游戏平台,找到二次验证绑定界面登陆https://www.epicgames.com/store/zh-CN/, 点右上角用户头像-[账户]. 之后点-[密码与安全] 在[双重验证] ...
springboot 跨域设置
/** * Configuration cors */ @Configuration public class MyConfiguration { @Bean public FilterRegistr ...

Windows环境编译Spark源码

Windows环境编译Spark源码的更多相关文章

随机推荐

热门专题