Spark 2.1.1 源码编译

标签（空格分隔）： Spark

Spark 源码编译

环境准备与起因

由于线上Spark On Yarn Spark Streaming程序在消费kafka 写入HDFS table 使用Partition by 和 Savemode.append,在一定条件下导致写入HDFS 超过了处理批次。经过排查应该与 Spark 写入parquet 文件追加时候元数据检查所导致，修改源码后需要对其进行编译。

参考Spark的官方文档

根据Spark官方文档编译模块的介绍（http://spark.apache.org/docs/2.1.1/building-spark.html）的介绍：

环境：centos/ubuntu

软件准备：

spark-2.2.1.tgz源码

jdk-8u144-linux-x64.tar.gz   JDK1.8以上  

apache-maven-3.5.0-bin.tar.gz

scala-2.11.8.tgz

hadoop-2.7.3.tar.gz

注意点

yum -y install git

环境变量更改maven 默认内存

 export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m"（官网建议）

pom.xml

修改pom.xml 中属于自己使用的一些hadoop 版本，zookeeper 版本等信息

编译

手动自定义编译

# Apache Hadoop 2.7.X and later（指定hadoop版本）

mvn -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.3 -DskipTests clean package

# With Hive 1.2.1 support（指定hive的版本）

mvn -Pyarn -Phive -Phive-thriftserver -DskipTests clean package

指定scala版本

./dev/change-scala-version.sh 2.10

mvn -Pyarn -Dscala-2.10 -DskipTests clean package

由于我们生产上的CDH的版本如下： hadoop-2.7.3.tar.gz

mvn -Pyarn -Phive -Phive-thriftserver -Phadoop-2.7 -Dhadoop.version=2.7.3 -DskipTests clean package  （采用这种方式编译出来的不是tar.gz的格式）

官方脚本编译

./dev/make-distribution.sh --name 2.7.3   --tgz   -Phadoop-2.7 -Dhadoop.version=2.7.3 -Phive -Phive-thriftserver  -Pyarn   （这种方法编译出来的就是tgz形式，但是速度不快）

注意事项：

官方脚本自带一些环境变量检查，会导致编译检查耗时，直接强制修改make-distribution.sh脚本

1.将VERSION ，SCALA_VERSION ，SPARK_HADOOP_VERSION ，SPARK_HIVE 注释掉，直接写上自己的版本

#VERSION=$("$MVN" help:evaluate -Dexpression=project.version $@ 2>/dev/null | grep -v "INFO" | tail -n 1)        指的是spark2.1.1这个版本

#SCALA_VERSION=$("$MVN" help:evaluate -Dexpression=scala.binary.version $@ 2>/dev/null\    指的是scala 2.11

#    | grep -v "INFO"\

#    | tail -n 1)

#SPARK_HADOOP_VERSION=$("$MVN" help:evaluate -Dexpression=hadoop.version $@ 2>/dev/null\  指的是hadoop.version=2.7.3

#    | grep -v "INFO"\

#    | tail -n 1)

#SPARK_HIVE=$("$MVN" help:evaluate -Dexpression=project.activeProfiles -pl sql/hive $@ 2>/dev/null\    SPARK_HIVE为1表示支持

#    | grep -v "INFO"\

#    | fgrep --count "<id>hive</id>";\

#    # Reset exit status to 0, otherwise the script stops here if the last grep finds nothing\

#    # because we use "set -o pipefail"

#    echo -n)

将以下的内容贴在注释掉的那个脚本的后面即可

VERSION=2.1.1

SCALA_VERSION=2.11

SPARK_HADOOP_VERSION=2.7.3

SPARK_HIVE=1

if [ "$MAKE_TGZ" == "true" ]; then

TARDIR_NAME=spark-$VERSION-bin-$NAME #打包的文件名spark-2.1.1-bin-2.7.3

TARDIR="$SPARK_HOME/$TARDIR_NAME"     

rm -rf "$TARDIR"

cp -r "$DISTDIR" "$TARDIR"

tar czf "spark-$VERSION-bin-$NAME.tgz" -C "$SPARK_HOME" "$TARDIR_NAME"

rm -rf "$TARDIR"

fi

编译完成

编译完成后包在Spark src 主目录下，

Spark 2.1.1 源码编译的更多相关文章

基于cdh5.10.x hadoop版本的apache源码编译安装spark
参考文档:http://spark.apache.org/docs/1.6.0/building-spark.html spark安装需要选择源码编译方式进行安装部署,cdh5.10.0提供默认的二进 ...
Apache Spark源码走读之9 -- Spark源码编译
欢迎转载,转载请注明出处,徽沪一郎. 概要本来源码编译没有什么可说的,对于java项目来说,只要会点maven或ant的简单命令,依葫芦画瓢,一下子就ok了.但到了Spark上面,事情似乎不这么简单 ...
Spark源码编译
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3822995.html spark源码编译步骤如下: cd /home/hdpusr/workspace ...
Spark环境搭建（六）-----------sprk源码编译
想要搭建自己的Hadoop和spark集群,尤其是在生产环境中,下载官网提供的安装包远远不够的,必须要自己源码编译spark才行. 环境准备: 1,Maven环境搭建,版本Apache Maven 3 ...
Spark记录-源码编译spark2.2.0（结合Hive on Spark/Hive on MR2/Spark on Yarn）
#spark2.2.0源码编译 #组件:mvn-3.3.9 jdk-1.8 #wget http://mirror.bit.edu.cn/apache/spark/spark-2.2.0/spark- ...
spark源码编译记录
spark在项目中已经用了一段时间了,趁现在空闲,下个源码编译在IDEA里面阅读下,特此记录过程. 前提已经安装maven和git 1.上官网下载源码的包: 2.然后解压到一个文件夹 3.编译,编译的 ...
1、Spark 2.1 源码编译支持CDH
目前CDH支持的spark版本都是1.x, 如果想要使用spark 2x的版本, 只能编译spark源码生成支持CDH的版本. 一.准备工作找一台Linux主机, 由于spark源码编译会下载很多的 ...
Scala 深入浅出实战经典第61讲：Scala中隐式参数与隐式转换的联合使用实战详解及其在Spark中的应用源码解析
王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-87讲)完整视频.PPT.代码下载: 百度云盘:http://pan.baidu.com/s/1c0noOt ...
Scala 深入浅出实战经典第60讲：Scala中隐式参数实战详解以及在Spark中的应用源码解析
王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-87讲)完整视频.PPT.代码下载:百度云盘:http://pan.baidu.com/s/1c0noOt6 ...

随机推荐

springboot笔记之helloworld
开发工具:IDEA 2019 springboot版本:2.1.9 一.springboot2.x VS 1.x 基础环境升级最低 JDK 8,支持 JDK 9,不再支持 Java 6 和 7 依赖 ...
[gym101981D][2018ICPC南京D题]Country Meow
题目链接题目大意是求三维空间可以包含$n$个点的最小圆半径. 如果有做过洛谷P1337就会发现这到题很模拟退火,所以就瞎搞一发. $PS:$注意本题时限$3$秒. #include<bits/ ...
java tomcat服务器
1.什么是javaweb? Java web,是用java技术来解决相关web互联网领域的技术的总称. web包括:web服务器和web客户端两部分.java在最早web客户端的应用有java app ...
RabbitMQ入门教程(七)：主题交换机Topics
原文:RabbitMQ入门教程(七):主题交换机Topics 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog. ...
Spring+Spring MVC+Hibernate框架搭建实例
前言:这里只是说明整个搭建流程,并不进行原理性的讲解一下面所需要用到的数据库配置: 数据库方面,使用mysql创建一个users表,具体代码如下: 1 2 3 4 5 6 7 8 9 10 11 ...
3-关于ES的几个小疑问和解答
1.ES如何实现分布式 2.ES如何实现高实时 3.ES如何实现高扩展 4.ES7.x版本为何废弃type 5.搜索原理--知乎es
drf模块分析
drf请求模块.渲染模板.解析模块.响应模块.异常模块请求模块 drf的请求模块 1.drf的request是在wsgi的request基础上再次封装 2.wsgi的request作为drf的req ...
JS实现hasClass addClass removeClass
// 判断class有无 function hasClass(ele, cls) { if (ele) { cls = cls || '' if (cls.replace(/\s/g, '').len ...
MySQL8连接数据库
spring.datasource.driver-class-name=com.mysql.cj.jdbc.Driver spring.datasource.url=jdbc:mysql://127. ...
Delphi 注释

Spark 2.1.1 源码编译

Spark 2.1.1 源码编译

Spark 源码编译

环境准备与起因

注意点

pom.xml

编译

手动自定义编译

官方脚本编译

注意事项：

编译完成

Spark 2.1.1 源码编译的更多相关文章

随机推荐

热门专题