查看Spark与Hadoop等其他组件的兼容版本

安装与Spark相关的其他组件的时候，例如JDK，Hadoop，Yarn，Hive，Kafka等，要考虑到这些组件和Spark的版本兼容关系。这个对应关系可以在Spark源代码的pom.xml文件中查看。

一、下载Spark源代码

打开网址https://github.com/apache/spark，例如选择v2.4.0-rc5版本，再点击“Clone or download”按钮，点击下方的“Download ZIP”进行下载。

二、查看pom.xml文件
将下载的源代码压缩包解压后，打开里面的pom.xml文件，查看properties标签内各配置项，里面有列出其他组件的兼容版本信息，例如<hadoop.version>2.6.5</hadoop.version>表示hadoop版本为2.6.5。如下：

  <properties>

    <project.build.sourceEncoding>UTF-</project.build.sourceEncoding>

    <project.reporting.outputEncoding>UTF-</project.reporting.outputEncoding>

    <java.version>1.8</java.version>

    <maven.compiler.source>${java.version}</maven.compiler.source>

    <maven.compiler.target>${java.version}</maven.compiler.target>

    <maven.version>3.5.</maven.version>

    <sbt.project.name>spark</sbt.project.name>

    <slf4j.version>1.7.</slf4j.version>

    <log4j.version>1.2.</log4j.version>

    <hadoop.version>2.6.</hadoop.version>

    <protobuf.version>2.5.</protobuf.version>

    <yarn.version>${hadoop.version}</yarn.version>

    <flume.version>1.6.</flume.version>

    <zookeeper.version>3.4.</zookeeper.version>

    <curator.version>2.6.</curator.version>

    <hive.group>org.spark-project.hive</hive.group>

    <!-- Version used in Maven Hive dependency -->

    <hive.version>1.2..spark2</hive.version>

    <!-- Version used for internal directory structure -->

    <hive.version.short>1.2.</hive.version.short>

    <derby.version>10.12.1.1</derby.version>

    <parquet.version>1.10.</parquet.version>

    <orc.version>1.5.</orc.version>

    <orc.classifier>nohive</orc.classifier>

    <hive.parquet.version>1.6.</hive.parquet.version>

    <jetty.version>9.3..v20180605</jetty.version>

    <javaxservlet.version>3.1.</javaxservlet.version>

    <chill.version>0.9.</chill.version>

    <ivy.version>2.4.</ivy.version>

    <oro.version>2.0.</oro.version>

    <codahale.metrics.version>3.1.</codahale.metrics.version>

    <avro.version>1.8.</avro.version>

    <avro.mapred.classifier>hadoop2</avro.mapred.classifier>

    <aws.kinesis.client.version>1.8.</aws.kinesis.client.version>

    <!-- Should be consistent with Kinesis client dependency -->

    <aws.java.sdk.version>1.11.</aws.java.sdk.version>

    <!-- the producer is used in tests -->

    <aws.kinesis.producer.version>0.12.</aws.kinesis.producer.version>

    <!--  org.apache.httpcomponents/httpclient-->

    <commons.httpclient.version>4.5.</commons.httpclient.version>

    <commons.httpcore.version>4.4.</commons.httpcore.version>

    <!--  commons-httpclient/commons-httpclient-->

    <httpclient.classic.version>3.1</httpclient.classic.version>

    <commons.math3.version>3.4.</commons.math3.version>

    <!-- managed up from 3.2. for SPARK- -->

    <commons.collections.version>3.2.</commons.collections.version>

    <scala.version>2.11.</scala.version>

    <scala.binary.version>2.11</scala.binary.version>

    <codehaus.jackson.version>1.9.</codehaus.jackson.version>

    <fasterxml.jackson.version>2.6.</fasterxml.jackson.version>

    <fasterxml.jackson.databind.version>2.6.7.1</fasterxml.jackson.databind.version>

    <snappy.version>1.1.7.1</snappy.version>

    <netlib.java.version>1.1.</netlib.java.version>

    <calcite.version>1.2.-incubating</calcite.version>

    <commons-codec.version>1.10</commons-codec.version>

    <commons-io.version>2.4</commons-io.version>

    <!-- org.apache.commons/commons-lang/-->

    <commons-lang2.version>2.6</commons-lang2.version>

    <!-- org.apache.commons/commons-lang3/-->

    <commons-lang3.version>3.5</commons-lang3.version>

    <datanucleus-core.version>3.2.</datanucleus-core.version>

    <janino.version>3.0.</janino.version>

    <jersey.version>2.22.</jersey.version>

    <joda.version>2.9.</joda.version>

    <jodd.version>3.5.</jodd.version>

    <jsr305.version>1.3.</jsr305.version>

    <libthrift.version>0.9.</libthrift.version>

    <antlr4.version>4.7</antlr4.version>

    <jpam.version>1.1</jpam.version>

    <selenium.version>2.52.</selenium.version>

    <!--

    Managed up from older version from Avro; sync with jackson-module-paranamer dependency version

    -->

    <paranamer.version>2.8</paranamer.version>

    <maven-antrun.version>1.8</maven-antrun.version>

    <commons-crypto.version>1.0.</commons-crypto.version>

    <!--

    If you are changing Arrow version specification, please check ./python/pyspark/sql/utils.py,

    ./python/run-tests.py and ./python/setup.py too.

    -->

    <arrow.version>0.10.</arrow.version>

    <test.java.home>${java.home}</test.java.home>

    <test.exclude.tags></test.exclude.tags>

    <test.include.tags></test.include.tags>

    <!-- Package to use when relocating shaded classes. -->

    <spark.shade.packageName>org.spark_project</spark.shade.packageName>

    <!-- Modules that copy jars to the build directory should do so under this location. -->

    <jars.target.dir>${project.build.directory}/scala-${scala.binary.version}/jars</jars.target.dir>

    <!-- Allow modules to enable / disable certain build plugins easily. -->

    <build.testJarPhase>prepare-package</build.testJarPhase>

    <build.copyDependenciesPhase>none</build.copyDependenciesPhase>

    <!--

      Dependency scopes that can be overridden by enabling certain profiles. These profiles are

      declared in the projects that build assemblies.

      For other projects the scope should remain as "compile", otherwise they are not available

      during compilation if the dependency is transivite (e.g. "graphx/" depending on "core/" and

      needing Hadoop classes in the classpath to compile).

    -->

    <flume.deps.scope>compile</flume.deps.scope>

    <hadoop.deps.scope>compile</hadoop.deps.scope>

    <hive.deps.scope>compile</hive.deps.scope>

    <orc.deps.scope>compile</orc.deps.scope>

    <parquet.deps.scope>compile</parquet.deps.scope>

    <parquet.test.deps.scope>test</parquet.test.deps.scope>

    <!--

      Overridable test home. So that you can call individual pom files directly without

      things breaking.

    -->

    <spark.test.home>${session.executionRootDirectory}</spark.test.home>

    <CodeCacheSize>512m</CodeCacheSize>

  </properties>

完毕。

查看Spark与Hadoop等其他组件的兼容版本的更多相关文章

对于spark以及hadoop的几个疑问(转)
Hadoop是啥?spark是啥? spark能完全取代Hadoop吗? Hadoop和Spark属于哪种计算计算模型(实时计算.离线计算)? 学习Hadoop和spark,哪门语言好? 哪里能找到比 ...
Spark学习之基础相关组件（1）
Spark学习之基础相关组件(1) 1. Spark是一个用来实现快速而通用的集群计算的平台. 2. Spark的一个主要特点是能够在内存中进行计算,因而更快. 3. RDD(resilient di ...
【Hadoop】ZooKeeper组件
目录一.配置时间同步二.部署zookeeper(master节点) 1.使用xftp上传软件包至~ 2.解压安装包 3.创建 data 和 logs 文件夹 4.写入该节点的标识编号 5.修改配置 ...
Spark和hadoop的关系
1. Spark VSHadoop有哪些异同点? Hadoop:分布式批处理计算,强调批处理,常用于数据挖掘和数据分析. Spark:是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速, ...
Spark和Hadoop作业之间的区别
Spark目前被越来越多的企业使用,和Hadoop一样,Spark也是以作业的形式向集群提交任务,那么在内部实现Spark和Hadoop作业模型都一样吗?答案是不对的. 熟悉Hadoop的人应该都知道 ...
Spark与Hadoop计算模型的比较分析
http://tech.it168.com/a2012/0401/1333/000001333287.shtml 最近很多人都在讨论Spark这个貌似通用的分布式计算模型,国内很多机器学习相关工作者都 ...
完全卸载hadoop安装的组件(hdp版本）
yum remove -y hadoop_* zookeeper* ranger* hbase_* ranger* hbase_* ambari-* hadoop_* zookeeper_* hbas ...
大数据 --> Spark和Hadoop作业之间的区别
Spark和Hadoop作业之间的区别熟悉Hadoop的人应该都知道,用户先编写好一个程序,我们称为Mapreduce程序,一个Mapreduce程序就是一个Job,而一个Job里面可以有一个或多个 ...
大数据 --> Spark与Hadoop对比
Spark与Hadoop对比什么是Spark Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法 ...

随机推荐

（数据科学学习手札78）基于geopandas的空间数据分析——基础可视化
本文对应代码和数据已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介通过前面的文章,我们已经对geopanda ...
C# 如何实现完整的INI文件读写类
作者: 魔法软糖日期: 2020-02-27 引言 ************************************* .ini 文件是Initialization File的缩写,即配置文 ...
Maven jar包冲突
在pom.xml中引入一个依赖,maven会自动导入这个依赖的依赖,方便的同时也会造成jar包冲突: (1)A.B都依赖C,我们导入A(自动导入C).B(自动导入C),maven自动导入了2个C,到底 ...
Linux kernel简介
内核体系设计分:单内核,微内核 windows是微内核设计. Linux是单内核设计,但充分借鉴了为微内核体系的优点,为内核引入了模块化机制. 内核的组成部分 kernel:内核核心,一般为bz压缩的 ...
Linux 文件|目录属性
文件属性 ls -l 列出的文件|目录信息如下第一个字符指定类型,-是文件,d是目录(dir). 后面9个字符是该文件|目录的用户权限:r读,w写,x执行. 执行是指:如果该文件是一个可执行文件, ...
.netcore 3.1高性能微服务架构：封装调用外部服务的接口方法--HttpClient客户端思路分析
众所周知,微服务架构是由一众微服务组成,项目中调用其他微服务接口更是常见的操作.为了便于调用外部接口,我们的常用思路一般都是封装一个外部接口的客户端,使用时候直接调用相应的方法.webservice或 ...
解决Spring Security自定义filter重复执行问题
今天做项目的时候,发现每次拦截器日志都会打两遍,很纳闷,怀疑是Filter被执行了两遍.结果debug之后发现还真是!记录一下这个神奇的BUG! 问题描述项目中使用的是Spring-security ...
sqlserver 批量修改数据库表主键名称为PK_表名
1.我们在创建sqlserver得数据表的主键的时候,有时会出现,后面加一串随机字符串的情况,如图所示: 2.如果你有强迫症的话,可以使用以下sql脚本进行修改,将主键的名称修改为PK_表名. --将 ...
利用Python读取CSV文件并计算某一列的均值和方差
近日需要对excel的csv文件进行处理,求取某银行历年股价的均值方差等一系列数据文件的构成很简单,部分如下所示总共有接近七千行数据,主要的工作就是将其中的股价数据提取出来,放入一个数组之中,然后 ...
通过sd文件发布的FeatureAccess服务不能查看到图层
发布服务有两种方法, 1. 用ArcMap --Share As - service --publish a service 此方法可以直接将地图数据发布到ArcGIS Server 的地图服务中, ...

查看Spark与Hadoop等其他组件的兼容版本

查看Spark与Hadoop等其他组件的兼容版本的更多相关文章

随机推荐

热门专题