Spark记录（一）：Spark全景概述

一、Spark是什么

Spark是一个开源的大数据处理引擎。

二、Spark的主要组件如下图所示：

三、Spark运行时架构

Spark共有三种运行模式：本地模式、集群模式、客户端模式。

生产环境基本都是用集群模式。集群模式需要用到集群管理器，三个核心的集群管理器为：Spark自带的独立集群管理器、Yarn、Mesos。

集群模式运行时，单个Spark任务的架构图为：

其中集群管理器负责分配/回收服务器资源和监控整个Spark任务是否完成。

四、IDEA环境准备

1、准备Scala的SDK

若用Scala开发的话，需做此步。下载Scala的msi文件本地安装之后，在IDEA中如下图所示的加号位处导入Scala的SDK目录，导入之后会如下图所示：

2、在Plugins中安装名叫Scala的插件

自行安装即可

3、配置项目支持Scala

选中项目最高级目录后右键，选择【Add Framework Support】，然后在里面勾选Scala选项

如此之后，便可以在包里面右键new Scala类了：

4、导入maven依赖

<dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-core_${scala.version}</artifactId>

            <version>${spark.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-streaming_${scala.version}</artifactId>

            <version>${spark.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-sql_${scala.version}</artifactId>

            <version>${spark.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-hive_${scala.version}</artifactId>

            <version>${spark.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-mllib_${scala.version}</artifactId>

            <version>${spark.version}</version>

        </dependency>

版本用的是：

<spark.version>3.2.0</spark.version>

        <scala.version>2.13</scala.version>

5、编写个简单的脚本运行

def main(args: Array[String]): Unit = {

    val ss = SparkSession.builder().appName("localhost").master("local[*]").getOrCreate()

    val df1 = ss.range(2, 100, 2).toDF()

    val df2 = ss.range(2, 100, 4).toDF()

    val df11 = df1.repartition(5)

    val df21 = df2.repartition(6)

    val df12 = df11.selectExpr("id * 5 as id")

    val df3 = df2.join(df12, "id")

    val df4 = df3.selectExpr("sum(id)")

    df4.collect().foreach(println(_))

    df4.explain()

  }

运行结果：

Intersting Number！

explain打印出来的逻辑计划，有时间再详细解读。

另附：

1、下载历史Hadoop版本的地址：

http://archive.apache.org/dist/hadoop/core/

2、下载winutils.exe、hadoop.dll文件的地址：

https://blog.csdn.net/ytp552200ytp/article/details/107223357

Spark记录（一）：Spark全景概述的更多相关文章

Spark记录-本地Spark读取Hive数据简单例子
注意:将mysql的驱动包拷贝到spark/lib下,将hive-site.xml拷贝到项目resources下,远程调试不要使用主机名 import org.apache.spark._ impor ...
Spark记录-SparkSql官方文档中文翻译（部分转载）
1 概述(Overview) Spark SQL是Spark的一个组件,用于结构化数据的计算.Spark SQL提供了一个称为DataFrames的编程抽象,DataFrames可以充当分布式SQL查 ...
Spark记录-SparkSQL相关学习
$spark-sql --help 查看帮助命令 $设置任务个数,在这里修改为20个 spark-sql>SET spark.sql.shuffle.partitions=20; $选择数据 ...
Spark记录-实例和运行在Yarn
#运行实例 #./bin/run-example SparkPi 10 #./bin/spark-shell --master local[2] #./bin/pyspark --master l ...
Spark记录-官网学习配置篇（一）
参考http://spark.apache.org/docs/latest/configuration.html Spark提供三个位置来配置系统: Spark属性控制大多数应用程序参数,可以使用Sp ...
Spark记录-spark编程介绍
Spark核心编程 Spark 核心是整个项目的基础.它提供了分布式任务调度,调度和基本的 I/O 功能.Spark 使用一种称为RDD(弹性分布式数据集)一个专门的基础数据结构,是整个机器分区数据的 ...
Spark记录-spark介绍
Apache Spark是一个集群计算设计的快速计算.它是建立在Hadoop MapReduce之上,它扩展了 MapReduce 模式,有效地使用更多类型的计算,其中包括交互式查询和流处理.这是一个 ...
Spark记录-spark与storm比对与选型（转载）
大数据实时处理平台市场上产品众多,本文着重讨论spark与storm的比对,最后结合适用场景进行选型. 一.spark与storm的比较比较点 Storm Spark Streaming 实时计算模 ...
Spark记录-Spark on mesos配置
1.安装mesos #用centos6的源yum安装 # rpm -Uvh http://repos.mesosphere.io/el/6/noarch/RPMS/mesosphere-el-repo ...

随机推荐

JDBC-2(CRUD)
3.PreparedStatement实现CRUD 3.1 操作和访问数据库数据库连接被用于向数据库服务器发送命令和SQL语句,接受数据库服务器返回的结果.(一个数据库连接就是也给Socket连接) ...
php 设计模式 --组合器模式
PHP 开启错误显示并设置错误报告级别 ini_set('error_reporting', E_ALL); ini_set('display_errors', 'on'); 目的:分级处理:整体 ...
hadoop生态之CDH搭建系列
本次搭建使用的版本是CloudManager 1.15.1
PolarDB PostgreSQL DDL同步原理
概述在共享存储一写多读的架构下,数据文件实际上只有一份.得益于多版本机制,不同节点的读写实际上并不会冲突.但是有一些数据操作不具有多版本机制,其中比较有代表性的就是文件操作.多版本机制仅限于文件内的 ...
通过Git在本地局域网中的两台电脑间同步代码
0.前言一般情况下同步代码可以通过在GitHub/GitLab等网站新建远程仓库,所有机器都向仓库推送或者从仓库下拉更新. 上述过程步骤也不算复杂,不过有时候我们考虑到仓库的安全性等因素,只想在局域 ...
数据结构与算法——克鲁斯卡尔（Kruskal）算法
目录应用场景-公交站问题克鲁斯卡尔算法介绍克鲁斯卡尔算法图解克鲁斯卡尔算法分析如何判断回路? 代码实现无向图构建克鲁斯卡尔算法实现获取一个点的终点解释应用场景-公交站问题某城市新增 ...
编译原理: FIRST(x) FOLLOW(x) SELECT(x)的计算
目录 First计算 Follow计算 Select计算已知文法G[S]: S→MH|a H→LSo|ε K→dML|ε L→eHf M→K|bLM 判断G是否是LL(1)文法. First计算 F ...
Java学习路线【转】
Java学习路线[转] 第一阶段:JavaSE(Java基础部分) Java开发前奏计算机基本原理,Java语言发展简史以及开发环境的搭建,体验Java程序的开发,环境变量的设置,程序的执行过程,相 ...
DL4J实战之四：经典卷积实例(GPU版本)
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
洛谷3176 [HAOI2015]数字串拆分（矩阵乘法+dp）
qwq真的是一道好题qwq自己做基本是必不可能做出来的. 首先,如果这个题目只是求一个$f$数组的话,那就是一道裸题. 首先,根据样例根据题目描述,我们能发现其实同样数字的不同排列,也是属于不同 ...

Spark记录（一）：Spark全景概述

Spark记录（一）：Spark全景概述的更多相关文章

随机推荐

热门专题