【Spark】一起了解一下大数据必不可少的Spark吧！

Spark概述

官网

http://spark.apache.org/

Spark是什么？

用官网的一句话来概括，就是Apache Spark™是一个用于大规模数据处理的统一分析引擎。 (Apache Spark™ is a unified analytics engine for large-scale data processing.

)

Apache Spark是一个快速、通用的集群计算系统。它提供了Java、Scala、Python和R的高级api，以及支持一般执行图的优化引擎。它还支持一组丰富的高级工具，包括用于SQL和结构化数据处理的Spark SQL、用于机器学习的MLlib、用于图形处理的GraphX和Spark流。(Apache Spark is a fast and general-purpose cluster computing system. It provides high-level APIs in Java, Scala, Python and R, and an optimized engine that supports general execution graphs. It also supports a rich set of higher-level tools including Spark SQL for SQL and structured data processing, MLlib for machine learning, GraphX for graph processing, and Spark Streaming.)

Apache Spark是一个开源集群运算框架，最初是由加州大学柏克莱分校AMPLab所开发。相对于Hadoop的MapReduce会在运行完工作后将中介数据存放到磁盘中，Spark使用了存储器内运算技术，能在数据尚未写入硬盘时即在存储器内分析运算。Spark在存储器内运行程序的运算速度能做到比Hadoop MapReduce的运算速度快上100倍，即便是运行程序于硬盘时，Spark也能快上10倍速度。[1]Spark允许用户将数据加载至集群存储器，并多次对其进行查询，非常适合用于机器学习算法。 ——摘自维基百科

特点

速度快 —— Apache Spark使用最先进的DAG调度器、查询优化器和物理执行引擎，实现了批处理和流数据的高性能。

易用 —— Spark支持Java、Python和Scala的API，还支持超过80种高级算法，使用户可以快速构建不同的应用。而且Spark支持交互式的Python和Scala的shell，可以非常方便地在这些shell中使用Spark集群来验证解决问题的方法。

通用 —— Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询（Spark SQL）、实时流处理（Spark Streaming）、机器学习（Spark MLlib）和图计算（GraphX）。这些不同类型的处理都可以在同一个应用中无缝使用。

兼容性 —— Spark可以非常方便地与其他的开源产品进行融合。比如，Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器，器，并且可以处理所有Hadoop支持的数据，包括HDFS、HBase和Cassandra等。这对于已经部署Hadoop集群的用户特别重要，因为不需要做任何数据迁移就可以使用Spark的强大处理能力。Spark也可以不依赖于第三方的资源管理和调度器，它实现了Standalone作为其内置的资源管理和调度框架，这样进一步降低了Spark的使用门槛，使得所有人都可以非常容易地部署和使用Spark。此外，Spark还提供了在EC2上部署Standalone的Spark集群的工具。

Spark架构模块

主要架构模块

Spark Core

实现了 Spark 的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core 中还包含了对弹性分布式数据集(resilient distributed dataset，简称RDD)的 API 定义。

Spark SQL

是 Spark 用来操作结构化数据的程序包。通过 Spark SQL，我们可以使用 SQL 或者 Apache Hive 版本的 SQL 方言(HQL)来查询数据。Spark SQL 支持多种数据源，比如 Hive 表、Parquet 以及 JSON 等。

Spark Streaming

是 Spark 提供的对实时数据进行流式计算的组件。提供了用来操作数据流的 API，并且与 Spark Core 中的 RDD API 高度对应。

MLlib

提供常见的机器学习(ML)功能的程序库。包括分类、回归、聚类、协同过滤等，还提供了模型评估、数据导入等额外的支持功能。

GraghX

GraphX是Spark中用于图形和图形并行计算的新组件。在高层次上，GraphX通过引入一个新的图形抽象扩展了Spark RDD:一个有向多重图，它的属性附加到每个顶点和边缘。为了支持图形计算，GraphX公开了一组基本操作符(例如，子图、joinVertices和aggregateMessages)，以及Pregel API的一个优化变体。此外，GraphX还包含了越来越多的图形算法和构建器，用于简化图形分析任务。

集群管理器

Spark 设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计算。为了实现这样的要求，同时获得最大灵活性，Spark 支持在各种集群管理器(cluster manager)上运行，包括 Hadoop YARN、Apache Mesos，以及 Spark 自带的一个简易调度器，叫作独立调度器。

主要运行角色

Master

主节点，主要用于集群的管理，任务资源的分配，以及接受客户端提交的任务。

在整个集群中，最多只有一个Master处于Active状态。在使用spark-shell等交互式运行或者使用官方提供的run-example实例时，Driver运行在Master节点中；若是使用spark-submit工具进行任务的提交或者IDEA等工具开发运行任务时，Driver是运行在本地客户端的。

Worker

从节点，主要是负责执行任务。

似于yarn中的NodeManager，在整个集群中，可以有多个Worker（>0）。负责当前WorkerNode上的资源汇报、监督当前节点运行的Executor。并通过心跳机制来保持和Master的存活性连接。Executor受到Worker掌控，一个Worker启动Executor的个数受限于机器中CPU核数。每个Worker节点存在一个多个CoarseGrainedExecutorBackend进程，每个进程包含一个Executor对象，该对象持有一个线程池，每个线程执行一个Task。

Executor

进程，启动一些进程来准备执行任务

Task

线程，任务执行的最小粒度单位

Application

指的是用户编写的Spark应用程序，包含了一个含有Driver功能的代码和分布在集群中多个节点上运行的Executor代码。通俗地说，运行一个main方法，就是一个application

Job

一个Application可以产生多个Job，其中Job由Spark Action触发产生。每个Job包含多个Task组成的并行计算。

client

客户端，主要用于提交任务。

Driver

驱动程序，主要是负责DAG划分，stage划分，以及task的分解等等

Spark运行模式

本地模式 —— Spark单机运行，使用本地的线程来模拟spark集群的运行，适用于开发调试用

Standalone模式 —— 构建一个由Master+Slave构成的Spark集群，Spark运行在集群中。

Spark on Yarn模式 —— Spark客户端直接连接Yarn。不需要额外构建Spark集群。

Spark on Mesos模式 —— Spark客户端直接连接Mesos。不需要额外构建Spark集群。