星星之火，可以燎原

Spark简介

Spark是一个开源的计算框架平台，使用该平台，数据分析程序可自动分发到集群中的不同机器中，以解决大规模数据快速计算的问题，同时它还向上提供一个优雅的编程范式，使得数据分析人员通过编写类似于本机的数据分析程序即可实现集群并行计算。

Spark项目由多个紧密集成的组件组成。核心是Spark Core组件，它实现了Spark的基本功能，包括：任务调度、内存管理、错误恢复、与存储系统交互等模块，特别的，Spark Core还定义了弹性分布式数据集（RDD）的API，是Spark内存计算与并行计算的主要编程抽象。

在Spark Core上有一系列软件栈，用于满足了各种不同数据分析计算任务需求，包括连接关系型数据库或Hadoop Hive的SQL／HQL的查询组件Spark SQL，对实时数据进行流式计算的组件Spark Steaming，支持常见机器学习算法并行计算组件MLlib，支持并行图计算组件GraphX等。

为了进一步支持在数千个计算节点上的伸缩计算，Spark Core底层支持在各种集群管理器上运行，包括Hadoop YARN、Apache Mesos，或者Spark自带的Standalone独立调度器。

Spark部署

安装Spark比较简单，只要在机器上配置好最新版JAVA环境，下载编译好的Spark软件包后即可在本地运行。当然，也可以根据具体环境，使用Maven编译需要的Spark功能。

Spark部署有两种方式，一是本地部署，二是集群部署。前者只需启动本地的交互式环境spark-shell.sh脚本即可，常用在本机快速程序测试，后者的应用场景更多些，具体根据集群环境不同，可部署在简易的Spark独立调度集群上、部署在Hadoop YARN集群上、或部署在Apache Mesos上等。

其中，Spark自带的独立调度器是最简单实现Spark集群环境的一种方式，只需在多台联网计算机上安装好Spark，然后在其中一台启动集群管理器（通过start-master.sh脚本），然后再在其他计算机上启动工作节点（通过start-slave.sh脚本），并连接到管理器上即可。

Spark编程

使用Spark编程，需要先在本机安装好Spark环境，然后启动Spark上下文管理器连接到本机（本地部署）或是集群上的集群管理器（集群部署），再使用Spark提供的抽象接口编程即可。

支持Spark的原生语言是Scala，一种支持JVM的脚本语言，可以避免其他语言在做数据转化过程的性能或信息丢失。但随着Spark项目的不断完善，使用Python和PySpark包、或者R和SparkR包进行Spark编程也都是不错的选择。

不论使用何种编程语言，使用Spark进行数据分析的关键在于掌握Spark抽象的编程范式，其基本流程包括4步：

初始化SparkContext。SparkContext即是Spark上下文管理器（也称为驱动器程序），它主要负责向Spark工作节点上发送指令并获得计算结果，但数据分析人员无需关注具体细节，只需使用SparkContext接口编程即可。
创建RDD。弹性分布数据集RDD是Spark在多机进行并行计算的核心数据结构，因此使用Spark进行数据分析，首先需使用SparkContext将外部数据读入到Spark集群内。
设计数据转化操作。即操作的结果是返回一个新的RDD，即在图计算中只是一个中间节点。类比于Hadoop的Map()映射算子，但又不仅于此，Spark还支持filter()过滤算子、distinct()去重算子、sample()采样算子，以及多个RDD集合的交差补并等集合操作。
设计数据执行操作。即操作的结果向SparkContext返回结果，或者将结果写入外部操作系统。类比于Hadoop的Reduce()算子，按某函数操作两个数据并返回一个同类型的数据，此外Spark还支持collect()直接返回结果算子、count()计数算子、take()/top()返回部分数据算子、foreach()迭代计算算子等操作。

Spark编程范式的本质是有向无环图方式的惰性计算，即当使用上述方式进行编程后，Spark将自动将上述RDD和转化算子转换为有向无环图的数据工作流，只有当触发执行算子时，才按需进行数据工作流的计算。此外，为进一步提高计算效率，Spark默认将在内存中执行，并自动进行内存分配管理，当然分析人员也可根据需求通过persist()算子将中间步骤数据显式的将内存数据持久化到磁盘中，以方便调试或复用。

在R环境下使用Spark实例

最新版的RStudio已经较完整的集成了Spark数据分析功能，可以在SparkR官方扩展接口基础上更方便的使用Spark，主要需要安装两个包，分别是sparklyr和dplyr。其中，sparklyr包提供了更简洁易用的Spark R编程接口，dplyr包提供了一个语法可扩展的数据操作接口，支持与主流SQL/NoSQL数据库连接，同时使数据操作与数据集数据结构解耦合，并且和Spark原生算子可基本对应。

若第一次运行，先在本机安装必要的包和Spark环境：

install.package('sparklyr')
install.package('dplyr')
# 在本机自动安装Spark和hadoop环境，若已手动安装设定环境变量即可
spark_install(version = "1.6.0", hadoop_version = "2.6")
# 设定本机Spark环境变量
Sys.setenv(SPARK_HOME='~/Library/Caches/spark/spark-1.6.0-bin-hadoop2.6')

之后运行下面的小例子，可以发现，除了需要初始化SparkContext、导入RDD数据和导出数据外，其他数据处理操作都与在本机做数据分析是一样的。

library(sparklyr)
library(dplyr)
# 创建SparkContext并连接Spark自带的集群管理器，也可设置为本机环境，即master=‘local’
sc <- spark_connect(master = '127.0.0.1:7077') 
# 将iris数据集读入到Spark中，得到RDD对象引用，在R中为dplyr的tbl通用数据框格式
iris.spark <- copy_to(sc, iris)
# dplyr数据链式操作，计算在Spark集群中完成，并将结果通过collect()返回至R内存变量中
iris.r <- iris.spark %>% 
   select(Sepal_Length, Species) %>% 
   filter(Sepal_Length>5) %>% 
   group_by(Species) %>% 
   summarise(SL_mean=mean(Sepal_Length)) %>% 
   arrange(SL_mean) %>% 
   collect()

此外，除了dplyr接口外，sparklyr还封装了一套特征工程和常用机器学习算法，足以满足80%常见的数据分析与挖掘工作，至于剩余的20%定制算法或是流处理、图计算等任务，便需要了解更多高阶的Spark接口来实现了。

数据科学武林风起云涌，

随数据小虾米共闯江湖~

Spark入门实战的更多相关文章

Spark入门实战系列--10.分布式内存文件系统Tachyon介绍及安装部署
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Tachyon介绍 1.1 Tachyon简介随着实时计算的需求日益增多,分布式内存计算 ...
Spark入门实战系列--1.Spark及其生态圈简介
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .简介 1.1 Spark简介年6月进入Apache成为孵化项目,8个月后成为Apache ...
Spark入门实战系列--2.Spark编译与部署（上）--基础环境搭建
[注] 1.该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取: 2.Spark编译与部署将以CentOS 64位操作系统为基础,主要是考虑到实际应用 ...
Spark入门实战系列--2.Spark编译与部署（中）--Hadoop编译安装
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .编译Hadooop 1.1 搭建环境 1.1.1 安装并设置maven 1. 下载mave ...
Spark入门实战系列--2.Spark编译与部署（下）--Spark编译安装
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .编译Spark .时间不一样,SBT是白天编译,Maven是深夜进行的,获取依赖包速度不同 ...
Spark入门实战系列--3.Spark编程模型（上）--编程模型及SparkShell实战
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Spark编程模型 1.1 术语定义 l应用程序(Application): 基于Spar ...
Spark入门实战系列--3.Spark编程模型（下）--IDEA搭建及实战
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 . 安装IntelliJ IDEA IDEA 全称 IntelliJ IDEA,是java语 ...
Spark入门实战系列--4.Spark运行架构
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 1. Spark运行架构 1.1 术语定义 lApplication:Spark Appli ...
Spark入门实战系列--5.Hive（上）--Hive介绍及部署
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Hive介绍 1.1 Hive介绍月开源的一个数据仓库框架,提供了类似于SQL语法的HQ ...
Spark入门实战系列--5.Hive（下）--Hive实战
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 1.Hive操作演示 1.1 内部表 1.1.1 创建表并加载数据第一步启动HDFS ...

随机推荐

LOGISTIC回归分析
前面的博客有介绍过对连续的变量进行线性回归分析,从而达到对因变量的预测或者解释作用.那么如果因变量是离散变量呢?在做行为预测的时候通常只有"做"与"不做的区别" ...
规范 : angular ui router path & params
在seo文章中提到url的path 必须是 why-us,而不是whyUS 所以定了规范,所有的path 必须why-us path ?后尾的是用来filter的,所以可以WhyUs 如果是不需要给s ...
每天一个linux命令(55)--at命令
在Windows系统中,Windows提供了计划任务这一功能,在控制面板 -> 性能与维护 -> 任务计划,它的功能就是安排自动运行的任务.通过 ‘ 添加任务计划’ 的一步步引导, ...
第六篇项目疑问 ------- BaseService<T> where T : class, new() 含义
public abstract class BaseService<T> where T : class, new() { //当前仓储 //DbSession的存放 //为了职责单一的原 ...
nginx新手入门
nginx的应用官网(nginx.org) nginx可以做1.web服务(http服务)2.http代理服务3负载均衡在官网(nginx.org)如下图处下载先点击跳转下一页点击(nginx/w ...
快速排序算法javascript实现
function quicksort(arr){ function q(start,end){ if(start>=end){return;} var pivot = start, temp = ...
php 与redis 结合使用predis
分为2步骤 1.下载predis 2.使用predis,让php与redis进行通信 <?php require('autoload.php'); $redis = new Predis\Cli ...
Ubuntu16.04下搭建LAMP环境
前期准备sudo apt-get update # 获取最新资源包sudo apt-get upgrade # 本机软件全部更新sudo apt-get d ...
C++设计模式:Template Method
我使用过一个简单的后台服务框架.这个框架上手很容易,我只需要继承一个基类,同时实现,或重写(override)基类声明的几个接口(这些接口声明为虚函数,或者纯虚函数),然后调用基类定义好的run()函 ...
Rabbitmq集群高可用部署详细
序言清风万里的季节,周末本该和亲人朋友一起消遣这烂漫的花花草草,或是懒洋洋的晒个太阳听听风声鸟鸣.无奈工作使然,理想使然,我回到啦公司,敲起啦键盘,撸起啦代码,程序狗的世界一片黯然,一片黯然,愿天下 ...