spark第二篇--基本原理

==是什么 ==

目标Scope（解决什么问题）

在大规模的特定数据集上的迭代运算或重复查询检索

官方定义

aMapReduce-like cluster computing framework designed for low-latency iterativejobs and interactive use from an interpreter

个人理解

首先，MapReduce-like是说架构上和多数分布式计算框架类似，Spark有分配任务的主节点（Driver）和执行计算的工作节点（Worker）

其次，Low-latency基本上应该是源于Worker进程较长的生命周期，可以在一个Job过程中长驻内存执行Task，减少额外的开销

然后对interative重复迭代类查询运算的高效支持，是Spark的出发点了。最后它提供了一个基于Scala的Shell方便交互式的解释执行任务

==如何实现 ==

核心思路，架构

RDD：Spark的核心概念是RDD
(resilientdistributed dataset)，指的是一个只读的，可分区的分布式数据集，这个数据集的全部或部分可以缓存在内存中，在多次计算间重用。

Lineage：利用内存加快数据加载在众多的其它的In-Memory类数据库或Cache类系统中也有实现，Spark的主要区别在于它处理分布式运算环境下的数据容错性（节点实效/数据丢失）问题时采用的方案。为了保证RDD中数据的鲁棒性，RDD数据集通过所谓的血统关系(Lineage)记住了它是如何从其它RDD中演变过来的。相比其它系统的细颗粒度的内存数据更新级别的备份或者LOG机制，RDD的Lineage记录的是粗颗粒度的特定数据变换（Transformation）操作（filter,
map, join etc.)行为。当这个RDD的部分分区数据丢失时，它可以通过Lineage获取足够的信息来重新运算和恢复丢失的数据分区。这种粗颗粒的数据模型，限制了Spark的运用场合，但同时相比细颗粒度的数据模型，也带来了性能的提升。

总之，Spark的核心思路就是将数据集缓存在内存中加快读取速度，同时用lineage关联的RDD以较小的性能代价保证数据的鲁棒性。

适用领域

正如其目标scope，Spark适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多，所需读取的数据量越大，受益越大，数据量小但是计算密集度较大的场合，受益就相对较小。

细节

使用内存缓存数据集快在哪里？主要是几个方面：首先是磁盘IO，其次数据的序列化和反序列化的开销也节省了，最后相对其它内存数据库系统，粗颗粒度的内存管理机制减小了数据容错的代价（如典型的数据备份复制机制）

==相关项目 ==

上下游项目

Discretized Streams (Spark streaming)

构建在Spark上处理Stream数据的框架，基本的原理是将Stream数据分成小的时间片断（几秒），以类似batch批量处理的方式来处理这小部分数据。个人理解构建在Spark上的原因大概是因为Spark的低延迟执行引擎（100ms+）勉强可以用于实时处理，而Spark的核心理念数据重用和流式数据处理本身并没有直接的交集，相反个人感觉流式数据的无穷连续性的特性一定程度上和数据重用是冲突的。相比基于Record的其它处理框架（如Storm），RDD数据集更容易做高效的容错处理。此外小批量处理的方式使得它可以同时兼容批量和实时数据处理的逻辑和算法。方便了一些需要历史数据和实时数据联合分析的特定应用场合。

Shark ( Hive on Spark)

Shark基本上就是在Spark的框架基础上提供和Hive一样的H
iveQL命令接口，为了最大程度的保持和Hive的兼容性，Shark使用了Hive的API来实现query
Parsing和 Logic Plan generation，最后的PhysicalPlan execution阶段用Spark代替Hadoop
MapReduce。通过配置Shark参数，Shark可以自动在内存中缓存特定的RDD，实现数据重用，进而加快特定数据集的检索。同时，Shark通过UDF用户自定义函数实现特定的数据分析学习算法，使得SQL数据查询和运算分析能结合在一起，最大化RDD的重复使用。

类似项目

Twister :http://www.iterativemapreduce.org大概的意思也是通过Cache数据，实现迭代的MapReduce过程中的数据重用,不过它的模型貌似相对简单些，大致是通过拓展MapReduce
API，分发管理缓存数据，然后通过自己的Daemon进程管理和分配MapReduce Task到Cache对应的节点上，容错性和计算模型方面没有Shark的RDD来得精巧和通用。

Haloop:和Twister类似，修改扩展了MapReduce框架，增加了循环逻辑和Data
Caching

==相关文献 ==

http://spark-project.org/项目首页

http://shark.cs.berkeley.edu/ shark项目主页

Paper论文

http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf

==其它 ==

主要实现和编程接口基于Scala

转自：http://blog.csdn.net/colorant/article/details/8255958

spark第二篇--基本原理的更多相关文章

Spark 准备篇-基本原理
本章内容: 待整理参考文献: <深入理解SPARK:核心思想与源码分析>(第2章) Spark的作业提交及运行流程的异同
spark第二篇：Application Submission Guide
提交应用 Spark的bin目录中的spark-submit脚本用于启动集群上的应用程序.它可以通过一个统一的接口使用所有Spark支持的集群管理器. 绑定应用程序的依赖如果你的代码依赖其他项目,你 ...
[老老实实学WCF] 第二篇配置WCF
老老实实学WCF 第二篇配置WCF 在上一篇中,我们在一个控制台应用程序中编写了一个简单的WCF服务并承载了它.先回顾一下服务端的代码: using System; using System.Col ...
老老实实学习WCF[第二篇] 配置wcf
老老实实学WCF 第二篇配置WCF 在上一篇中,我们在一个控制台应用程序中编写了一个简单的WCF服务并承载了它.先回顾一下服务端的代码: using System; using System.Col ...
（转）[老老实实学WCF] 第二篇配置WCF
第二篇配置WCF 在上一篇中,我们在一个控制台应用程序中编写了一个简单的WCF服务并承载了它.先回顾一下服务端的代码: using System; using System.Collections. ...
第二篇配置wcf
老老实实学WCF 第二篇配置WCF 在上一篇中,我们在一个控制台应用程序中编写了一个简单的WCF服务并承载了它.先回顾一下服务端的代码: using System; using System.Col ...
[ 高并发]Java高并发编程系列第二篇--线程同步
高并发,听起来高大上的一个词汇,在身处于互联网潮的社会大趋势下,高并发赋予了更多的传奇色彩.首先,我们可以看到很多招聘中,会提到有高并发项目者优先.高并发,意味着,你的前雇主,有很大的业务层面的需求, ...
从0开始搭建SQL Server AlwaysOn 第二篇（配置故障转移集群）
从0开始搭建SQL Server AlwaysOn 第二篇(配置故障转移集群) 第一篇http://www.cnblogs.com/lyhabc/p/4678330.html第二篇http://www ...
(转)从0开始搭建SQL Server AlwaysOn 第二篇（配置故障转移集群）
原文地址: http://www.cnblogs.com/lyhabc/p/4682028.html 这一篇是从0开始搭建SQL Server AlwaysOn 的第二篇,主要讲述如何搭建故障转移集 ...

随机推荐

TCP和UDP报文分片的区别
搞了三年网络,今天才知道这个细节,汗,总结下: MTU大家都知道,是链路层中的网络对数据帧的一个限制,依然以以太网为例,MTU为1500个字节.一个IP数据报在以太网中传输,如果它的长度大于该MTU ...
jmeter从外部文件取值问题,如果文件中的参数值为纯数字形式的,jmeter会默认将其识别成int型数据
如果你通过CSV Data Set Config或者_StringFromFile函数来参数化你的请求,需要特别注意当参数为纯数字时,jmeter会默认将其识别成int型数据,说明jmeter并不是默 ...
HDU 1028 HDU Ignatius and the Princess III
简单的钱币兑换问题,就是钱的种类多了一点,完全背包. #include<cstdio> #include<cstring> int main () { ]; memset(dp ...
hashmap冲突的解决方法以及原理分析：
在Java编程语言中,最基本的结构就是两种,一种是数组,一种是模拟指针(引用),所有的数据结构都可以用这两个基本结构构造,HashMap也一样.当程序试图将多个 key-value 放入 HashMa ...
Spring的监听器ContextLoaderListener
一.作用 ContextLoaderListener监听器的作用就是启动web容器时,自动装配ApplicationContext的配置信息.它实现了ServletContextListener接口, ...
HDU 2212 DFS
Problem Description A DFS(digital factorial sum) number is found by summing the factorial of every d ...
Java Swing 日期控件（转载）
http://www.cnblogs.com/lzy1991/p/5714935.html
input编辑框编辑状态切换
<!DOCTYPE html> <html> <head lang="en"> <meta charset="UTF-8&quo ...
三、ASP.NET MVC Controller 控制器（二：IController控制器的创建过程）
阅读目录: 1.开篇介绍 2.ASP.NETMVC IControllerFactory 控制器工厂接口 3.ASP.NETMVC DefaultControllerFactory 默认控制器工厂 4 ...
tcpdump的源码分析
在源文件 tcpdump.c 中: 结构体数组“static struct printer printers[]”定义了tcpdump所跟参数及其对一个的处理函数. struct printer { ...

spark第二篇--基本原理

spark第二篇--基本原理的更多相关文章

随机推荐

热门专题