Spark基本原理

仅作《Spark快速大数据分析》学习笔记

定义：Spark是一个用来实现快速而通用的集群计算平台；（通用的大数据处理引擎；）

改进了原Hadoop MapReduce处理模型，体现在三方面：

　　a. 速度；（内存计算）

　　b. 不仅支持批处理，还支持交互式查询(速度快的成果)、流式计算、机器学习、图计算等；（迭代算法）

　　c. 丰富的API和易用性；

Spark组件主要组成：

Spark Core：实现了Spark的核心功能，包含任务调度、内存管理、与存储系统交互、错误恢复等；定义了RDD API；

　　RDD：（resilient distributed dataset）弹性分布式数据集，表示分布在多个计算节点上可以平行操作的元素集合；

　　　　　通过创建RDD来操作完成统计计算，这些计算会自动地在集群上并行进行。

　　　　　 Spark主要的编程抽象；

Spark SQL：Spark操作结构化数据的程序包；

Spark Streaming： Spark 提供的对实时数据进行流式计算的组件；

MLlib：提供常见的机器学习(ML)功能的程序库；

GraphX：是用来操作图(比如社交网络的朋友关系图)的程序库，可以进行并行的图计算；

Spark shell：和其他 shell 工具不一样的是，在其他 shell 工具中你只能使用单机的硬盘和内存来操作数据；

　　　　　　可用来与分布式存储在许多机器的内存或者硬盘上的数据进行交互，并且处理过程的分发由 Spark 自动控制完成；

动作原理：

　　driver program

　　executor

　　每个 Spark 应用都由一个驱动器程序(driver program) 来管理。

　　　　a. 驱动器程序包含应用的 main函数；

　　　　b. 并且定义了集群上的分布式数据集；

　　　　c. 还对这些分布式数据集应用了相关操作。

　　　　Shell环境下驱动器程序就是 Spark shell 本身，可利用它输入想要运行的操作。

　　驱动器程序通过一个 SparkContext对象来访问Spark，这个对象代表对计算集群的一个连接；slell启动时会自动创建一个SparkContext对象，变量名为sc；　　　

//查看变量 sc

     >>> sc

     <pyspark.context.SparkContext object at 0x1025b8f90>

　　一旦有了SparkContext对象，就可以利用它创建RDD，如sc.textFile("/filename")，然后即可进行各种操作；

　　通常操作RDD的相关操作，驱动器程序一般要管理多个执行器(executor)节点；如count()操作，多个节点会统计文件不同的部分；

Spark基本原理的更多相关文章

重温spark基本原理
(一)spark特点: 1.高效,采用内存存储中间计算结果,并通过并行计算DAG图的优化,减少了不同任务之间的依赖,降低了延迟等待时间. 2.易用,采用函数式编程风格,提供了超过80种不同的Trans ...
spark第一篇--简介，应用场景和基本原理
摘要: spark的优势:(1)图计算,迭代计算(2)交互式查询计算 spark特点:(1)分布式并行计算框架(2)内存计算,不仅数据加载到内存,中间结果也存储内存为了满足挖掘分析与交互式实时查询的 ...
大数据计算新贵Spark在腾讯雅虎优酷成功应用解析
http://www.csdn.net/article/2014-06-05/2820089 摘要:MapReduce在实时查询和迭代计算上仍有较大的不足,目前,Spark由于其可伸缩.基于内存计算等 ...
大数据系列之并行计算引擎Spark介绍
相关博文:大数据系列之并行计算引擎Spark部署及应用 Spark: Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎. Spark是UC Berkeley AMP lab ( ...
FusionInsight大数据开发---Spark应用开发
Spark应用开发要求: 了解Spark基本原理搭建Spark开发环境开发Spark应用程序调试运行Spark应用程序 YARN资源调度,可以和Hadoop集群无缝对接 Spark适用场景大多 ...
Google云平台使用方法 | Hail | GWAS | 分布式回归 | LASSO
参考: Hail Hail - Tutorial windows也可以安装:Spark在Windows下的环境搭建 spark-2.2.0-bin-hadoop2.7 - Hail依赖的平台,并行处 ...
Spark SQL概念学习系列之Spark SQL基本原理
Spark SQL基本原理 1.Spark SQL模块划分 2.Spark SQL架构--catalyst设计图 3.Spark SQL运行架构 4.Hive兼容性 1.Spark SQL模块划分 S ...
spark第二篇--基本原理
==是什么 == 目标Scope(解决什么问题) 在大规模的特定数据集上的迭代运算或重复查询检索官方定义 aMapReduce-like cluster computing framework de ...
Spark 准备篇-基本原理
本章内容: 待整理参考文献: <深入理解SPARK:核心思想与源码分析>(第2章) Spark的作业提交及运行流程的异同

随机推荐

ORACLE无法删除当前连接用户
今天在做Oracle数据库是遇到ORACLE无法删除当前连接用户 ,经查找可用如下方法解决 . 在Oracle中删除用户时提示:ORACLE无法删除当前连接用户可以用以下语句 Sql代码 ...
Hubtown
Hubtown 时间限制: 10 Sec 内存限制: 256 MB 题目描述 Hubtown is a large Nordic city which is home to n citizens. ...
Fruit Ninja
Fruit Ninja 时间限制:C/C++ 5秒,其他语言10秒空间限制:C/C++ 262144K,其他语言524288K 64bit IO Format: %lld 题目描述 Fruit Ni ...
SPFA的两个（卡时）优化
SPFA算法有两个优化算法 SLF 和 LLL: SLF:Small Label First 策略,设要加入的节点是j,队首元素为i,若dist(j)<dist(i),则将j插入队首,否则插入队 ...
WAMP本地环境升级php版本
!!!本次测试未完全成功,仅供提供经验. (1)下载php最新版本 http://windows.php.net/download/ (2)解压放到wamp/bin/php目录下 (3) 从已存在的p ...
用CSS3变形创建半圆形导航
http://www.xuanfengge.com/create-a-semicircle-with-css3-variant-navigation.html demo:http://tympanus ...
C#/.NET基于Topshelf创建Windows服务的守护程序作为服务启动的客户端桌面程序不显示UI界面的问题分析和解决方案
本文首发于:码友网--一个专注.NET/.NET Core开发的编程爱好者社区. 文章目录 C#/.NET基于Topshelf创建Windows服务的系列文章目录: C#/.NET基于Topshelf ...
Google代码风格指南
官网:https://github.com/google/styleguide 中文版:https://github.com/zh-google-styleguide/zh-google-styleg ...
Ubuntu下Deb软件包相关安装与卸载
安装deb软件包 sudo dpkg -i xxx.deb 删除软件包 sudo dpkg -r xxx.deb 连同配置文件一起删除 sudo dpkg -r --purge xxx.deb 查看软 ...
IOS --关于粘贴板 ,剪切板 ,UILabel的复制
在iOS中下面三个控件,自身就有复制-粘贴的功能: 1.UITextView 2.UITextField 3.UIWebView UIKit framework提供了几个类和协议方便我们在自己的应用程 ...

Spark基本原理

Spark基本原理的更多相关文章

随机推荐

热门专题