Spark学习(1) Spark入门

什么事spark

Spark是一种快速、通用、可扩展的大数据计算引擎.项目是用Scala进行编写,基于内存计算的

包括交互式查询和流处理

spark内置项目

Spark SQL：是 Spark 用来操作结构化数据的程序包。

Spark Streaming：是 Spark 提供的对实时数据进行流式计算的组件。

Spark MLlib：提供常见的机器学习(ML)功能的程序库。

GraphX：提供一个分布式图计算框架，能高效进行图计算。

集群管理器：Spark设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计 算。

spark常用术语

 Application           Spark的应用程序，包含一个Driver program和若干Executor

 SparkContext       Spark应用程序的入口，负责调度各个运算资源，协调各个Worker Node上的Executor

 Driver Program    运行Application的main()函数并且创建SparkContext

 Executor    是为Application运行在Worker node上的一个进程，该进程负责运行Task，并且负责将数据存在内存或者磁盘上。

每个Application都会申请各自的Executor来处理任务

 ClusterManager    在集群上管理各种资源的外部服务(例如：Standalone、Mesos、Yarn)

 Worker Node    集群中任何可以运行Application代码的节点，运行一个或多个Executor进程，每个节点可以起一个或多个Executor

 Task    运行在Executor上的工作单元，每个Executor由若干core组成，每个Executor的每个core一次只能执行一个Task，每个Task执行的结果就是生成了目标RDD的一个partiton

 Job    SparkContext提交的具体Action操作，常和Action对应

 Stage    每个Job会被拆分很多组task，每组任务被称为Stage，也称TaskSet

 RDD    是Resilient distributed datasets的简称，中文为弹性分布式数据集;是Spark最核心的模块和类

 DAGScheduler    根据Job构建基于Stage的DAG，并提交Stage给TaskScheduler

 TaskScheduler    将Taskset提交给Worker node集群运行并返回结果

 Transformations    是Spark API的一种类型，Transformation返回值还是一个RDD， 所有的Transformation采用的都是懒策略，

如果只是将Transformation提交是不会执行计算的

 Action    是Spark API的一种类型，Action返回值不是一个RDD，而是一个scala集合；计算只有在Action被提交的时候计算才 被触发。

Spark学习(1) Spark入门的更多相关文章

Spark学习之Spark Streaming（9）
Spark学习之Spark Streaming(9) 1. Spark Streaming允许用户使用一套和批处理非常接近的API来编写流式计算应用,这就可以大量重用批处理应用的技术甚至代码. 2. ...
Spark学习之Spark SQL（8）
Spark学习之Spark SQL(8) 1. Spark用来操作结构化和半结构化数据的接口--Spark SQL. 2. Spark SQL的三大功能 2.1 Spark SQL可以从各种结构化数据 ...
Spark学习之Spark调优与调试（7）
Spark学习之Spark调优与调试(7) 1. 对Spark进行调优与调试通常需要修改Spark应用运行时配置的选项. 当创建一个SparkContext时就会创建一个SparkConf实例. 2. ...
Spark学习一:Spark概述
1.1 什么是Spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎. 一站式管理大数据的所有场景(批处理,流处理,sql) spark不涉及到数据的存储,只 ...
Spark学习之Spark Streaming
一.简介许多应用需要即时处理收到的数据,例如用来实时追踪页面访问统计的应用.训练机器学习模型的应用,还有自动检测异常的应用.Spark Streaming 是 Spark 为这些应用而设计的模型.它 ...
Spark学习之Spark调优与调试(二)
下面来看看更复杂的情况,比如,当调度器进行流水线执行(pipelining),或把多个 RDD 合并到一个步骤中时.当RDD 不需要混洗数据就可以从父节点计算出来时,调度器就会自动进行流水线执行.上一 ...
Spark学习之Spark调优与调试(一)
一.使用SparkConf配置Spark 对 Spark 进行性能调优,通常就是修改 Spark 应用的运行时配置选项.Spark 中最主要的配置机制是通过 SparkConf 类对 Spark 进行 ...
Spark学习之Spark安装
Spark安装 spark运行环境 spark是Scala写的,运行在jvm上,运行环境为java7+ 如果使用Python的API ,需要使用Python2.6+或者Python3.4+ Spark ...
Spark学习笔记——Spark Streaming
许多应用需要即时处理收到的数据,例如用来实时追踪页面访问统计的应用.训练机器学习模型的应用, 还有自动检测异常的应用.Spark Streaming 是 Spark 为这些应用而设计的模型.它允许用户 ...
Spark学习笔记--Spark在Windows下的环境搭建
本文主要是讲解Spark在Windows环境是如何搭建的一.JDK的安装 1.1 下载JDK 首先需要安装JDK,并且将环境变量配置好,如果已经安装了的老司机可以忽略.JDK(全称是JavaTM P ...

随机推荐

UFUN函数 UF_ATTR函数（UF_ATTR_read_value 函数用法）
//此函数的功能是输入tag值,返回与属性标题对应的属性值 static string read_attr(tag_t object_tag) { UF_initialize(); ]="零 ...
benchmarkdotnet docker 运行
使用docker 运行基准测试是一个不错的选择,可以减少我们环境搭建的时间,同时也可以加速ci/cd 环境准备 docker-compose 文件 version: "3" ser ...
Ubuntu 14.04 安装python3.7
下载: https://www.python.org/ftp/python/3.7.4/ .tgz文件,解压后,进入该文件夹编译./configuremakesudo make install 当 ...
js 创建xml元素
function createXML(pathData) { var xmlDOM = createXMLDOM(); //参考:http://iceworldvip.blog.51cto.com/5 ...
Linux文件系统被占用，磁盘使用量与实际不一致【转】
用lsof检查后才发现原因是,有文件被删除,而进程还活着,因而造成还占用空间的现象 [root@/]# lsof |grep delete 根据lsof列出的进程号,kill这些进程后,空间就释放出来 ...
RockBrain USB Server外设虚拟化高可用解决方案（银企直联虚拟化解决方案）
技术指标: 单.双千兆网络界面(支持链路冗余与链路热备.支持双网口均衡负载) 原生USB2.0接口(USB2.0与USB3.0接口均对所有USB版本设备兼容,支持混插) 技术优势: RockBrain ...
anaconda 安装指定源的包
当前知道的有两种方式可以查找: 1.conda search 命令:conda search pkg_name 安装的时候直接:conda install cudatoolkit=版本后 conda ...
Scrapy爬虫Demo 爬取资讯分类
爬取新浪网导航页所有下所有大类.小类.小类里的子链接,以及子链接页面的新闻内容. 效果演示图: items.py import scrapy import sys reload(sys) sys.se ...
ROS2 在WIN10下测试和安装
博客参考:https://blog.csdn.net/cocoiehl/article/details/83351307 和 https://blog.csdn.net/weixin_38294178 ...
解决catalina.out文件过大的问题
有用Tomcat的人,绝对都会遇到这样一个问题:catalina.out文件过大. 它是Tomcat默认生成的日志文件,会随着时间的推移,逐渐增大,不断的增长,甚至达到几G,几十G的大小.由于文件过大 ...

Spark学习(1) Spark入门

什么事spark

spark内置项目

spark常用术语

Spark学习(1) Spark入门的更多相关文章

随机推荐

热门专题