Spark学习(1) Spark入门

什么事spark

Spark是一种快速、通用、可扩展的大数据计算引擎.项目是用Scala进行编写,基于内存计算的

包括交互式查询和流处理

spark内置项目

Spark SQL：是 Spark 用来操作结构化数据的程序包。

Spark Streaming：是 Spark 提供的对实时数据进行流式计算的组件。

Spark MLlib：提供常见的机器学习(ML)功能的程序库。

GraphX：提供一个分布式图计算框架，能高效进行图计算。

集群管理器：Spark设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计 算。

spark常用术语

 Application           Spark的应用程序，包含一个Driver program和若干Executor

 SparkContext       Spark应用程序的入口，负责调度各个运算资源，协调各个Worker Node上的Executor

 Driver Program    运行Application的main()函数并且创建SparkContext

 Executor    是为Application运行在Worker node上的一个进程，该进程负责运行Task，并且负责将数据存在内存或者磁盘上。

每个Application都会申请各自的Executor来处理任务

 ClusterManager    在集群上管理各种资源的外部服务(例如：Standalone、Mesos、Yarn)

 Worker Node    集群中任何可以运行Application代码的节点，运行一个或多个Executor进程，每个节点可以起一个或多个Executor

 Task    运行在Executor上的工作单元，每个Executor由若干core组成，每个Executor的每个core一次只能执行一个Task，每个Task执行的结果就是生成了目标RDD的一个partiton

 Job    SparkContext提交的具体Action操作，常和Action对应

 Stage    每个Job会被拆分很多组task，每组任务被称为Stage，也称TaskSet

 RDD    是Resilient distributed datasets的简称，中文为弹性分布式数据集;是Spark最核心的模块和类

 DAGScheduler    根据Job构建基于Stage的DAG，并提交Stage给TaskScheduler

 TaskScheduler    将Taskset提交给Worker node集群运行并返回结果

 Transformations    是Spark API的一种类型，Transformation返回值还是一个RDD， 所有的Transformation采用的都是懒策略，

如果只是将Transformation提交是不会执行计算的

 Action    是Spark API的一种类型，Action返回值不是一个RDD，而是一个scala集合；计算只有在Action被提交的时候计算才 被触发。

Spark学习(1) Spark入门的更多相关文章

Spark学习之Spark Streaming（9）
Spark学习之Spark Streaming(9) 1. Spark Streaming允许用户使用一套和批处理非常接近的API来编写流式计算应用,这就可以大量重用批处理应用的技术甚至代码. 2. ...
Spark学习之Spark SQL（8）
Spark学习之Spark SQL(8) 1. Spark用来操作结构化和半结构化数据的接口--Spark SQL. 2. Spark SQL的三大功能 2.1 Spark SQL可以从各种结构化数据 ...
Spark学习之Spark调优与调试（7）
Spark学习之Spark调优与调试(7) 1. 对Spark进行调优与调试通常需要修改Spark应用运行时配置的选项. 当创建一个SparkContext时就会创建一个SparkConf实例. 2. ...
Spark学习一:Spark概述
1.1 什么是Spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎. 一站式管理大数据的所有场景(批处理,流处理,sql) spark不涉及到数据的存储,只 ...
Spark学习之Spark Streaming
一.简介许多应用需要即时处理收到的数据,例如用来实时追踪页面访问统计的应用.训练机器学习模型的应用,还有自动检测异常的应用.Spark Streaming 是 Spark 为这些应用而设计的模型.它 ...
Spark学习之Spark调优与调试(二)
下面来看看更复杂的情况,比如,当调度器进行流水线执行(pipelining),或把多个 RDD 合并到一个步骤中时.当RDD 不需要混洗数据就可以从父节点计算出来时,调度器就会自动进行流水线执行.上一 ...
Spark学习之Spark调优与调试(一)
一.使用SparkConf配置Spark 对 Spark 进行性能调优,通常就是修改 Spark 应用的运行时配置选项.Spark 中最主要的配置机制是通过 SparkConf 类对 Spark 进行 ...
Spark学习之Spark安装
Spark安装 spark运行环境 spark是Scala写的,运行在jvm上,运行环境为java7+ 如果使用Python的API ,需要使用Python2.6+或者Python3.4+ Spark ...
Spark学习笔记——Spark Streaming
许多应用需要即时处理收到的数据,例如用来实时追踪页面访问统计的应用.训练机器学习模型的应用, 还有自动检测异常的应用.Spark Streaming 是 Spark 为这些应用而设计的模型.它允许用户 ...
Spark学习笔记--Spark在Windows下的环境搭建
本文主要是讲解Spark在Windows环境是如何搭建的一.JDK的安装 1.1 下载JDK 首先需要安装JDK,并且将环境变量配置好,如果已经安装了的老司机可以忽略.JDK(全称是JavaTM P ...

随机推荐

round.606.div2
A. Happy Birthday, Polycarp! 这个题意我确实没有看懂. 沃日,我懂了,我感觉我似乎都能切掉这题. B. Make Them Odd 这个我也能看懂.
Hibernate中对象的三种状态即save(),update(),saveOrUpdate()的使用【转】
当new一个user的时候,是处于瞬时状态当调用session.save(user)的时候,user对象会放到session里,此时处于持久状态当提交事务的时候,user对象才会存到DB中当调用 ...
haproxy 2.0 dataplaneapi rest api 几个方便的问题排查接口
在使用haproxy 2.0 dataplaneapi的时候,刚开始的时候我们可能需要进行调试,保证我们的配置在我们的系统环境中是可以使用的,以下是自己在当前学习中为了排查问题会使用的几个api 创 ...
Java GUI 的基础学习
Java Swing的学习: 重点理解容器类(Container)和组件类(Component): Java把component类的子类或间接子类创建的对象称为一个组件 Java把Container的 ...
ARC096 E Everything on It [容斥，斯特林数]
Atcoder 一个900分的题耗了我这么久--而且官方题解还那么短--必须纪念一下-- 思路发现每种元素必须出现两次以上的限制极为恶心,所以容斥,枚举出现0/1次的元素个数分别有几个.设出现1次的 ...
Sequelize 数据类型
Sequelize.STRING // VARCHAR(255)Sequelize.STRING(1234) // VARCHAR(1234)Sequelize.STRING.BINARY // VA ...
jvm（三）指令重排 & 内存屏障 & 可见性 & volatile & happen before
参考文档: https://tech.meituan.com/java-memory-reordering.html http://0xffffff.org/2017/02/21/40-atomic- ...
java 多页pdf转化为多张图片
相关jar包: <dependency> <groupId>com.itextpdf</groupId> <artifactId>itext-asian ...
线程池ScheduledThreadPoolExecutor
Java中调度线程池ScheduledThreadPoolExecutor原理探究一. 前言前面讲解过Java中线程池ThreadPoolExecutor原理探究,ThreadPoolExecut ...
咏南跨平台中间件REST API
主旨 1)为了中间件支持跨操作系统部署,客户端支持跨操作系统.跨设备.跨开发语言,特制订本REST API规约. 2)所有接口均支持HTTP GET\POST调用. 3)调用示例为DELPHI代码,其 ...

Spark学习(1) Spark入门

什么事spark

spark内置项目

spark常用术语

Spark学习(1) Spark入门的更多相关文章

随机推荐

热门专题