spark学习笔记_1
简单的讲,Apache Spark是一个快速且通用的集群计算系统。
Apache Spark 历史:
2009年由加州伯克利大学的AMP实验室开发,并在2010年开源,13年时成长为Apache旗下大数据领域最活跃的开源项目之一。2014年5月底spark1.0.0发布,2016年6月spark2.0发布,至今最近的版本是xxx(看官网)。
Spark的使用场景:
实时查看浏览统计信息,流式计算,SQL查询,图计算,机器学习。
Spark特点:
- 快速的处理能力。由于spark可以将中间输出和最后结果存储在内存中,不像hadoop MR那样需要大量的磁盘I/O的开销,同时spark的DAG执行引擎也支持数据在内存中的计算。
- 使用方便。spark支持Java、Scala、Python和R编写的应用程序,同时提供了80多个高等级操作符,可以用Scala、Python和R shell进行交互查询。
- 通用性强。Spark提供了一组库,其中包括SQL和DataFrames、用于机器学习的MLlib、GraphX和Spark Straming,在同一个应用程序中无缝地组合这些库。
- 随处运行。spark能够访问HDFS、Cassandra、HBase、S3、Hive、Techyon以及任何Hadoop的数据源。
Spark运行模式:
运行环境 | 模式 | 描述 |
Local | 本地模式 | 本地线程方式运行,分local单线程和local-cluster多线程,主要用于开发调试spark应用程序。 |
Standalone | 集群模式 | 利用spark自带的资源管理器和调度器运行spark集群,采用Master/Slave模式,为解决单点故障可采用ZK实现HA。 |
ApacheMesos | 集群模式 | 运行在Mesos资源管理器框架之上,由Mesos负责资源管理,spark负责任务调度和计算。 |
Hadoop Yarn | 集群模式 | 运行在Yarn资源管理器框架之上,由Yarn负责资源管理,spark负责任务调度和计算。 |
在实际的应用中,spark应用程序的运行模式取决于传递给sparkcontext的master环境变量的值,目前该值由特定的字符串或是URL组成,如下所示:
- Local[N]:使用N个线程。
- Local cluster[worker,core,Memory]:伪分布式模式,可以配置所需要启动的虚拟工作节点,以及每个节点所管理的CPU数量和内存大小。
- Spark://hostname:port:Standalone模式,需要将spark部署到相关节点,URL为Spark master的主机地址和端口。
- Mesos://hostname:port:Mesos模式,需要将spark和mesos部署到相关节点,URL为Mesos的主机地址和端口。
- Yarn standalone/Yarn cluster:Yarn模式一,主程序逻辑和任务都运行在Yarn集群中。
- Yarn client:Yarn模式二,主程序逻辑运行在本地,具体任务运行在Yarn集群中。
Spark术语:
- Application:Spark应用程序,包含一个Driver program和若干Executor。
- SparkContext:Spark应用程序的入口,负责调度各个运算资源,协调各个Woker Node上的Executor。
- Driver Program:运行Application的main()函数并创建SparkContext。
- Executor:Worker Node上的进程,该进程负责运行Task,并负责任务间数据维护(数据是存在内存中还是磁盘上)。
- Cluster Manager:为任务分配资源。
- Worker Node:集群中运行spark application的节点。
- Task:运行在Executor上的工作单元。
- Job:SparkContext提交的具体Action操作。
- Stage:每个Job会被拆分很多组task,每组task被称为Stage,也称TaskSet。
- RDD:弹性分布式数据集。
- DAGScheduler:根据Job构建基于Stage的DAG,并提交Stage给TaskScheduler。
- TaskSchedule:将Taskset提交给WorkerNode集群运行并返回结果。
Spark Job运行原理:
- 创建SparkContext对象,然后SparkContext向Cluster Manager申请资源;
- Cluster Manager在WokerNode上创建Executor并分配资源(CPU,内存等),后期Executor定期向ClusterManager发送心跳信息;
- SparkContext启动DAGSchudler,将提交的任务分解为若干Stage,各个Stage构成DAG;
- Taskset发送给TaskSchudle,TaskSchudle将Task发送给对应的Executor,同时SparkContext将应用程序代码发到Executor,从而启动Task的执行;
- Executor执行Task,然后释放相应的资源。
spark学习笔记_1的更多相关文章
- Spark学习笔记-GraphX-1
Spark学习笔记-GraphX-1 标签: SparkGraphGraphX图计算 2014-09-29 13:04 2339人阅读 评论(0) 收藏 举报 分类: Spark(8) 版权声明: ...
- Spark学习笔记3——RDD(下)
目录 Spark学习笔记3--RDD(下) 向Spark传递函数 通过匿名内部类 通过具名类传递 通过带参数的 Java 函数类传递 通过 lambda 表达式传递(仅限于 Java 8 及以上) 常 ...
- Spark学习笔记1——第一个Spark程序:单词数统计
Spark学习笔记1--第一个Spark程序:单词数统计 笔记摘抄自 [美] Holden Karau 等著的<Spark快速大数据分析> 添加依赖 通过 Maven 添加 Spark-c ...
- Spark学习笔记之SparkRDD
Spark学习笔记之SparkRDD 一. 基本概念 RDD(resilient distributed datasets)弹性分布式数据集. 来自于两方面 ① 内存集合和外部存储系统 ② ...
- spark学习笔记总结-spark入门资料精化
Spark学习笔记 Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用. ...
- Spark学习笔记2(spark所需环境配置
Spark学习笔记2 配置spark所需环境 1.首先先把本地的maven的压缩包解压到本地文件夹中,安装好本地的maven客户端程序,版本没有什么要求 不需要最新版的maven客户端. 解压完成之后 ...
- Spark学习笔记3(IDEA编写scala代码并打包上传集群运行)
Spark学习笔记3 IDEA编写scala代码并打包上传集群运行 我们在IDEA上的maven项目已经搭建完成了,现在可以写一个简单的spark代码并且打成jar包 上传至集群,来检验一下我们的sp ...
- Spark学习笔记0——简单了解和技术架构
目录 Spark学习笔记0--简单了解和技术架构 什么是Spark 技术架构和软件栈 Spark Core Spark SQL Spark Streaming MLlib GraphX 集群管理器 受 ...
- Spark学习笔记2——RDD(上)
目录 Spark学习笔记2--RDD(上) RDD是什么? 例子 创建 RDD 并行化方式 读取外部数据集方式 RDD 操作 转化操作 行动操作 惰性求值 Spark学习笔记2--RDD(上) 笔记摘 ...
随机推荐
- 洛谷1855 榨取kkksc03
题目描述 洛谷2的团队功能是其他任何oj和工具难以达到的.借助洛谷强大的服务器资源,任何学校都可以在洛谷上零成本的搭建oj并高效率的完成训练计划. 为什么说是搭建oj呢?为什么高效呢? 因为,你可以上 ...
- GD库imagettftext中文乱码的问题
linux下出现乱码,加上编码转换就可以了. $str = mb_convert_encoding($str, "html-entities", "utf-8" ...
- Python3+slowloris安装使用教程
一.说明 今天提到slowloris,这东西看着很眼熟,应该是以前局方打算用来刷竞赛积分的工具.我总觉得DoS没什么意思,但记不得怎么用了所以还是研究一下. 二.安装 slowloris就是一个pyt ...
- 性能测试遭遇TPS抖动问题
目前性能测试组正在对独立秒杀进行性能压测,性能抖动特别厉害. 由于独立秒杀的接口大多数是经过volicity渲染过的页面和数据的整合,所以在压测的时候有很多volicity的错误.初步判定,感觉是vo ...
- 构建web应用之——SpringMVC实现CRUD
配置好SpringMVC最基本的配置后,开始实现处理数据的CRUD(CREATE, READ, UPDATE, DELETE) 为实现模块上的松耦合,我们将与数据库的交互任务交给DAO(Data Ac ...
- NPOI 关于Excel的学习
1.传送门:http://blog.csdn.net/guo_lover/article/details/52399570
- gat和post封装代码和爬虫的5个步奏
1了解需求2根据需求找网站3请求4获取5存储from urllib import request, parsefrom urllib.error import HTTPError, URLError ...
- [数]昨天欠下的一道立体几何题HDU-4741
并没有做到这道题,后来听学长说了题意,总之就是立体几何嗯 看了好几份题解,是的我知道是异面线段的距离了,可是看码完全不明orz. 这时候出现了一份清晰易懂甚至给出了公式来源的blog╰(*°▽°*)╯ ...
- react native第一天--------KnightRider
今天是2017年6月8,是我的项目react native-CRM(用户关系管理)的第一天,一早就配置了一上午Mac的环境,然后运行项目,在react-native init project的时候一直 ...
- 第2次作业 -- 熟悉 JUnit 测试
2.1 Mooctest 使用心得 Mooctest很方便,可以即时测评自己写的测试代码,获得覆盖率和报告,不需要自己安装配置环境 而且安装配置插件的环境也很简单,可以专注于测试本身 2.2 Juni ...