Spark数据本地性

1、文件系统本地性

　　第一次运行时数据不在内存中，需要从HDFS上取，任务最好运行在数据所在的节点上；

2、内存本地性

　　第二次运行，数据已经在内存中，所有任务最好运行在该数据所在内存的节点上；

3、LRU置换

　　如果数据只缓存在内存中而并没有缓存到磁盘上，此时数据被置换出内存，则从HDFS上读取；

　　如果数据不仅缓存到内存而且还缓存到磁盘上，此时数据被置换出内存，则从磁盘上直接读取；

BlockManage.scala

putBlockInfo.synchronized {

      var marked = false

      try {

        if (level.useMemory) {

          // Save it just to memory first, even if it also has useDisk set to true; we will

          // drop it to disk later if the memory store can't hold it.

          val res = data match {

        ...

        }

          size = res.size

          res.data match {

            case Right(newBytes) => bytesAfterPut = newBytes

            case Left(newIterator) => valuesAfterPut = newIterator

          }

          // Keep track of which blocks are dropped from memory

          res.droppedBlocks.foreach { block => updatedBlocks += block }

        }

......

注：只要设置了内存存储，即使也设置了磁盘存储，也只会先存在内存中，不是一开始就存放在磁盘上，只有当内存不够时才会置换到磁盘上去；

详情参照：http://download.csdn.net/detail/u013424982/7191967

Spark数据本地性的更多相关文章

【原】Spark数据本地性
Spark数据本地性分布式计算系统的精粹在于移动计算而非移动数据,但是在实际的计算过程中,总存在着移动数据的情况,除非是在集群的所有节点上都保存数据的副本.移动数据,将数据从一个节点移动到另一个节点 ...
spark读取hdfs数据本地性异常
在分布式计算中,为了提高计算速度,数据本地性是其中重要的一环. 不过有时候它同样也会带来一些问题. 一.问题描述在分布式计算中,大多数情况下要做到移动计算而非移动数据,所以数据本地性尤其重要,因此我 ...
Spark笔记之数据本地性（data locality）
一.什么是数据本地性(data locality) 大数据中有一个很有名的概念就是"移动数据不如移动计算",之所以有数据本地性就是因为数据在网络中传输会有不小的I/O消耗,如果能够 ...
spark读取hdfs数据本地性异常【转】
在分布式计算中,为了提高计算速度,数据本地性是其中重要的一环. 不过有时候它同样也会带来一些问题. 一.问题描述在分布式计算中,大多数情况下要做到移动计算而非移动数据,所以数据本地性尤其重要,因此我 ...
[Spark内核] 第36课：TaskScheduler内幕天机解密：Spark shell案例运行日志详解、TaskScheduler和SchedulerBackend、FIFO与FAIR、Task运行时本地性算法详解等
本課主題通过 Spark-shell 窥探程序运行时的状况 TaskScheduler 与 SchedulerBackend 之间的关系 FIFO 与 FAIR 两种调度模式彻底解密 Task 数据 ...
TaskScheduler内幕天机解密：Spark shell案例运行日志详解、TaskScheduler和SchedulerBackend、FIFO与FAIR、Task运行时本地性算法详解等
本课主题通过 Spark-shell 窥探程序运行时的状况 TaskScheduler 与 SchedulerBackend 之间的关系 FIFO 与 FAIR 两种调度模式彻底解密 Task 数据 ...
Spark 数据倾斜
Spark 数据倾斜解决方案 2017年03月29日 17:09:58 阅读数:382 现象当你的应用程序发生以下情况时你该考虑下数据倾斜的问题了: 绝大多数task都可以愉快的执行,总 ...
Spark数据倾斜解决方案（转）
本文转发自技术世界,原文链接 http://www.jasongj.com/spark/skew/ Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势发表于 2017 ...
如何在 Serverless K8s 集群中低成本运行 Spark 数据计算？
作者 | 柳密阿里巴巴阿里云智能 ** 本文整理自<Serverless 技术公开课>,关注"Serverless"公众号,回复"入门",即可获取 ...

随机推荐

Influxdb简单实用操作
新的infludb版本已经取消了页面的访问方式,只能使用客户端来查看数据一.influxdb与传统数据库的比较库.表等比较: influxDB 传统数据库中的概念 database 数据库 mea ...
react 学习日记
1.本地配置代理服务: create-react-app 创建的react项目 package.jsoin 中加入: "proxy": "http://localh ...
SWIFT用ScrollView加图片制作Banner
网上参考OBJC写的用ScrollView图片轮播效果,照着画了个,先上效果图: 附上代码: @IBOutlet weak var pc: UIPageControl! @IBOutlet weak ...
揭秘Keras推荐系统如何建立模型、获取用户爱好
你是否有过这样的经历?当你在亚马逊商城浏览一些书籍,或者购买过一些书籍后,你的偏好就会被系统学到,系统会基于一些假设为你推荐相关书目.为什么系统会知道,在这背后又藏着哪些秘密呢? 荐系统可以从百万甚至 ...
MySQL性能优化方法四：SQL优化
原文链接:http://isky000.com/database/mysql-performance-tuning-sql 注:这篇文章是以 MySQL 为背景,很多内容同时适用于其他关系型数据库,需 ...
最小二乘法及梯度下降法运行结果对比（Python版）
上周在实验室里师姐说了这么一个问题,对于线性回归问题,最小二乘法和梯度下降方法所求得的权重值是一致的,对此我颇有不同观点.如果说这两个解决问题的方法的等价性的确可以根据数学公式来证明,但是很明显的这个 ...
OK335xS GPMC nand device register hacking
/********************************************************************************* * OK335xS GPMC na ...
chapter02 K近邻分类器对Iris数据进行分类预测
寻找与待分类的样本在特征空间中距离最近的K个已知样本作为参考,来帮助进行分类决策. 与其他模型最大的不同在于:该模型没有参数训练过程.无参模型,高计算复杂度和内存消耗. #coding=utf8 # ...
CodeForces - 1093D：Beautiful Graph（二分图判定+方案数）
题意:给定无向图,让你给点加权(1,2,3),使得每条边是两端点点权和维奇数. 思路:一个连通块是个二分图,判定二分图可以dfs,并查集,2-sat染色. 这里用的并查集(还可以带权并查集优化一下,或 ...
解决安装vmware-tools出现的“The path "" is not a valid path to the 3.2.0-4-amd64 kernel headers”问题
在用虚拟机安装使用64位Crunchbang(一种Debian GNU/Linux 的linux)的过程中出现很多小问题.其中vmware-tools安装就是第一个问题. 在使用终端安装vmware- ...

Spark数据本地性

Spark数据本地性的更多相关文章

随机推荐

热门专题