Spark的数据存储

　　Spark本身是基于内存计算的架构，数据的存储也主要分为内存和磁盘两个路径。Spark本身则根据存储位置、是否可序列化和副本数目这几个要素将数据存储分为多种存储级别。此外还可选择使用Tachyon来管理内存数据。

　　为了适应迭代计算，Spark将经常被重要的数据缓存到内存中以提升数据读取速度，当内存容量有限时，则将数据存入磁盘中或根据最近最少使用页面置换算法将内存中使用频率较低的文件空间收回，从而让新的数据进来。

　　Tachyon的出现主要是为了解决3个问题而设计。一是多应用数据共享问题，二是JVM缓存数据丢失问题，三是GC开销问题。Tachyon将过去的Spark中的计算和内存管理两个部分分离，专门使用Tachyon在JVM堆外管理Spark计算所需要的数据，极大地减轻了Spark管理上的负担和JVM内存负担。这种设计思路能很好地解决以上3个问题并提升了程序运行的稳定性和速度。

Spark的数据存储的更多相关文章

Spark RDD概念学习系列之Spark的数据存储（十二）
Spark数据存储的核心是弹性分布式数据集(RDD). RDD可以被抽象地理解为一个大的数组(Array),但是这个数组是分布在集群上的. 逻辑上RDD的每个分区叫一个Partition. 在Spar ...
Spark的数据存储（十九）
Spark本身是基于内存计算的架构,数据的存储也主要分为内存和磁盘两个路径.Spark本身则根据存储位置.是否可序列化和副本数目这几个要素将数据存储分为多种存储级别.此外还可选择使用Tachyon来管 ...
Spark Streaming接收Kafka数据存储到Hbase
Spark Streaming接收Kafka数据存储到Hbase fly spark hbase kafka 主要参考了这篇文章https://yq.aliyun.com/articles/60712 ...
Azure HDInsight 和 Spark 大数据实战(二)
HDInsight cluster on Linux 登录 Azure portal (https://manage.windowsazure.com ) 点击左下角的 NEW 按钮,然后点击 DAT ...
从 RAID 到 Hadoop Hdfs 『大数据存储的进化史』
我们都知道现在大数据存储用的基本都是 Hadoop Hdfs ,但在 Hadoop 诞生之前,我们都是如何存储大量数据的呢?这次我们不聊技术架构什么的,而是从技术演化的角度来看看 Hadoop Hdf ...
Spark大数据针对性问题。
1.海量日志数据,提取出某日访问百度次数最多的那个IP. 解决方案:首先是将这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中.注意到IP是32位的,最多有个2^32个IP.同样可以采 ...
网易大数据之数据存储：HDFS
一.HDFS基础架构 1.HDFS特点:水平扩展.高容错性.廉价硬件.开源生态系统 2.Hadoop生态圈 1).分布式存储系统(HDFS),2).资源管理框架(YARN),3).批处理框架(MapR ...
大数据存储的进化史 --从 RAID 到 Hdfs
我们都知道现在大数据存储用的基本都是 Hdfs ,但在 Hadoop 诞生之前,我们都是如何存储大量数据的呢?这次我们不聊技术架构什么的,而是从技术演化的角度来看看 Hadoop Hdfs. 我们先来 ...
万亿级日志与行为数据存储查询技术剖析——Hbase系预聚合方案、Dremel系parquet列存储、预聚合系、Lucene系
转自:http://www.infoq.com/cn/articles/trillion-log-and-data-storage-query-techniques?utm_source=infoq& ...

随机推荐

[转]require(),include(),require_once()和include_once()区别
require(),include(),require_once()和include_once()区别面试中最容易提到的一个PHP的问题,我想和大家共勉一下: require()和include() ...
学习地址(oraclemysqllinux)
1.安装配置 http://blog.chinaunix.net/uid-27126319-id-3466193.htmlhttp://www.cnblogs.com/gaojun/archive/2 ...
常用Web Service汇总（天气预报、时刻表等）
现成的Web Service中有很多很好用的,比如天气预报,IP地址搜索,火车时刻表等等.本文汇总的一些常用Web Service,希望对大家有所帮助. AD: ================= ...
常用Java排序算法
常用Java排序算法冒泡排序 .选择排序.快速排序 package com.javaee.corejava; public class DataSort { public DataSort() { ...
AJAX跨域解决方案
从AJAX诞生那天起,XMLHttprequest对象不能跨域请求的问题就一直存在,这似乎是一个很经典的问题了,是由于javascript的同源策略所导致. 解决的办法,大概有如下几种: 1. 使用中 ...
docker使用阿里云Docker镜像库加速
官方镜像下载实在是慢,于是开通了阿里云开发者帐号, 官方帮助阿里云Docker镜像库阿里云容器Hub服务:http://dev.aliyun.com/search.html 来自云端的容器Hub服 ...
selenium查找动态的iframe的name
WebElement frame1 = driver.findElement(By.xpath("/html/body/div[9]/div[2]/div/iframe"));dr ...
Linux disk_partition_dev_马士兵_note
一般装Linux会遇到的问题: 找不到硬件驱动现在主流的一些硬件不支持Linux驱动尽量找主流的硬件,尽量找老一点的硬件装系统: 1.记下系统 ---->到时候要找驱动 2 ...
yum提示This system is not registered with RHN.RHN support will be disabled.
[root@cactiez ~]# yum install mlocateLoading "security" pluginLoading "rhnplugin" ...
PHP类型转换
php代码 <?php$foo = "0"; // $foo 是字符串 (ASCII 48)var_dump($foo) ; echo '<br/>'; $foo ...

Spark的数据存储

Spark的数据存储的更多相关文章

随机推荐

热门专题