预期成果

1.1 当前问题

当前以图搜图应用存在的问题：

当前使用spark RDD方案无法达到数据实时加载（每10分钟加载一次，虽然可配，但太短可能会有问题）
Spark RDD内存会被分为两部分，一部分用来缓存数据一部分用来计算，Spark默认配置只有差不多50%的内存用于缓存（也就是说executor配了100G，只有50多G可以被用来做缓存），虽然比例可以进行配置，但增加缓存内存比例后，是否会影响计算性能有待测试。
当前数据全缓存到spark jvm内存中，GC时间较长会导致影响计算性能
当前加载的RDD只有自身context才能使用，无法做到应用间共享
当driver端服务宕掉后，缓存的数据也会丢失
期望能将增量数据加载时间缩小到足够小达到准实时，或者直接能够达到实时
职责分明，缓存有分布式缓存做，Spark只负责计算
缓存数据不占用Spark jvm内存，减少GC对计算的影响
加载到内存的数据可以被其他应用使用
Driver端服务宕掉后，缓存数据不会丢失，其他driver段仍可使用
采用新方案对比原方案，性能损耗尽可能小，最好达到无损耗

1.2 预期成果

2 技术选型

根据上述问题和预期成果，期望选择一款与Spark结合较好的分布式内存缓存计算，从而将缓存工作从spark中抽离出来，让spark专注于计算。

2.1.1 Apache Ignite

Apache Ignite内存数据组织是高性能的、集成化的以及分布式的内存平台，他可以实时地在大数据集中执行事务和计算，和传统的基于磁盘或者闪存的技术相比，性能有数量级的提升。

选择预研该技术最大的原因为，Ignite实现了一个可共享的Spark RDD，可实现增量数据实时在比对中体现。

2.1.2 Alluxio（原Tachyon）

Alluxio在1.0版本后由原来的Tcahyon更名。Alluxio与Spark结合较好，Spark1.5后增加的缓存方式：OFF_HEAP（堆外缓存）当前只支持tachyon。

不过Alluxio和Spark RDD一样都不可变，缓存文件一旦写入就不能修改，且在完成写入之前缓存数据是无法读取的，这样就服务达到增量数据的实时性，但可以实现尽可能缩短增量加载时间来达到准实时性。

3 阶段性结论

性能测试采用上述两种技术三个版本（apache-ignite-fabric-1.5.0.final、alluxio-1.0.1、tachyon-0.7.1-hadoop2.6-build）八种方案:

直接采用Spark RDD缓存，且缓存数据不做序列化
直接采用Spark RDD缓存，缓存数据使用java序列化方式
直接采用Spark RDD缓存，缓存数据使用kryo序列化方式
采用Spark RDD OFF_HEAP模式（即缓存数据到tachyon），缓存数据使用java序列化方式
采用Spark RDD OFF_HEAP模式（即缓存数据到tachyon），缓存数据使用kryo序列化方式
使用tachyon缓存数据（调用saveAsObjectFile，直接将数据序列化成文件写到tachyon中），saveAsObjectFile使用java序列化方式
使用Alluxio缓存数据（调用saveAsObjectFile，直接将数据序列化成文件写到Alluxio中），saveAsObjectFile使用java序列化方式
使用ignite缓存数据，使用IgniteRDD进行统计

下面为三台256G内存集群，58727000条数据，Spark分配36核，测试结果如下：

缓存方式	内存配置	是否序列化	序列化实现	检索耗时(s)	内存空间(GB)
Spark RDD	executor:150GB*3	否		11.527	112.8
Spark RDD	executor:150GB*3	是	java	20.09	56.4
Spark RDD	executor:150GB*3	是	kryo	16.275	51.8
Spark RDD + tachyon	executor:20GB3 tachyon:100GB3	是	java	21.771	51.56
Spark RDD + tachyon	executor:20GB3 tachyon:100GB3	是	kryo	17.772	51.83
tachyon	executor:20GB3 tachyon:100GB3	是	java	32.719	53.03
Alluxio	executor:20GB3 alluxio:100GB3	是	java	26.988	53.03
ignite	executor:20GB3 ignite:10GB3(数据保存在堆外，不使用jvm内存)	是	java	333.228

由上表分析如下：

检索耗时最短为方案一，直接缓存到spark jvm中且不做序列化，但该方案占用内存也较多(目前是其他方案的两倍)，不过当前以图搜图框架中数据结构采用map，所以较占内存
方案一、二、三对比，采用序列化会有性能损耗，kryo序列化耗时是java序列化的1/2，与之前测试基本一致，采用kryo序列化112GB数据耗时4-5秒
对比方案二、方案四以及方案三、方案五，从tachyon拉数据到spark进行计算耗时为1秒左右，但由于存储到tachyon必须序列化，所以得加上序列化的耗时，最少的性能损耗也差不多5-6秒
直接调用saveAsObjectFile保存数据到tachyon或者Alluxio，性能损耗较大，分别为22秒和14秒，初步估计性能损耗由于：（1）saveAsObjectFile采用java序列化方式，性能损耗将近9秒；（2）saveAsObjectFile内部实现使用的是hadoop api，tachyon能够兼容这些api，但可能有部分性能损耗;（3）spark可能对tachyon存储做过一定优化
由表格可以看出ignite结合spark性能很差，估计原因可能为：（1）可能修改某些配置后可以优化性能，但iginte资料非常少，特别是跟spark结合这块，基本没有什么资料；（2）ignite本身不单单包含存储功能，还有检索、计算等功能，所以它与spark本身也存在竞争关系

结论如下：

ignite如需优化性能需要深入源码，且没有对比数据，具体最后能到什么程度无法预估，且当前基本没有什么已知公司使用该技术与Spark结合

Alluxio（Tachyon）性能优化需要看Spark缓存代码，但是该方法最终能够达到的性能指标基本能够预估（较现有方案有5-6秒的损耗，但内存消耗可能会有所减少）

Spark与缓存的更多相关文章

Spark源码系列（五）分布式缓存
这一章想讲一下Spark的缓存是如何实现的.这个persist方法是在RDD里面的,所以我们直接打开RDD这个类. def persist(newLevel: StorageLevel): this. ...
Databricks缓存提升Spark性能--为什么NVMe固态硬盘能够提升10倍缓存性能（原创）
我们兴奋的宣布Databricks缓存的通用可用性,作为统一分析平台一部分的 Databricks 运行时特性,它可以将Spark工作负载的扫描速度提升10倍,并且这种改变无需任何代码修改. 1.在本 ...
Spark SQL 之 Data Sources
#Spark SQL 之 Data Sources 转载请注明出处:http://www.cnblogs.com/BYRans/ 数据源(Data Source) Spark SQL的DataFram ...
Spark官方文档 - 中文翻译
Spark官方文档 - 中文翻译 Spark版本:1.6.0 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 引入Spark(Linki ...
Spark 架构
本文转之Pivotal的一个工程师的博客.觉得极好. 作者本人经常在StackOverflow上回答一个关系Spark架构的问题,发现整个互联网都没有一篇文章能对Spark总体架构进行很好的描述, ...
Spark SQL 官方文档-中文翻译
Spark SQL 官方文档-中文翻译 Spark版本:Spark 1.5.2 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 Data ...
Spark 学习笔记1 (常见术语 )
本来没打算学Spark 的,不过时机很逗. 最膜拜的大神做spark分享,还是其中最好玩的notebook.这不就是另外一个 HUE吗,但感觉更好玩. 刚好新的Spark 2.x 要问世了,大神在组织 ...
Hadoop与Spark比较
先看这篇文章:http://www.huochai.mobi/p/d/3967708/?share_tid=86bc0ba46c64&fmid=0 直接比较Hadoop和Spark有难度,因为 ...
【译】Spark官方文档——Spark Configuration（Spark配置）
注重版权,尊重他人劳动转帖注明原文地址:http://www.cnblogs.com/vincent-hv/p/3316502.html Spark主要提供三种位置配置系统: 环境变量:用来启动 ...

随机推荐

ylb：SQL 存储过程（Procedure）
ylbtech-SQL Server: SQL Server-SQL 存储过程(Procedure) 1,存储过程(Procedure)-基本创建与操作 2,存储过程(Procedure)-入参 3, ...
Linux下Utuntu使用
以前一直用Centos,在下面安装了Vmware Tools和Eclipse C++基本能使用,也遇到过一些问题.突然心血来潮,试试Utuntu,所以在实验室电脑虚拟机上装一下,安装过程很熟练了,参考 ...
23. Spring Boot启动加载数据CommandLineRunner【从零开始学Spring Boot】
转:http://blog.csdn.net/linxingliang/article/details/52069503 实际应用中,我们会有在项目服务启动的时候就去加载一些数据或做一些事情这样的需求 ...
java查看工具jhat-windows
Analyzes the Java heap. This command is experimental and unsupported. Synopsis jhat [ options ] heap ...
VirtualBox 笔记
VirtualBox 笔记p=111" target="_blank"> http://www.youi5.com/?p=111 VirtualBox 虚拟机,由I ...
Java Swing界面编程(25)---事件处理：鼠标事件及监听处理
假设想对一个鼠标的操作进行监听,假设鼠标按下.松开等.则能够使用MouseListener接口. package com.beyole.util; import java.awt.event.Mous ...
prop()方法和attr()方法以及区别
prop()方法: prop() 方法设置或返回被选元素的属性和值. 当该方法用于返回属性值时,则返回第一个匹配元素的值. 当该方法用于设置属性值时,则为匹配元素集合设置一个或多个属性/值对. 注意: ...
SQLSERVER 2008 链接到 ORACLE 11
MSSQL2008R2 链接 ORACLE 11: 创建链接: exec sp_addlinkedserver 'DBLINK_ORACL' , 'ORACLE' , 'MSDAORA' , 'ORC ...
(最短路径算法整理)dijkstra、floyd、bellman-ford、spfa算法模板的整理与介绍
这一篇博客以一些OJ上的题目为载体.整理一下最短路径算法.会陆续的更新... 一.多源最短路算法--floyd算法 floyd算法主要用于求随意两点间的最短路径.也成最短最短路径问题. 核心代码: / ...
一文了解@Conditional注解说明和使用
@Conditional:Spring4.0 介绍了一个新的注解@Conditional,它的逻辑语义可以作为"If-then-else-"来对bean的注册起作用. @Con ...

Spark与缓存