上周末有幸参加了Alluxio(之前也叫Tachyon),七牛云和示说网举办的Alluxio上海Meetup,之前我并没有在真实应用场景中使用过Alluxio,对其适用的应用场景一直报怀疑态度。自信聆听其创始人的演讲之后,感觉这个项目还挺有意思,对Alluxio简单总结一下:

  • DAL(数据访问层)

Alluxio提供了各种文件访问API,包括兼容HDFS的API,Alluxio特有的数据访问API,Rest API和FUSE API,特别是FUSE API,支持POSIX标准的文件访问接口,让很多单机版的程序(如TensorFlow),可以享受大数据和云端的数据存取。不过它并不支持随机的文件写访问,想想也合理,毕竟底层文件存储系统可能是HDFS或者S3;

  • 统一数据访问

依然如上图,Alluxio底层的存储系统可以是亚马逊的S3,Google的存储,阿里云OSS,也可以是HDFS,甚至是单机的SAS,NFS。让这些文件系统都可以无缝与现有的大数据平台(通过HDFS Compatible API),或者单机版软件(通过FUSE API)完全兼容。

  • 透明的文件缓存抽象

高效访问数据的时候,如何做好文件缓存,其实对应应用程序开发者而言,有时候出于性能的考虑是非常重要的,Alluxio提供了透明的缓存方案,让内存(DRAM),本地快速存储器(SSD),本地慢速存储器(HDD)以及云端存储(HDFS/OSS/S3)等,形成一个层次化的缓存机制,让热的数据尽可能接近快速访问设备,这个对于深度学习和其它反复迭代访问数据的模型而言,性能的提升就不言而喻了。

那么Alluxio的主要应用场景有哪些呢?

  1. 基于SAS平台单机应用,想无缝扩容,可以考虑用Alluxio的FUSE API,底层用HDFS或者其它云端存储。
  2. 基于HDFS的分布式应用,想访问单机或者NFS的设备上的文件,可以考虑用HDFS Compatiable API。
  3. 反复迭代读取远端(比如云端,跨数据中心,跨集群,也可以是超大HDFS集群中加速某个应用的数据访问)数据,可以部署Alluxio

Alluxio应用场景在传统的小型集群中可能碰不太到,但是越来越多的应用都是混合云的情况,特别是数据和计算分离的场景,异构的数据存储带来的系统耦合,都可以通过Alluxio来解耦,不过目前Alluxio也有自身的一些问题,多个副本可能同时存在多个Alluxio个节点上,造成了事实上的数据缓存浪费,2.0版本中可能会有所更新。

不过最有意思的,来自与Alluxio初创成员讲分布式系统设计中的坑,不完全是针对Alluxio的,而是开发Alluxio类似这种大型分布式系统,肯能碰到的经验和收获,包括netty的资源泄露问题,jvm的问题等等,更多细节可以看看示说网Alluxio 2.0 Overview分享。

Alluxio原理和应用场景随笔的更多相关文章

  1. Java进阶(七)正确理解Thread Local的原理与适用场景

    原创文章,始自发作者个人博客,转载请务必将下面这段话置于文章开头处(保留超链接). 本文转发自技术世界,原文链接 http://www.jasongj.com/java/threadlocal/ Th ...

  2. ThreadLocal 原理和使用场景分析

    ThreadLocal 不知道大家有没有用过,但至少听说过,今天主要记录一下 ThreadLocal 的原理和使用场景. 使用场景 直接定位到 ThreadLocal 的源码,可以看到源码注释中有很清 ...

  3. 深入解析ThreadLocal 详解、实现原理、使用场景方法以及内存泄漏防范 多线程中篇(十七)

    简介 从名称看,ThreadLocal 也就是thread和local的组合,也就是一个thread有一个local的变量副本 ThreadLocal提供了线程的本地副本,也就是说每个线程将会拥有一个 ...

  4. 蓝牙协议分析(12)_LQ和RSSI的原理及应用场景

    在蓝牙协议栈的物理层,有这样两个比较有用的参数:LQI和RSSI.它们都是通过接收端,判断当前无线环境的质量(链路质量),以指导后续的动作.但这两个数值的计算原理和使用场景又有很大的差别. LQI ( ...

  5. 谈谈MySQL支持的事务隔离级别,以及悲观锁和乐观锁的原理和应用场景?

    在日常开发中,尤其是业务开发,少不了利用 Java 对数据库进行基本的增删改查等数据操作,这也是 Java 工程师的必备技能之一.做好数据操作,不仅仅需要对 Java 语言相关框架的掌握,更需要对各种 ...

  6. [转帖]Docker五种存储驱动原理及应用场景和性能测试对比

    Docker五种存储驱动原理及应用场景和性能测试对比 来源:http://dockone.io/article/1513 作者: 陈爱珍 布道师@七牛云   Docker最开始采用AUFS作为文件系统 ...

  7. laravel基础课程---7、文件处理、闪存、cookie(cookie原理和使用场景)

    laravel基础课程---7.文件处理.闪存.cookie(cookie原理和使用场景) 一.总结 一句话总结: 页面请求服务器的时候是把这个页面中所有的cookie都带上了的,cookie里面也存 ...

  8. 第36讲 谈谈MySQL支持的事务隔离级别,以及悲观锁和乐观锁的原理和应用场景

    在日常开发中,尤其是业务开发,少不了利用 Java 对数据库进行基本的增删改查等数据操作,这也是 Java 工程师的必备技能之一.做好数据操作,不仅仅需要对 Java 语言相关框架的掌握,更需要对各种 ...

  9. Dockerfile多阶段构建原理和使用场景

    本文转载自Dockerfile多阶段构建原理和使用场景 导语 Docker 17.05版本以后,新增了Dockerfile多阶段构建.所谓多阶段构建,实际上是允许一个Dockerfile 中出现多个 ...

随机推荐

  1. 京东原来你运用的这玩意,不错,我也要!! ContainerDNS

    转自社区 ContainerDNS 本文介绍的 DNS 命名为 ContainerDNS,作为京东商城软件定义数据中心的关键基础服务之一,具有以下特点: 分布式,高可用 自动发现服务域名 后端探活 易 ...

  2. Linux下top命令监控性能状态

    1.性能分析因素:CPU.内存.网络.磁盘读写 2.系统对应的应用类型主要分为以下两种: IO Bound:一般都是高负荷的内存使用以及存储系统,IO范畴的应用就是一个大数据处理的过程:通常数据库软件 ...

  3. jQuery中index()方法用法实例

    本文实例讲述了jQuery中index()方法用法.分享给大家供大家参考.具体分析如下: 此方法可以搜索匹配元素,并返回元素的索引值.索引值是从0开始的. 语法结构一: 当此方法没有参数的时候,返回值 ...

  4. Python初学者第十八天 函数(2)

    18day 函数 1.函数的返回值:return a.函数外的代码想要获取函数的返回结果时,即可使用return语句 b.函数中如遇到return后,会停止执行,并返回结果.所以若函数未使用retur ...

  5. Exchange Server 2016 安卓手机打不开超过10M的附件问题处理

    华为手机配置Exchange Server 2016  时,打不开超过10M的附件,如PPT或者是DOC之类的附件,而iphone手机确可以,因为iphone手机使用了IMAP协议,安卓手机如果使用I ...

  6. August 04th 2017 Week 31st Friday

    Love is a vine that grows into our hearts. 爱是长在我们心里的藤蔓. What is love? Maybe no one can explain it cl ...

  7. December 18th 2016 Week 52nd Sunday

    May your love soar on the wings of a dove in flight. 愿你的爱乘着飞翔中的白鸽,展翅高飞. May my life soar on the wing ...

  8. [EffectiveC++]item03:尽可能使用const 并且转载一篇关于const函数的博客

    速度 #include <iostream> using namespace std; class TextBlock { private: string text; public: Te ...

  9. APPLICATION FAILED TO START

    Description: Cannot determine embedded database driver class for database type NONE Action: If you w ...

  10. ios 性能优化概述

    在开发IOS程序的时候,不止是简简单单的把代码堆砌起来,或者说有一个比较好的架构,程序就ok的.还需要在程序性能上进行优化.所谓优化,并非只是简单的优化几个算法,让程序看起来跑的更快.优化是有目标的, ...