Apache Spark Tachyon的简介】的更多相关文章

Tachyon是一个分布式内存文件系统,可以理解为内存中的HDFS. 为了提供更高的性能,将数据存储剥离Java Heap. 用户可以基于Tachyon实现RDD或者文件的跨应用共享,并提供高容错机制,保证数据的可靠性.…
Shark是构建在Spark和Hive基础之上的数据仓库. 目前,Shark已经完成学术使命,终止开发,但其架构和原理仍具有借鉴意义. 它提供了能够查询Hive中所存储数据的一套SQL接口,兼容现有的Hive QL语法. 这样,熟悉Hive QL或者SQL的用户可以基于Shark进行快速的Ad-Hoc. Reporting等类型的SQL查询. Shark底层复用Hive的解析器. 优化器以及元数据存储和序列化接口. Shark会将Hive QL编译转化为一组Spark任务,进行分布式运算.…
Spark Streaming通过将流数据按指定时间片累积为RDD,然后将每个RDD进行批处理,进而实现大规模的流数据处理.其吞吐量能够超越现有主流流处理框架Storm,并提供丰富的API用于流数据计算. Spark Streaming 是一个批处理的流式计算框架.它的核心执行引擎是 Spark,适合处理实时数据与历史数据混合处理的场景,并保证容错性. Spark Streaming 是构建在 Spark 上的实时计算框架,扩展了 Spark 流式大数据处理能力. Spark Streaming…
MLlib 是构建在 Spark 上的分布式机器学习库,充分利用了 Spark 的内存计算和适合迭代型计算的优势,将性能大幅度提升.同时由于 Spark 算子丰富的表现力, 让大规模机器学习的算法开发不再复杂. MLlib 是 一 些 常 用 的 机 器 学 习 算 法 和 库 在Spark 平台上的实现.MLlib 是 AMPLab 的在研机器学习项目 MLBase 的底层组件. MLBase 是一个机器学习平台,详细见 http://www.cnblogs.com/zlslch/p/5726…
简单地说,GraphX是大规模图计算框架. GraphX 是 Spark 中的一个重要子项目,它利用 Spark 作为计算引擎,实现了大规模图计算的功能,并提供了类似 Pregel 的编程接口. GraphX 的出现,将 Spark 生态系统变得更加完善和丰富:同时以其与 Spark 生态系统其他组件很好的融合,以及强大的图数据处理能力,在工业界得到了广泛的应用. GraphX 是常用图算法在 Spark 上的并行化实现,同时提供了丰富的 API 接口.图算法是很多复杂机器学习算法的基础,在单机…
原文地址:http://blog.jobbole.com/?p=89446 我是在2013年底第一次听说Spark,当时我对Scala很感兴趣,而Spark就是使用Scala编写的.一段时间之后,我做了一个有趣的数据科学项目,它试着去 预测在泰坦尼克号上幸存.对于进一步了解Spark内容和编程来说,这被证明是一个很好的方式.对于任何有追求的.正在思考如何着手的Spark开发人员,我都非常推荐这个项目. 今天,Spark已经被很多巨头使用,包括Amazon.eBay以及Yahoo!.很多组织都在拥…
引言:本文直接翻译自Spark官方网站首页 Lightning-fast cluster computing 从Spark官方网站给出的标题可以看出:Spark——像闪电一样快的集群计算 Apache Spark™ 是一个应用于大规模数据处理的快速且通用的引擎. 速度 Spark在内存中运行程序的速度比Hadoop MapReduce要快100多倍,在磁盘上则要快10多倍.它使用先进的DAG执行引擎来支持循环数据流和内存计算.   Logistic regression in Hadoop an…
Apache Spark简介 Apache Spark是一个高速的通用型计算引擎,用来实现分布式的大规模数据的处理任务. 分布式的处理方式可以使以前单台计算机面对大规模数据时处理不了的情况成为可能. Apache Spark安装及配置(OS X下的Ubuntu虚拟机) 学习新东西最好是在虚拟机下操作,以免对现在的开发环境造成影响,我的系统是OS X,安装的是VirtualBox虚拟机,然后在虚拟机里安装的Ubuntu系统. VirtualBox安装方法请查看教程: YouTube: Instal…
Apache Spark源码剖析(全面系统介绍Spark源码,提供分析源码的实用技巧和合理的阅读顺序,充分了解Spark的设计思想和运行机理) 许鹏 著   ISBN 978-7-121-25420-8 2015年3月出版 定价:68.00元 304页 16开 编辑推荐 Spark Contributor,Databricks工程师连城,华为大数据平台开发部部长陈亮,网易杭州研究院副院长汪源,TalkingData首席数据科学家张夏天联袂力荐 1.本书全面.系统地介绍了Spark源码,深入浅出,…
欢迎转载,转载请注明出处,徽沪一郎 概要 在新近发布的spark 1.0中新加了sql的模块,更为引人注意的是对hive中的hiveql也提供了良好的支持,作为一个源码分析控,了解一下spark是如何完成对hql的支持是一件非常有趣的事情. Hive简介 Hive的由来 以下部分摘自Hadoop definite guide中的Hive一章 “Hive由Facebook出品,其设计之初目的是让精通SQL技能的分析师能够对Facebook存放在HDFS上的大规模数据集进行分析和查询. Hive大大…