Apache Spark GraphX的简介】的更多相关文章

简单地说,GraphX是大规模图计算框架. GraphX 是 Spark 中的一个重要子项目,它利用 Spark 作为计算引擎,实现了大规模图计算的功能,并提供了类似 Pregel 的编程接口. GraphX 的出现,将 Spark 生态系统变得更加完善和丰富:同时以其与 Spark 生态系统其他组件很好的融合,以及强大的图数据处理能力,在工业界得到了广泛的应用. GraphX 是常用图算法在 Spark 上的并行化实现,同时提供了丰富的 API 接口.图算法是很多复杂机器学习算法的基础,在单机…
类似 Spark 在 RDD 上提供了一组基本操作符(如 map, f ilter, reduce), GraphX 同样也有针对 Graph 的基本操作符,用户可以在这些操作符传入自定义函数和通过修改图的节点属性或结构生成新的图. GraphX 提供了丰富的针对图数据的操作符. Graph 类中定义了核心的.优化过的操作符.一些更加方便的由底层核心操作符组合而成的上层操作符在 GraphOps 中进行定义.正是通过 Scala 语言的 implicit 关键字, GraphOps 中定义的操作…
GraphX基于BSP模型,在Spark之上封装类似Pregel的接口,进行大规模同步全局的图计算,尤其是当用户进行多轮迭代时,基于Spark内存计算的优势尤为明显.…
1. 整体架构 GraphX 的整体架构(如图 1所示)可以分为三部分. 图 1  GraphX 架构 存储和原语层: Graph 类是图计算的核心类.内部含有 VertexRDD. EdgeRDD 和RDD[EdgeTriplet] 引用. GraphImpl 是 Graph 类的子类,实现了图操作.‰ 接口层:在底层 RDD 的基础之上实现了 Pregel 模型, BSP 模式的计算接口.‰ 算法层:基于 Pregel 接口实现了常用的图算法.包括: PageRank. SVDPlusPlu…
Shark是构建在Spark和Hive基础之上的数据仓库. 目前,Shark已经完成学术使命,终止开发,但其架构和原理仍具有借鉴意义. 它提供了能够查询Hive中所存储数据的一套SQL接口,兼容现有的Hive QL语法. 这样,熟悉Hive QL或者SQL的用户可以基于Shark进行快速的Ad-Hoc. Reporting等类型的SQL查询. Shark底层复用Hive的解析器. 优化器以及元数据存储和序列化接口. Shark会将Hive QL编译转化为一组Spark任务,进行分布式运算.…
Spark Streaming通过将流数据按指定时间片累积为RDD,然后将每个RDD进行批处理,进而实现大规模的流数据处理.其吞吐量能够超越现有主流流处理框架Storm,并提供丰富的API用于流数据计算. Spark Streaming 是一个批处理的流式计算框架.它的核心执行引擎是 Spark,适合处理实时数据与历史数据混合处理的场景,并保证容错性. Spark Streaming 是构建在 Spark 上的实时计算框架,扩展了 Spark 流式大数据处理能力. Spark Streaming…
MLlib 是构建在 Spark 上的分布式机器学习库,充分利用了 Spark 的内存计算和适合迭代型计算的优势,将性能大幅度提升.同时由于 Spark 算子丰富的表现力, 让大规模机器学习的算法开发不再复杂. MLlib 是 一 些 常 用 的 机 器 学 习 算 法 和 库 在Spark 平台上的实现.MLlib 是 AMPLab 的在研机器学习项目 MLBase 的底层组件. MLBase 是一个机器学习平台,详细见 http://www.cnblogs.com/zlslch/p/5726…
GraphX 的特点是离线计算.批量处理,基于同步的 BSP 模型(Bulk Synchronous Parallel Computing Model,整体同步并行计算模型),这样的优势在于可以提升数据处理的吞吐量和规模,但是会造成速度上稍逊一筹.目前大规模图处理框架还有基于 MPI模型的异步图计算模型 GraphLab 和同样基于 BSP 模型的 Graph 等.…
Tachyon是一个分布式内存文件系统,可以理解为内存中的HDFS. 为了提供更高的性能,将数据存储剥离Java Heap. 用户可以基于Tachyon实现RDD或者文件的跨应用共享,并提供高容错机制,保证数据的可靠性.…
GraphX Programming Guide 概述 入门 属性 Graph 示例属性 Graph Graph 运算符 运算符的汇总表 Property 运算符 Structural 运算符 Join 运算符 邻域聚合 聚合消息 (aggregateMessages) Map Reduce Triplets Transition Guide (Legacy) 计算级别信息 收集相邻点 Caching and Uncaching Pregel API Graph 建造者 Vertex and E…