两款高性能并行计算引擎Storm和Spark比較

对Spark、Storm以及Spark Streaming引擎的简明扼要、深入浅出的比較，原文发表于踏得网。

Spark基于这种理念。当数据庞大时，把计算过程传递给数据要比把数据传递给计算过程要更富效率。每一个节点存储（或缓存）它的数据集，然后任务被提交给节点。

所以这是把过程传递给数据。这和Hadoop map/reduce很相似。除了积极使用内存来避免I/O操作，以使得迭代算法（前一步计算输出是下一步计算的输入）性能更高。

Shark仅仅是一个基于Spark的查询引擎（支持ad-hoc暂时性的分析查询）

而Storm的架构和Spark截然相反。

Storm是一个分布式流计算引擎。每一个节点实现一个主要的计算过程，而数据项在互相连接的网络节点中流进流出。和Spark相反，这个是把数据传递给过程。

两个框架都用于处理大量数据的并行计算。

Storm在动态处理大量生成的“小数据块”上要更好（比方在Twitter数据流上实时计算一些汇聚功能或分析）。

Spark工作于现有的数据全集（如Hadoop数据）已经被导入Spark集群，Spark基于in-memory管理能够进行快讯扫描，并最小化迭代算法的全局I/O操作。

只是Spark流模块（Streaming Module）倒是和Storm相相似（都是流计算引擎），虽然并不是全然一样。

Spark流模块先汇聚批量数据然后进行数据块分发（视作不可变数据进行处理）。而Storm是仅仅要接收到数据就实时处理并分发。

不确定哪种方式在数据吞吐量上要具优势，只是Storm计算时间延迟要小。

总结下，Spark和Storm设计相反，而Spark Steaming才和Storm相似。前者有数据平滑窗体（sliding window），而后者须要自己去维护这个窗体。

By Techbrood Co.

两款高性能并行计算引擎Storm和Spark比較的更多相关文章

hadoop、storm和spark的区别、比较
一.hadoop.Storm该选哪一个? 为了区别hadoop和Storm,该部分将回答如下问题:1.hadoop.Storm各是什么运算2.Storm为什么被称之为流式计算系统3.hadoop适合什 ...
大数据系列之并行计算引擎Spark介绍
相关博文:大数据系列之并行计算引擎Spark部署及应用 Spark: Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎. Spark是UC Berkeley AMP lab ( ...
大数据系列之并行计算引擎Spark部署及应用
相关博文: 大数据系列之并行计算引擎Spark介绍之前介绍过关于Spark的程序运行模式有三种: 1.Local模式: 2.standalone(独立模式) 3.Yarn/mesos模式本文将介绍 ...
基于Ubuntu14.04下Suricata（一款高性能的网络IDS、IPS和网络安全监控引擎）的搭建（图文详解）（博主推荐）
为什么,要写这篇论文? 是因为,目前科研的我,正值研三,致力于网络安全.大数据.机器学习研究领域! 论文方向的需要,同时不局限于真实物理环境机器实验室的攻防环境.也不局限于真实物理机器环境实验室的大数 ...
基于CentOS6.5下Suricata（一款高性能的网络IDS、IPS和网络安全监控引擎）的搭建（图文详解）（博主推荐）
不多说,直接上干货! 为什么,要写这篇论文? 是因为,目前科研的我,正值研三,致力于网络安全.大数据.机器学习研究领域! 论文方向的需要,同时不局限于真实物理环境机器实验室的攻防环境.也不局限于真实物 ...
suricata.yaml （一款高性能的网络IDS、IPS和网络安全监控引擎）默认配置文件（图文详解）
不多说,直接上干货! 前期博客基于CentOS6.5下Suricata(一款高性能的网络IDS.IPS和网络安全监控引擎)的搭建(图文详解)(博主推荐) 或者基于Ubuntu14.04下Suric ...
从Storm和Spark 学习流式实时分布式计算的设计
0. 背景最近我在做流式实时分布式计算系统的架构设计,而正好又要参加CSDN博文大赛的决赛.本来想就写Spark源码分析的文章吧.但是又想毕竟是决赛,要拿出一些自己的干货出来,仅仅是源码分析貌似分量 ...
本文将介绍“数据计算”环节中常用的三种分布式计算组件——Hadoop、Storm以及Spark。
本文将介绍“数据计算”环节中常用的三种分布式计算组件——Hadoop.Storm以及Spark. 当前的高性能PC机.中型机等机器在处理海量数据时,其计算能力.内存容量等指标都远远无法达到要求.在大数 ...
Storm与Spark：谁才是我们的实时处理利器
Storm与Spark:谁才是我们的实时处理利器 ——实时商务智能目前已经逐步迈入主流,而Storm与Spark开源项目的支持无疑在其中起到了显著的推动作用.那么问题来了:实时处理到底哪家强? 实时商 ...

随机推荐

FileZilla Server-Can’t access file错误解决方法
在某服务器上用FileZilla Server搭建了一个FTP服务器.开始使用没有发现任何问题,后来在向服务器传送大文件的时候,发现总是传输到固定的百分比的时候出现 ”550 can’t access ...
【Spring】java.lang.IndexOutOfBoundsException: Index: 256, Size: 256
Spring接受前台的数据超过256出现例如以下异常: org.springframework.beans.InvalidPropertyException: Invalid property 'sp ...
hdu 1213 （How Many Tables）（简单的并查集，纯模板）
How Many Tables Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) ...
Unix系统编程（）main函数的命令行参数
命令行参数输入双引号是什么效果? 好像可以去空格化.
Taxi Cab Scheme UVALive - 3126 最小路径覆盖解法(必须是DAG，有向无环图) = 结点数-最大匹配
/** 题目:Taxi Cab Scheme UVALive - 3126 最小路径覆盖解法(必须是DAG,有向无环图) = 结点数-最大匹配链接:https://vjudge.net/proble ...
redux-effect
npm install --save redux-effect 通过redux中间件的方式使async方法可以在redux中使用. 如果你使用redux-saga,应该非常容易上手redux-effe ...
由「Metaspace容量不足触发CMS GC」从而引发的思考
https://mp.weixin.qq.com/s/1VP7l9iuId_ViP1Z_vCA-w 某天早上,毛老师在群里问「cat 上怎么看 gc」. 好好的一个群看到有 GC 的问题,立马做出小 ...
Des加密方法
//默认密钥向量 private static byte[] Keys = { 0x12, 0x34, 0x56, 0x78, 0x90, 0xAB, 0xCD, 0xEF }; private st ...
【vijos】1781 同余方程（拓展欧几里得）
https://vijos.org/p/1781 学习了下拓欧.. 求exgcd时,因为 a*x1+b*y1=a*x2+b*y2=b*x2+(a-b*[a/b])*y2 然后移项得 a*x1+b*y1 ...
根本上解决npm install 报错“ajv-keywords@3.4.0 requires a peer of ajv@^6.9.1 but none is installed. You must install peer dependencies yourself.“
每次项目npm install 的时候都报这个错误, 然后网上找的方法就把这个 ajv重新安装下,感觉有点麻烦, 后来有次我把npm更新了一下(我的版本是: 6.1.0),更新到了最新版本,这个问题就 ...

两款高性能并行计算引擎Storm和Spark比較

两款高性能并行计算引擎Storm和Spark比較的更多相关文章

随机推荐

热门专题