Flink,Storm,SparkStreaming性能对比

Yahoo 的 Storm 团队曾发表了一篇博客文章 ,并在其中展示了 Storm、Flink 和 Spark Streaming 的性能测试结果。该测试对于业界而言极 具价值,因为它是流处理领域的第一个基于真实应用程序的基准测试。

该应用程序从 Kafka 消费广告曝光消息,从 Redis 查找每个广告对应的广 告宣传活动,并按照广告宣传活动分组,以 10 秒为窗口计算广告浏览量。 10 秒窗口的最终结果被存储在 Redis 中,这些窗口的状态也按照每秒记录 一次的频率被写入 Redis,以方便用户对它们进行实时查询。
在最初的性能 测评中,因为 Storm 是无状态流处理器(即它不能定义和维护状态),所以 Flink 作业也按照无状态模式编写。所有状态都被存储在 Redis 中。

在性能测评中,Spark Streaming 遇到了吞吐量和延迟性难 两全的问题。随着批处理作业规模的增加,延迟升高。如果为了降低延迟而缩减规模,吞吐量就会减少。Storm 和 Flink 则可以在吞吐量增加时维持低延迟。

为了进一步测试 Flink 的性能,测试人员设置了一系列不同的场景,并逐步测试。
最初的性能测评专注于在相对较低的吞吐量下,测量端到端的延迟,即 使在极限状态下,也不关注容错性。此外,应用程序中的 key 基数非常小 (100),这使得测试结果无法反映用户量大的情况,或者 key 空间随着时间增长的情况.
由于最初的测试结果显示 Spark Streaming 的性能欠佳,因此这次的测试对 象只有 Storm 和 Flink,它们在最初的测试中有着类似的表现。
第 1 个变化是利用 Flink 提供的状态容错特性重新实现应用程序,如图 5-15 所示。这使得应用程序能保证 exactly-once。
第 2 个变化是通过用每秒可以生成数百万事件的数据生成器来增加输入流 的数据量。
结果如下:

使用高吞吐数据生成器的结果:(A)当Storm 与 Kafka 一起使用时,应用程序可以保持每秒 40 万事件的处理速度,并且瓶颈在于 CPU;当 Flink 与 Kafka 一起使用时,应用程序可以保持每秒300 万事件的处理速度,并且瓶颈在于网络;
(B)当消除网络瓶颈时,Flink 应用程序可以保持每秒1500 万事件的处理速度;
(C)在额外的测试中,消息队列由MapR Streams 提供,并且采用10 个高性能网络节点(硬件与前两种情况中的不同);Flink 应用程序可以保持每秒1000 万事件的处理速度.
Storm 能够承受每秒 40 万事件,但受限于 CPU;Flink 则可以达到每秒 300 万事件(7.5 倍),但受限于 Kafka 集群和 Flink 集群之间的网络。
为了看看在没有网络瓶颈问题时 Flink 的性能如何,我们将数据生成器移到 Flink 应用程序的内部。在这样的条件下,Flink 可以保持每秒 1500 万事件的处理速度(这是 Storm 的 37.5 倍)

将数据生成器整合到 Flink 应用程序中,可以测试性能极限,但这种 做法并不现实,因为现实世界中的数据必须从应用程序的外部流入。
值得注意的是,这绝对不是 Kafka 的极限(Kafka 可以支撑比这更大的吞吐量),而仅仅是测试所用的硬件环境的极限——Kafka 集群和 Flink 集群 之间的网络连接太慢。
最后一个变化是增加 key 基数(广告宣传活动的数量)。在最初的测试中, key 基数只有 100。这些 key 每秒都会被写入 Redis,以供查询。当 key 基数 增加到 100 万时,系统的整体吞吐量减少到每秒 28 万事件,因为向 Redis写入成了系统瓶颈。使用 Flink 可查询状态的一个早期原型可以消除这种瓶颈,使系统的处理速度恢复到每秒 1500 万事件,并 且有 100 万个 key 可供查询.

通过将查询功能移入Flink 可查询状态的一个原型,系统甚至可以在key 基数非常大的情况下仍然维持每秒 1500 万事件的处理速度.

本例说明了什么呢?通过避免流处理瓶颈,同时利用 Flink 的有状态流处理 能力,可以使吞吐量达到Storm 的 30 倍左右,同时还能保证exactly-once 和高可用性。大致来说,这意味着与 Storm 相比,Flink 的硬件成本或云计算成本仅为前者的 1/30,同样的硬件能处理的数据量则是前者的 30 倍。
更多Flink相关文章:
更多实时计算,Flink,Kafka的技术文章欢迎关注实时流式计算

Flink,Storm,SparkStreaming性能对比的更多相关文章
- Storm VS Flink ——性能对比
1.背景 Apache Flink 和 Apache Storm 是当前业界广泛使用的两个分布式实时计算框架.其中 Apache Storm(以下简称"Storm")在美团点评实时 ...
- Spark与Flink大数据处理引擎对比分析!
大数据技术正飞速地发展着,催生出一代又一代快速便捷的大数据处理引擎,无论是Hadoop.Storm,还是后来的Spark.Flink.然而,毕竟没有哪一个框架可以完全支持所有的应用场景,也就说明不可能 ...
- [原] KVM 环境下MySQL性能对比
KVM 环境下MySQL性能对比 标签(空格分隔): Cloud2.0 [TOC] 测试目的 对比MySQL在物理机和KVM环境下性能情况 压测标准 压测遵循单一变量原则,所有的对比都是只改变一个变量 ...
- 浅谈C++之冒泡排序、希尔排序、快速排序、插入排序、堆排序、基数排序性能对比分析之后续补充说明(有图有真相)
如果你觉得我的有些话有点唐突,你不理解可以想看看前一篇<C++之冒泡排序.希尔排序.快速排序.插入排序.堆排序.基数排序性能对比分析>. 这几天闲着没事就写了一篇<C++之冒泡排序. ...
- Java--Stream,NIO ByteBuffer,NIO MappedByteBuffer性能对比
目前Java中最IO有多种文件读取的方法,本文章对比Stream,NIO ByteBuffer,NIO MappedByteBuffer的性能,让我们知道到底怎么能写出性能高的文件读取代码. pack ...
- C正则库做DNS域名验证时的性能对比
C正则库做DNS域名验证时的性能对比 本文对C的正则库regex和pcre在做域名验证的场景下做评测. 验证DNS域名的正则表达式为: "^[0-9a-zA-Z_-]+(\\.[0-9a ...
- 开发语言性能对比,C++、Java、Python、LUA、TCC
一直想做开发语言性能对比,刚好有时间都做了给大家参考一下, 编译类:C++和Java表现还不错 脚本类:TCC脚本动态运行C语言,性能比其他脚本快好多... 想玩TCC的同学下载测试包,TCC目录下修 ...
- php+mysql预查询prepare 与普通查询的性能对比
prepare可以解决大访问量的网站给数据库服务器所带来的负载和开销,本文章通过实例向大家介绍预查询prepare与普通查询的性能对比,需要的朋友可以参考一下. 实例代码如下: <?php cl ...
- 不同Framework下StringBuilder和String的性能对比,及不同Framework性能比(附Demo)
本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 阅读目录 介绍 环境搭建 测试用例 MSDN说明 ...
随机推荐
- mysql 常用命令行总结
登录 mysql -h -u root -p 回车后输入密码,即可登录 直接进入某个库 -D 库名 mysql -h -u root -D account -p 列举数据库.表 show databa ...
- HTTP 响应的分块传输
Transfer-Encoding 响应头用于告诉客户端服务器发送内容的编码格式. 其可选值有: chunked:数据分块发送.此时应缺省 Content-Length 响应头. compress:使 ...
- SpringBoot捕获AccessDeniedException
https://www.jianshu.com/p/bb14cca5ab3d 自定义AccessDeniedHandler /** * @Author: jialing xu * @Descripti ...
- ls用法
常用 ll -h 大小直接显示K,M,G 语 法:ls [-1aAbBcCdDfFgGhHiklLmnNopqQrRsStuUvxX][-I <范本样式>][-T <跳格字数> ...
- python基础(16):内置函数(二)
1. lamda匿名函数 为了解决⼀些简单的需求⽽设计的⼀句话函数 # 计算n的n次⽅ def func(n): return n**n print(func(10)) f = lambda n: n ...
- Java生鲜电商平台-微服务架构概述
Java生鲜电商平台-微服务架构概述 单体架构存在的问题 在传统的软件技术架构系统中,基本上将业务功能集中在单一应用内,或者是单一进程中.尽管现代化的软件架构理论以及设计原则已推广多年,但实际技术衍化 ...
- Java生鲜电商平台-B2B生鲜的互联网思维
Java生鲜电商平台-B2B生鲜的互联网思维 在互联网高速发展的今天,为我们的生活带来了众多便利.然而互联网从早期的萌芽状态到现在妇孺皆知,它的崛起速度远远超乎世人的想象.人们开始关注互联网并且研究它 ...
- ft6236 触摸屏驱动
在目录下amp\a53_linux\drv\extdrv\touchpad\ft6236下可以看到ft6236.c的文件 1. init函数 static int __init ft_init(voi ...
- OpenGL实例:纹理映射
OpenGL实例:纹理映射 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 更多请查看:计算机图形学 1. 介绍 用于指定一维.二维和三维纹理的函数分别 ...
- luoguP3017Brownie Slicing
https://www.luogu.org/problem/P3017 题意 给你一个蛋糕,R行C列 ,每个点有巧克力碎屑(如下) 1 2 2 1 3 1 1 1 2 0 1 3 1 1 1 1 1 ...