什么是Kappa架构？

一、简介

相当于在Lambda架构上去掉了批处理层（Batch Layer），只留下单独的流处理层（Speed Layer）。通过消息队列的数据保留功能，来实现上游重放（回溯）能力。

当流任务发生代码变动时，或者需要回溯计算时，原先的Job N保持不动，先新启动一个作业Job N+1，从消息队列中获取历史数据，进行计算，计算结果存储到新的数据表中。
当计算进度赶上之前的Job N时，Job N+1替换Job N，成为最新的流处理任务。然后程序切换为从新的数据表中读取数据，停止历史作业Job N，并删除旧的数据表。
当然这种架构可以进行优化，将两张输出表合并为一张，减少运维部分的工作。
与Lambda架构相比，这种架构在吞吐和性能上要低于Lambda架构，因为Lambda架构的批处理是整个吞吐与性能的核心部分。
但Kappa统一了数据处理架构，减少了计算资源的浪费，降低了运维成本。而且使得代码只需要编写和维护一次，但Kappa无法解决流处理和批处理在部分处理逻辑不一致的情况。

二、架构技术选型

Kappa架构在选型上，消息队列常选择Kafka，因为它具有历史数据保存、重放的功能，并支持多消费者。

而流处理集群，一般选择Flink，因为Flink支持流批一体的处理方式，并且对SQL的支持率逐渐提高，所以可以尽量减少流处理和批处理逻辑代码不一致的情况。

对于数据服务，依然是需要实时读写的数据库产品，常见的有HBase、Druid、ClickHouse等。

但使用Kafka作为消息队列时要注意，Kafka因为消息是先存储到内存中，然后再落盘，所以可能会存在数据丢失的情况发生。

如果需要金融级别的数据可靠性，使用Rabbit MQ或者Rocket MQ这种支持数据直接持久化到磁盘中的消息队列，可能是更好的选择，但相应的会牺牲数据实时性和吞吐量。

原文链接：https://juejin.cn/post/7094459597737426981

什么是Kappa架构？的更多相关文章

大数据小视角4：小议Lambda 与 Kappa 架构，不可变数据的计算探索
这个系列文章之前因为私事荒废了很久,继续更新--之前与老大谈论架构时,老大和我聊了聊分布式数据处理之中的Lambda结构,之前在<Designing Data-Intensive Applica ...
【大数据】大数据处理-Lambda架构-Kappa架构
大数据处理-Lambda架构-Kappa架构 elasticsearch-head Elasticsearch-sql client NLPchina/elasticsearch-sql: Use S ...
大数据处理中的Lambda架构和Kappa架构
首先我们来看一个典型的互联网大数据平台的架构,如下图所示: 在这张架构图中,大数据平台里面向用户的在线业务处理组件用褐色标示出来,这部分是属于互联网在线应用的部分,其他蓝色的部分属于大数据相关组件,使 ...
Kappa:比Lambda更好更灵活的实时处理架构
为了进一步探讨这种批处理和实时处理有效整合在同一系统的架构,我们将在今天的文章中分析Lambda三层结构模型的适用场景,同时暴露出Lambda架构一个最明显的问题:它需要维护两套分别跑在批处理和实时计 ...
ETL化的IOTA架构
经过这么多年的发展,已经从大数据1.0的BI/Datawarehouse时代,经过大数据2.0的Web/APP过渡,进入到了IOT的大数据3.0时代,而随之而来的是数据架构的变化. ▌Lambda架构 ...
WOT干货大放送：大数据架构发展趋势及探索实践分享
WOT大数据处理技术分会场,PingCAP CTO黄东旭.易观智库CTO郭炜.Mob开发者服务平台技术副总监林荣波.宜信技术研发中心高级架构师王东及商助科技(99Click)顾问总监郑泉五位讲师, ...
带有Apache Spark的Lambda架构
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 目标市场上的许多玩家已经建立了成功的MapReduce工作流程来每天处理以TB计的历史数据.但是谁愿意等待24小时才能获得最新的分析结果? ...
深入理解大数据架构之——Lambda架构
目录传统系统的问题 Lambda架构简介 Lambda架构关键特性数据系统的本质 Lambda的三层架构 Lambda架构组件选型总结原文链接:https://jiang-hao.com/ar ...
什么是Lambda架构
一.Lambda架构需求 Lambda架构背后的需求是由于MR架构的延迟问题.MR虽然实现了分布式.可扩展数据处理系统的目的,但是在处理数据时延迟比较严重.实际上如果内存和CPU足够强大,MR也可以实 ...
Apache Flink Quickstart
Apache Flink 是新一代的基于 Kappa 架构的流处理框架,近期底层部署结构基于 FLIP-6 做了大规模的调整,我们来看一下在新的版本(1.6-SNAPSHOT)下怎样从源码快速编译执行 ...

随机推荐

Java深度历险（三）——Java线程：基本概念、可见性与同步
开发高性能并发应用不是一件容易的事情.这类应用的例子包括高性能Web服务器.游戏服务器和搜索引擎爬虫等.这样的应用可能需要同时处理成千上万个请求.对于这样的应用,一般采用多线程或事件驱动的架构.对于J ...
运维工具之saltstack
参考:https://www.cnblogs.com/xintiao-/p/10380656.html saltstack是由thomas Hatch于2011年创建的一个开源项目,设计初衷是为了实现 ...
UUID和雪花(Snowflake)算法该如何选择？
UUID 和 Snowflake 都可以生成唯一标识,在分布式系统中可以说是必备利器,那么我们该如何对不同的场景进行不同算法的选择呢,UUID 简单无序十分适合生成 requestID, Snowfl ...
golang之测试testing
01 介绍我们使用 Golang 语言开发的项目,怎么保证逻辑正确和性能要求呢?也就是说我们如何测试我们的 Golang 代码呢?在 Golang 语言中,可以使用标准库 testing 包编写单 ...
逆向WeChat(八)
上一篇逆向WeChat(七)是逆向微信客户端本地数据库相关事宜. 本篇逆向微信客户端本地日志xlog相关的事宜. 本篇在博客园地址https://www.cnblogs.com/bbqzsl/p/18 ...
AspNetCore全局异常处理
在开发ASP.NET Core应用程序时,全局异常处理是一个重要的概念.它允许我们集中处理应用程序中未捕获的异常,确保应用程序的稳定性和用户体验. 1. 为什么需要全局异常处理全局异常处理的目的是为 ...
ng-alain: i18n
https://github.com/ng-alain/delon/blob/master/packages/theme/src/services/i18n/i18n.ts interface Ala ...
Netty SSL双向验证
一· 快速命令 1.生成ca证书 openssl req -new -x509 -keyout ca.key -out ca.crt -days 36500在本目录得到 ca.key 和 ca.crt ...
pygame基础功能总结
1.导入Pygame模块 (1) 模块并初始化 ① Import pygame ② Pygame.init() (2) 创建窗体 ① Window_size = (800,600) 长宽 ② Scr ...
Qt编写地图综合应用40-覆盖物弧线
一.前言弧线可以用来指示某几个点直接弧形的方式绘制线条,尤其是飞机轨迹,起点到终点弧形曲线展示,更美观.百度地图的折线图.矩形图.圆形图等,都统称覆盖物,都是作为覆盖物绘制上去的,这样的好处是速度很 ...

什么是Kappa架构？

什么是Kappa架构？的更多相关文章

随机推荐

热门专题