七 Kafka Streams VS Consumer API

1 kafka Streams:

　概念：

处理和分析储存在Kafka中的数据，并把处理结果写回Kafka或发送到外部系统的最终输出点,它建立在一些很重要的概念上，比如事件时间和消息时间的准确区分，开窗支持，简单高效的应用状态管理.

　　*一个流（stream）是Kafka中最重要的抽象概念：它代表了一个无界，持续更新的数据集。一个流是一个有序，可重复读取，容错的不可变数据记录序列，一个数据记录被定义为一个键值对（key-value pair）。
　　*一个流处理应用，用Kafka Streams开发，定义了经过若干个处理拓扑（processor topologies）的计算逻辑，每个处理拓扑是一个通过流（线，edge）连接到流处理实例（点，node）的图。
　　*一个流处理实例（processor）是一个处理拓扑的节点；其含义是，通过从拓扑图中它的上游处理节点每次接收一条输入记录，执行一步流数据的变换，可能是请求操作流数据，也有可能随后生产若干条记录给到下游处理实例。

　　特点：

　　*支持本地状态容错，可以执行非常快速有效的有状态操作，比如joins和windowed aggregations（窗口聚合）。

　　*提供必要的流处理基础件，包括一个高级Streams DSL和一个底层处理API（Processor API）。

KStream类和KTable类:

　　KStream实例是一个记录流的抽象，记录流中每条数据记录代表了一个无界数据集中的一个独立数据。一个KTable实例是一个更新日志流的抽象，更新日志流中每一条数据代表了一个更新.

　　数据记录中的值代表了同一个记录关键字的最新更新值，如果有相同关键字记录的话（如果关键字不存在，那么更新动作会创建一个）。为了说明KStream和KTable的区别，我们有下面两个记录发往流：("alice", 1) --> ("alice", 3)。如果这两条记录保存在KStream实例，流处理应用累加他们的值会得到结果4。如果这两条记录保存在KTable实例，得到的结果是3，因为后一个记录会被当做是前一个记录的更新。

　　某个流处理过程可能需要把数据记录按时间分组，也就是按时间把流分为多个窗口。通过join和聚合操作会用到这个

　　一个join（合并）操作就是合并两个数据流，基于他们数据的键，然后生成一个新流。一个记录流上的join操作通常需要基于窗口操作（即分段执行），因为用于执行join操作的记录数量可能会无限增长

2 Kafka Streams 和 ConsumerAPI区别

　　Kafka Streams 包含了ConsumerAPI 和ProducerAPI的功能，并且增强了功能，就是流处理的功能。

七 Kafka Streams VS Consumer API的更多相关文章

Kafka Consumer API样例
Kafka Consumer API样例 1. 自动确认Offset 说明参照:http://blog.csdn.net/xianzhen376/article/details/51167333 Pr ...
Kafka 学习笔记之 Consumer API
Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API ...
【Kafka】Consumer API
Consumer API Kafka官网文档给了基本格式 http://kafka.apachecn.org/10/javadoc/index.html?org/apache/kafka/client ...
[翻译]Kafka Streams简介: 让流处理变得更简单
Introducing Kafka Streams: Stream Processing Made Simple 这是Jay Kreps在三月写的一篇文章,用来介绍Kafka Streams.当时Ka ...
Kafka Streams 剖析
1.概述 Kafka Streams 是一个用来处理流式数据的库,属于Java类库,它并不是一个流处理框架,和Storm,Spark Streaming这类流处理框架是明显不一样的.那这样一个库是做什 ...
Kafka Streams简介: 让流处理变得更简单
Introducing Kafka Streams: Stream Processing Made Simple 这是Jay Kreps在三月写的一篇文章,用来介绍Kafka Streams.当时Ka ...
大全Kafka Streams
本文将从以下三个方面全面介绍Kafka Streams 一. Kafka Streams 概念二. Kafka Streams 使用三. Kafka Streams WordCount 一. ...
简介Kafka Streams
本文从以下几个方面介绍Kafka Streams: 一. Kafka Streams 背景二. Kafka Streams 架构三. Kafka Streams 并行模型四. Kafka Str ...
2.2 Consumer API官网剖析（博主推荐）
不多说,直接上干货! 一切来源于官网 http://kafka.apache.org/documentation/ 2.2 Consumer API 2.2.消费者API 随着0..0版本,我们已经增 ...

随机推荐

使用  <property name="configLocations" value="classpath:hibernate.cfg.xml"></property>
在bean.xml文件中,这样使用出现问题  <property name="configLocations&quo ...
【C#笔札】1 string类型
C中没有string这个类型,而是用字符串数组来实现,相对来说比较麻烦. LABVIEW相对来说要简单太多,毕竟他主要的精力集中在硬件控制上,软件操作方面极其简单. C#类似,C#中有System.S ...
opencv:访问像素
a.使用指针 #include <opencv.hpp> using namespace cv; using namespace std; int main() { //指针访问每个像素并 ...
Struts2 用过滤器代替了 servlet ,???? 且不需要tomcat就可以直接做功能测试
Struts2 用过滤器代替了 servlet ,???? 且不需要tomcat就可以直接做功能测试
margin特性深入分析与总结
今天写了个小demo,总体不难,但一些细节需要注意: 1)如下图所示,蓝色区域为白色box的padding,橙色区域为每条数据项的margin-bottom,那么如何解决最后一条记录margin-bo ...
[置顶] Kubernetes1.7新特性：新增自动伸缩条件和参数
一.核心概念 Horizontal Pod Autoscaling,简称HPA,是Kubernetes中实现POD水平自动伸缩的功能.云计算具有水平弹性的特性,这个是云计算区别于传统IT技术架构的主要 ...
CentOS给网站配置Https证书
1.在腾讯云申请域名的证书 2.配置文件安装相应模块: yum install mod_ssl openssl 编辑配置文件: cd /etc/httpd/conf.d vi jerryqi.con ...
hashlib摘要算法模块，logging日志，configparser配置文件模块
一.hashlib模块(摘要算法模块) 1.算法介绍 Python的hashlib提供了常见的摘要算法,如MD5,SHA1等等. 什么是摘要算法呢? 摘要算法又称哈希算法.散列算法.它通过一个函数,把 ...
struts2逻辑视图类型汇总与解释(转)
在struts2框架中,当action处理完之后,就应该向用户返回结果信息,该任务被分为两部分:结果类型和结果本身. 结果类型提供了返回给用户信息类型的实现细节.结果类型通常在Struts2中就已预定 ...
PS常用美化处理方法大全
学习PS的同学都知道,我们日常生活中使用PS就是进行一些简单的图像美白,图像颜色的优化,其他的基本不用,在长时间的PS使用过程中本人总结了一些处理皮肤的方法,都是一些非常简单的方法,希望能够帮助那些刚 ...

七 Kafka Streams VS Consumer API

七 Kafka Streams VS Consumer API的更多相关文章

随机推荐

热门专题