1.概述

　　Kafka Streams 是一个用来处理流式数据的库，属于Java类库，它并不是一个流处理框架，和Storm，Spark Streaming这类流处理框架是明显不一样的。那这样一个库是做什么的，能应用到哪些场合，如何使用。笔者今天就给大家来一一剖析这些内容。

2.内容

　　首先，我们研究这样一个库，需要知道它是做什么的。Kafka Streams是一个用来构建流处理应用的库，和Java的那些内置库一样，以一种分布式的容错方式来处理一些事情。当前，业界用于流处理的计算框架包含有：Flink，Spark，Storm等等。Kafka Streams处理完后的结果可以回写到Topic中，也可以外接其他系统进行落地。包含以下特性：

事件区分：记录数据发生的时刻
时间处理：记录数据被流处理应用开始处理的时刻，如记录被消费的时刻
开窗
状态管理：本身应用不需要管理状态，如若需要处理复杂的流处理应用（分组，聚合，连接等）

　　Kafka Streams使用是很简单的，这一点通过阅读官方的示例代码就能发现，另外它利用Kafka的并发模型来完成负载均衡。

2.1 优势

　　在Kafka集群上，能够很便捷的使用，亮点如下图所示：

能够设计一些轻量级的Client类库，和现有的Java程序整合
不需要额外的Kafka集群，利用现有的Kafka集群的分区实现水平扩展
容错率，高可用性
多平台部署，支持Mac，Linux和Windows系统
权限安全控制

2.2 Sample

　　Kafka Streams是直接构建与Kafka的基础之上的，没有了额外的流处理集群，Table和一些有状态的处理完全整合到了流处理本身。其核心代码非常的简介。简而言之，就和你写Consumer或Producer一样，但是Kafka Streams更加的简洁。

2.3 属性

名称	描述	类型	默认值	级别
application.id	流处理标识，对应一个应用需要保持一致，用作消费的group.id	string		高
bootstrap.servers	用来发现Kafka的集群节点，不需要配置所有的Broker	list		高
replication.factor	复制因子	int	1	高
state.dir	本地状态存储目录	string	/tmp/kafka-streams	高
cache.max.bytes.buffering	所有线程的最大缓冲内存	long	10485760	中
client.id	客户端逻辑名称，用于标识请求位置	string	""	中
default.key.serde	对Key序列化或反序列化类，实现于Serde接口	class	org.apache.kafka.common.serialization.Serdes$ByteArraySerde	中
default.value.serde	对Value序列化或反序列化类，实现与Serde接口	class	org.apache.kafka.common.serialization.Serdes$ByteArraySerde	中
...	...	...	...	...

　　这里只是列举了部分Kafka Streams的属性值，更多的详情可参考Kafka Streams Configs。

3.示例

　　下面，我们可以通过一个示例代码，来熟悉Kafka Streams的运行流程，如下所示：

import org.apache.kafka.common.serialization.Serdes;

import org.apache.kafka.streams.KafkaStreams;

import org.apache.kafka.streams.StreamsConfig;

import org.apache.kafka.streams.kstream.KStream;

import org.apache.kafka.streams.kstream.KStreamBuilder;

import org.apache.kafka.streams.kstream.KTable;

import java.util.Arrays;

import java.util.Properties;

public class WordCountApplication {

    public static void main(final String[] args) throws Exception {

        Properties config = new Properties();

        config.put(StreamsConfig.APPLICATION_ID_CONFIG, "wordcount_topic_appid");

        config.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, "kafka1:9092,kafka2:9092,kafka3:9092");

        config.put(StreamsConfig.DEFAULT_KEY_SERDE_CLASS_CONFIG, Serdes.String().getClass());

        config.put(StreamsConfig.DEFAULT_VALUE_SERDE_CLASS_CONFIG, Serdes.String().getClass());

        KStreamBuilder builder = new KStreamBuilder();

        KStream<String, String> textLines = builder.stream("TextLinesTopic");

        KTable<String, Long> wordCounts = textLines

            .flatMapValues(textLine -> Arrays.asList(textLine.toLowerCase().split("\\W+")))

            .groupBy((key, word) -> word)

            .count("Counts");

        wordCounts.to(Serdes.String(), Serdes.Long(), "WordsWithCountsTopic");

        KafkaStreams streams = new KafkaStreams(builder, config);

        streams.start();

    }

}

　　从代码中，我们可以看出Kafka Streams为上层流定义了两种基本抽象：

KStream：可以从一个或者多个Topic源来创建
KTable：从一个Topic源来创建

　　这两者的区别是，前者比较像传统意义上的流，可以把每一个K/V看成独立的，后者的思想更加接近与Map的概念。同一个Key输入多次，后者是会覆盖前者的。而且，KStream和KTable都提供了一系列的转换操作，每个操作可以产生一个或者多个KStream和KTable对象，所有这些转换的方法连接在一起，就形成了一个复杂的Topology。由于KStream和KTable是强类型，这些转换都被定义为通用函数，这样在使用的时候让用户指定输入和输出数据类型。

　　另外，无状态的转换不依赖于处理的状态，因此不需要状态仓库。有状态的转换则需要进行存储相应的状态用于处理和生成结果。例如，在进行聚合操作的时候，一个窗口状态用于保存当前预定义收到的值，然后转换获取累计的值，再做计算。

　　在处理完后，对于结果集用户可以持续的将结果回写到Topic，也可以通过KStream.to() 或者 KTable.to() 方法来实现。

4.总结

　　通过对Kafka Streams的研究，它的优势可以总结为以下几点。首先，它提供了轻量级并且易用的API来有效的降低流数据的开发成本，之前要实现这类处理，需要使用Spark Streaming，Storm，Flink，或者自己编写Consumer。其次，它开发的应用程序可以支持在YARN，Mesos这类资源调度中，使用方式灵活。而对于异步操作，不是很友好，需要谨慎处理；另外，对SQL语法的支持有限，需要额外开发。

5.结束语

　　这篇博客就和大家分享到这里，如果大家在研究学习的过程当中有什么问题，可以加群进行讨论或发送邮件给我，我会尽我所能为您解答，与君共勉。

Kafka Streams 剖析的更多相关文章

1.3 Quick Start中 Step 8: Use Kafka Streams to process data官网剖析（博主推荐）
不多说,直接上干货! 一切来源于官网 http://kafka.apache.org/documentation/ Step 8: Use Kafka Streams to process data ...
Confluent Platform 3.0支持使用Kafka Streams实现实时的数据处理（最新版已经是3.1了，支持kafka0.10了）
来自 Confluent 的 Confluent Platform 3.0 消息系统支持使用 Kafka Streams 实现实时的数据处理,这家公司也是在背后支撑 Apache Kafka 消息框架 ...
[翻译]Kafka Streams简介: 让流处理变得更简单
Introducing Kafka Streams: Stream Processing Made Simple 这是Jay Kreps在三月写的一篇文章,用来介绍Kafka Streams.当时Ka ...
浅谈kafka streams
随着数据时代的到来,数据的实时计算也越来越被大家重视.实时计算的一个重要方向就是实时流计算,目前关于流计算的有很多成熟的技术实现方案,比如Storm.Spark Streaming.flink等.我今 ...
初探kafka streams
1.启动zookeeper zkServer.cmd 2.启动kafka kafka-server-start.bat d:\soft\tool\Kafka\kafka_2.12-2.1.0\conf ...
Kafka Streams简介: 让流处理变得更简单
Introducing Kafka Streams: Stream Processing Made Simple 这是Jay Kreps在三月写的一篇文章,用来介绍Kafka Streams.当时Ka ...
手把手教你写Kafka Streams程序
本文从以下四个方面手把手教你写Kafka Streams程序: 一. 设置Maven项目二. 编写第一个Streams应用程序:Pipe 三. 编写第二个Streams应用程序:Line Split ...
Kafka Streams演示程序
本文从以下六个方面详细介绍Kafka Streams的演示程序: Step 1: 下载代码 Step 2: 启动kafka服务 Step 3: 准备输入topic并启动Kafka生产者 Step 4: ...
大全Kafka Streams
本文将从以下三个方面全面介绍Kafka Streams 一. Kafka Streams 概念二. Kafka Streams 使用三. Kafka Streams WordCount 一. ...

随机推荐

wamp本地安装phpwind问题：‘Rewrit…
一.问题出现的现象: 1.http://localhost/phpwind_v9.0_utf8/upload/install.php显示. 2.apache错误文件httpd.conf显示: .hta ...
.NET 微服务和Docker容器
.NET 微服务:适用于容器化 .NET 应用的体系结构容器和 Docker 简介什么是 Docker? Docker 术语 Docker 容器.映像和注册表为 Docker 容器选择 .NET ...
只需要一点点C++基础，新手也可以制作单机游戏内存修改器
声明:本文只是为了初学C++的,能够做出一些实用的东西,跳出管理系统的束缚,提升学习的兴趣,在这里选取了单机游戏,请不要尝试在线游戏,违发而已未必可行.序:首先我们需要一个Qt+VS环境Qt从http ...
Java获取指定时间的毫秒值的方法
有以下两种方法获取指定时间的毫秒值: 1.Calendar类先由getInstance获取Calendar对象,然后用clear方法将时间重置为(1970.1.1 00:00:00),接下来用set ...
php 下载文件
<?php header("Content-type:text/html;charset=utf-8"); // $file_name="cookie.jpg&qu ...
HDU 1513 Palindrome：LCS（最长公共子序列）or 记忆化搜索
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1513 题意: 给你一个字符串s,你可以在s中的任意位置添加任意字符,问你将s变成一个回文串最少需要添加 ...
使用bootstrap网格系统自适应盒子宽度时保持所有盒子高度一致。
使用了bootstrap网格系统的好处是很容易便实现了响应式布局,盒子可以根据设置的样式,随着屏幕的大小改变而自动改变宽度,但是也存在一个问题,那就是盒子的高度是由盒子的内容决定的,如果盒子里的内容不 ...
Ajax 学习笔记
什么是 AJAX ? AJAX = 异步 JavaScript 和 XML. AJAX 是一种用于创建快速动态网页的技术. 通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新.这意味 ...
JavaScript之AJAX：原生ajax入门
背景传统的Web应用允许用户端填写表单(form),当提交表单时就向网页服务器发送一个请求.服务器接收并处理传来的表单,然后送回一个新的网页,但这个做法浪费了许多带宽,因为在前后两个页面中的大部分H ...
MySQL用户管理：添加用户、授权、删除用户
文章首发于[博客园-陈树义],请尊重原创保留原文链接. 添加用户以root用户登录数据库,运行以下命令: create user zhangsan identified by 'zhangsan'; ...

Kafka Streams 剖析