来自 Confluent 的 Confluent Platform 3.0 消息系统支持使用 Kafka Streams 实现实时的数据处理,这家公司也是在背后支撑 Apache Kafka 消息框架的公司,它近日宣布 最新的开源平台已经达到了通用发布(general availability)版本.Confluent Platform可以围绕Apache Kafka创建可扩展的数据平台,Apache Kafka是一个实时的.分布式的.具有容错功能的消息队列,它能够扩展至非常大量的消息. Kaf…
Introducing Kafka Streams: Stream Processing Made Simple 这是Jay Kreps在三月写的一篇文章,用来介绍Kafka Streams.当时Kafka Streams还没有正式发布,所以具体的API和功能和0.10.0.0版(2016年6月发布)有所区别.但是Jay Krpes在这简文章里介绍了很多Kafka Streams在设计方面的考虑,还是很值得一看的. 以下的并不会完全按照原文翻译,因为那么搞太累了……这篇文件的确很长,而且Jay…
Introducing Kafka Streams: Stream Processing Made Simple 这是Jay Kreps在三月写的一篇文章,用来介绍Kafka Streams.当时Kafka Streams还没有正式发布,所以具体的API和功能和0.10.0.0版(2016年6月发布)有所区别.但是Jay Krpes在这简文章里介绍了很多Kafka Streams在设计方面的考虑,还是很值得一看的. 以下的并不会完全按照原文翻译,因为那么搞太累了……这篇文件的确很长,而且Jay…
0x00 下载 http://www.confluent.io/download,打开后,显示最新版本3.0.0,然后在右边填写信息后,点击Download下载. 之后跳转到下载页面,选择zip 或者 tar都行, 下载完成后上传linux系统,解压即完成安装. zip and tar archives– 推荐OS X 和 Quickstart deb packages via apt – 推荐安装服务在 Debian/Ubuntu系统 rpm packages via yum – 推荐安装服务…
下载 http://www.confluent.io/download,打开后,显示最新版本3.0.0,然后在右边填写信息后,点击Download下载. 之后跳转到下载页面,选择zip 或者 tar都行, 下载完成后上传linux系统,解压即完成安装. zip and tar archives– 推荐OS X 和 Quickstart deb packages via apt – 推荐安装服务在 Debian/Ubuntu系统 rpm packages via yum – 推荐安装服务在 RHE…
随着数据时代的到来,数据的实时计算也越来越被大家重视.实时计算的一个重要方向就是实时流计算,目前关于流计算的有很多成熟的技术实现方案,比如Storm.Spark Streaming.flink等.我今天要讲的kafka streams体量上来说没有那么大,都算不上一个框架,只是kafka的一个类库.麻雀虽小,五脏俱全.kafka streams能提供强大的流处理的功能,并且具备一些大框架不具备的灵活特点.这篇文章的目标是把流计算这个事讲清楚,并介绍kafka streams是如何来做流计算的如有…
背景 最近发现Confluent公司在官网上发布了Kafka Streams教程,共有10节课,每节课给出了Kafka Streams的一个功能介绍.这个系列教程对于我们了解Kafka Streams还是很有帮助的.为什么要了解Kafka Streams?其实我一直觉得国内对于Flink有点过于迷恋了.大厂使用Flink尚自合理,毕竟数据量大且需要整套的集群管理调度监控功能.但一般的中小公司业务简单体量小,何必要费时费力地搭建一整套Flink集群.有很多简单的流处理业务场景使用Kafka Str…
根据最新的统计显示,仅在过去的两年中,当今世界上90%的数据都是在新产生的,每天创建2.5万亿字节的数据,并且随着新设备,传感器和技术的出现,数据增长速度可能会进一步加快. 从技术上讲,这意味着我们的大数据处理将变得更加复杂且更具挑战性.而且,许多用例(例如,移动应用广告,欺诈检测,出租车预订,病人监护等)都需要在数据到达时进行实时数据处理,以便做出快速可行的决策.这就是为什么分布式流处理在大数据世界中变得非常流行的原因. 如今,有许多可用的开源流框架.有趣的是,几乎所有它们都是相当新的,仅在最…
1 关于流处理 流处理平台(Streaming Systems)是处理无限数据集(Unbounded Dataset)的数据处理引擎,而流处理是与批处理(Batch Processing)相对应的.所谓的无线数据,指的是数据永远没有尽头.而流处理平台就是专门处理这种数据集的系统或框架.下图生动形象地展示了流处理和批处理的区别: 总体来说,流处理给人的印象是低延时,但是结果可能不太精确.而批处理则相反,它能提供精确的结果,但是往往存在高时延. 一个最简单的Streaming的结构如下图所示: 从一…
本文将从以下三个方面全面介绍Kafka Streams 一. Kafka Streams 概念 二. Kafka Streams 使用 三. Kafka Streams WordCount   一. Kafka Streams 概念 1.Kafka Stream?Kafka Streams是一套处理分析Kafka中存储数据的客户端类库,处理完的数据或者写回Kafka,或者发送给外部系统.它构建在一些重要的流处理概念之上:区分事件时间和处理时间.开窗的支持.简单有效的状态管理等.Kafka Str…