Kafka介绍
本文介绍LinkedIn开源的Kafka,久仰大名了,依照其官方文档做些翻译和二次创作。相应能够查看整份官方文档。
基本术语
topics,维护的消息源种类(更像是业务上的数据种类/分类)
producer,给kafka的某个topic公布消息的进程
consumer,订阅和处理topic的消息的进程
broker,组成kafka集群的server
Topic和日志
kafka为每一个topic维护了例如以下一份被分区了的log
每份log有序,不可变,不断被append。分区中的消息会被分配一个有序的id,称为offset。
kafka内保留的消息是有时间限制的,超出设定的时间段的话,消息就不保留了。kafka的性能与数据容量是成正比的。
offset能方便consumer来取数据,自由度比較大(或者说这样的缓存性质的消息队列,方便消费者读取一定窗体内的消息,也算一种回放功能吧)。
分区一方面是为了增大消息的容量(能够分布在多个分区上存,而不会限制在单台机器存储大小里),二方面能够类似看成一种并行度。
分布
partitition分布在不同机器上,且能够设置备份数以达到容错。
每份partition都有一个扮演leader角色的server和几个扮演follower角色的server。leader来负责对这份分区的读写请求。
follower被动复制leader动作。leader挂了的话会有follower自己主动成为新的leader。
各个server都会各自扮演某份分区的leader和其它几份分区的followe,如此的话整个集群上的机器相对负载比較好些。
生产者
生产者选择公布数据给topic,负责选择topic的哪个partition,把消息写进去。
选择方法和策略有多种。
消费者
传统的消息模型有两种模型,队列模型和公布-订阅模式。
1. 队列形式中,一群消费者可能从server那边读消息,而每条消息会流向他们中的一个。
2. 公布-订阅模式中,消息会广播到全部它的消费者们那。
Kafka是使用consumer group这个概念(以下把它翻译为"消费组"),把两者结合了。。
消费者给自己标志了一个消费组名,每条新公布到topic的消息会被传递给订阅它的消费组里的消费者实例,这些消费者实例能够是不同的进程,存在在不同的机器上。
假设全部的消费者在同一个消费组里,那么这相当于是一个队列模型的场景。
假设全部的消费者都属于不同的消费组,那么这相当于是一个公布-订阅模式的场景,全部消息会广播到全部消费者们。
下图展示的是两台server组成的Kafka集群,共4个分区,两个消费组,A、B消费组各有2个、4个消费者,他们相应订阅了不同的分区。
此外,Kafka比传统的消息系统具备更强的有序性保证。以下会展开说明。
传统的队列形式的消息系统,在server端是有序保存着消息的。但当有多个消费者来并发取queue里的消息的时候,因为每一个queue里的消息是异步输送给消费者,尽管输出是有序的(队列里排好队输出的),当消息到达消费者那头的时候,就不保证顺序了。假设单个消费者来取,能够保证有序,某些中庸的解决的方法还是会丧失一定并行度。
Kafka是怎么做到更好的并行且有序的呢?Kafkad的"分区"事实上是一种并行度的概念,即在topic内,kafka的消费者进程池能得到有序性保证和负载均衡。这是由于在topic内设置了多个分区,使得topic相应的消费组里的消费者们各自能够独享一个分区。如此的话,每一个消费者是其消费的分区的唯一reader,在单个reader下当然保证了有序这件事。并且多个分区也使得负载能够比較平衡。须要注意的是,消费者不能比分区数多。
保证
kafka能保证的几件事情,
1. 生产者向topic分区发来的消息能按序加入进来。即先送来的消息在log里面有更小的offset。
2. 消费者实例能在log里(第一张图里)看到有序的消息。
3. 一个拥有N个分区的topic,系统能容忍N-1台server失败,而不丢失写到了log里的消息数据。
很多其它设计上的内容不在这里阐述。
适合场景
消息队列
kafka作为消息队列,优势在更好的吞吐,内置分区,副本数,容错这几个特性,所以适合大规模消息处理应用。
MQ有非常多,就不详细比較了。
网页行为追踪
kafka原本的一个应用场景,就是跟踪用户浏览页面、搜索及其它行为,以公布-订阅的模式实时记录到相应的topic里。
那么这些结果被订阅者拿到后,就能够做进一步的实时处理,或实时监控,或放到hadoop/离线数据仓库里处理。
行为追踪常常会有非常大的吞吐量。
元信息监控
作为操作记录的监控模块来使用,即汇集记录一些操作信息,能够理解为运维性质的数据监控吧。
日志收集
日志收集方面,事实上开源产品有非常多,包含Scribe、Apache Flume。假设谈Kafka的优势的话,事实上还是离不开他的容错、高吞吐性能方面的设计层面的特点吧。详细就不分析了。
參考我之前写的分布式日志收集系统Apache Flume的设计介绍
流处理
这个场景可能比較多,也非常好理解。保存收集流数据,以提供之后对接的Storm或其它流式计算框架进行处理。
Commit Log
为分布式系统的一些commit log(操作日志)做容错意义的备份,我是这么理解的,类似于HDFSnamenode的log。对照BookKeeper,事实上就是做这件事的。BookKeeper在Hadoop HDFS Namenode HA方案里,用于记录namenode的操作日志(一时想不起叫什么log了,反正不记录namenode的image数据)。
參考我之前写的BookKeeper设计介绍及其在Hadoop2.0 Namenode HA方案中的使用分析
全文完 :)
Kafka介绍的更多相关文章
- Apache Kafka - 介绍
原文地址地址: http://blogxinxiucan.sh1.newtouch.com/2017/07/12/Apache-Kafka-介绍/ Apache Kafka教程 之 Apache Ka ...
- 1、Kafka介绍
1.Kafka介绍 1)在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算. 2)Kafka是一个分布式消息队列. 3)Kafka对消息保存时根据Topic进行归类, ...
- [转]kafka介绍
转自 https://www.cnblogs.com/hei12138/p/7805475.html kafka介绍 1.1. 主要功能 根据官网的介绍,ApacheKafka®是一个分布式流媒体平台 ...
- Kafka介绍及安装部署
本节内容: 消息中间件 消息中间件特点 消息中间件的传递模型 Kafka介绍 安装部署Kafka集群 安装Yahoo kafka manager kafka-manager添加kafka cluste ...
- kafka介绍与搭建(单机版)
一.kafka介绍 1.1 主要功能 根据官网的介绍,ApacheKafka®是一个分布式流媒体平台,它主要有3种功能: 1:It lets you publish and subscribe to ...
- kafka介绍及安装配置(windows)
Kafka介绍 Kafka是分布式的发布—订阅消息系统.它最初由LinkedIn(领英)公司发布,使用Scala和Java语言编写,与2010年12月份开源,成为Apache的顶级项目.Kafka是一 ...
- 一、kafka 介绍 && kafka-client
一.kafka 介绍 1.1.kafka 介绍 Kafka 是一个分布式消息引擎与流处理平台,经常用做企业的消息总线.实时数据管道,有的还把它当做存储系统来使用. 早期 Kafka 的定位是一个高吞吐 ...
- 3 kafka介绍
本博文的主要内容有 .kafka的官网介绍 http://kafka.apache.org/ 来,用官网上的教程,快速入门. http://kafka.apache.org/documentatio ...
- 漫游Kafka介绍章节简介
原文地址:http://blog.csdn.net/honglei915/article/details/37564521 介绍 Kafka是一个分布式的.可分区的.可复制的消息系统.它提供了普通消息 ...
随机推荐
- SqlServer2012导入Oracle详细案例
第一次使用SqlServer2012,界面和VS2012风格一致了,Great! 进入正题,这篇博文主要写一下自己亲测的一个案例,使用SqlServer2012的“导入和导出数据”功能向Oracle1 ...
- EnumMap源代码阅读器
EnumMap是一个用于存放键值为enum类型的map.全部的键值必须来自一个单一的enum类型.EnumMap内部用数组表示效率更高. EnumMap维持键值的自然顺序(即枚举类型常量声明的顺序), ...
- asp.net mvc ,asp.net mvc api 中使用全局过滤器进行异常捕获记录
MVC下的全局异常过滤器注册方式如下:标红为asp.net mvc ,asp.net mvc api 注册全局异常过滤器的不同之处 using SuperManCore; using System. ...
- Kqueue与epoll机制
首先介绍阻塞与非阻塞:阻塞是个什么概念呢?比如某个时候你在等快递,但是你不知道快递什么时候过来,而且你没有别的事可以干(或者说接下来的事要等快递来了才能做):那么你可以去睡觉了,因为你知道快递把货送来 ...
- A + B Problem II 大数加法
题目描述: Input The first line of the input contains an integer T(1<=T<=20) which means the number ...
- Regex阅读笔记(二)之环视
环视不匹配任何字符,只匹配文本中的特定位置. 正序环视:(?=) 逆序环视:(?<=) 非捕获(?:) 环视会检查子表达式能否匹配,但它只寻找能够匹配的位置,而不会真正占用这些字符. -用在字符 ...
- 下载的firebug-lite压缩包的调用方法
把以下代码copy到地址栏按回车,等加载完毕之后(受网速限制,有时候等待会久一点,如果很久都无法加载,重试几次就ok了),就会显示firebug lite的窗口,这样不用更改页面任何东西,任何地方轻松 ...
- php返回的json格式
public function search_ip(){ $where['ip'] = $_GET['ip']; $Machine = M('Machine_info'); $arr = $Machi ...
- 一个包含所有c++的头文件的头文件
#include <bits/stdc++.h> 做CF看见别人用这个函数,然后就能直接用vector,set,string那些函数了,摸不着头脑,感觉特神奇就百度了一下,才发现这个是C+ ...
- Activity 的生命周期
两个大窗口的Activity之间的切换: 启动一个新的Activity时,需要依次调用oncreate.onstart.onResume方法,OnCreate方法是在第一次创建Activity的时候调 ...