Kafka 简要使用说明
Kafka 简要使用说明
参考文章
Kafka背景及架构介绍http://www.infoq.com/cn/articles/kafka-analysis-part-1
Apache kafka 工作原理介绍https://www.ibm.com/developerworks/cn/opensource/os-cn-kafka/
Kafka集群操作指南 http://blog.jobbole.com/99195/
kafka操作 http://www.cnblogs.com/wanghongjun/p/3647890.html
概念: Partition, consumer group, rebalance
在使用中, 如果要保证消费 Kafka 的数据和生产数据的次序严格一致,一个 Topic 只能设置了一个 Partition. 一个 partition 对应着磁盘的一个目录, 所以如果设置成一个 partition 要求数据的容量不能超过单机磁盘空间, 同时因为是单机读写, 吞吐能力会变差.
一个 Topic 可以被多个 consumer group 重复消费, 这些 consumer group 之间是完全隔离的. 一个 consumer group 可以包含一个或多个 consumer, 但消费者个数不应该多于 partition 个数. 如果一个consumer group包含多个 consumer, 它们将均分消费这个 topic.
一句话, 全序的配置方式是, 每个 topic 对应一个 partition, 每个 consumer group 也只能有一个 consumer.
Topic 除了可以设置 Partition 数量外, 还可以设置 ReplicationFactor 复制份数, Partition 是用来均分 topic 的数据量, Replica 是为每个 Partition 作拷贝的, 提高集群的可用性.
Partition/Replica和broker的关系是:
如果一个集群有三个 broker 服务器(分别为 120/121/122), Topic1 共分了6个 Partition, ReplicationFactor 设置为2, 针对每个 Partition 每个 broker 的作用是不同的, 可用命令kafka-topics.sh --describe 查看, 下面结果:
Topic: Topic1 Partition: 0 Leader: 121 Replicas: 121,122
Topic: Topic1 Partition: 1 Leader: 122 Replicas: 122,120
Topic: Topic1 Partition: 2 Leader: 120 Replicas: 120,121
Topic: Topic1 Partition: 3 Leader: 121 Replicas: 121,120
Topic: Topic1 Partition: 4 Leader: 122 Replicas: 122,121
Topic: Topic1 Partition: 5 Leader: 120 Replicas: 120,122
rebalance: 如果 partition 数量不变(供给侧), consumer group下的 consumer 数量不变(消费侧), Kafaka 是不会做 rebalance 的,. 但如果发生如下情形, Kafaka 就要为 consumer 重新分配 partition :
- partition 数量改变.
- consumer group 中新增了 consumer.
- Kafka broker 检测到某个 consumer 已经没有心跳, 相当于 consumer 数量减少
新建 group 如何消费完整的数据?
经常碰到一个场景是, 因为测试或其他需要, 我们想重新消费一个 topic 数据, 操作很简单, 为消费者设定一个新的 consumer group id, 同时设置 auto.offset.reset 为 earliest 即可.
为什么需要将 auto.offset.reset 特意设置为 earliest 呢? 因为, 默认的设置是 latest, 对于一个新的 group id, Kafka 在 ZooKeeper 中找不到它之前的 offset, 所有历史的数据都无法被消费, 只有新的数据才会被消费到; 设置为 earliest 就能从最早的 offset 开始消费, Kafka 默认会清空7天前的数据, 也就是说能消费最近7天的所有数据.
几个重要的属性
| 参数 | 含意 | Kafka 缺省值 | Kettle Kafka consumer推荐值 |
|---|---|---|---|
| topic | 要消费哪个topic的数据 | ||
| group.id | 消费者端自行设定一个group id | ||
| max consumption duration | 消费者持续消费Kafka时长 | 180 000 | |
| session.timeout.ms | 如果 broker 超过 session.timeout.ms 设定值还没有收到消费者的心跳汇报, 就认为消费者已经不在线, 之后 broker 安排做 consumer 之间的 rebalance | 10 000 | 30 0000 |
| heartbeat.interval.ms | 消费者主动向 broker 汇报存活的间隔时长, 取值应该是<= session.timeout.ms的1/3 | 3 000 | 3 000 |
| request.timeout.ms | 消费者消费数据的请求超时值 | 30 000 | 400 000 |
| auto.offset.reset | 消费者如何读取 offset, 有三个取值 earliest, latest, none | latest | 按需 |
| enable.auto.commit | 如果需要 Kafaka 自动更新消费的 offset(周期性更新), 设置为 true, 如果由消费者自行更新的话, 可以设置为 false. 推荐使用自动提交, 可以结合 auto.commit.interval.ms 不断调优; 如果是手动提交的话, 通常仅仅在批次消费完毕后才提交, 吞吐量是很高, 但有可能在commit 之前系统崩溃, 就会造成大量数据的重复消费. | true | |
| auto.commit.interval.ms | enable.auto.commit 开启情况下, 用来控制多久commit offset值, 间隔越大吞吐量越大, 但如果 commit 失败后重复消费的量也越大. | 5 000 |
Kafka 监控的 GUI 工具(基于 Eclipse)
网址 http://www.kafkatool.com/features.html, 个人使用免费, 可以查看consumer的offset, 消息文本信息.
Kafka 简要使用说明的更多相关文章
- CSDN CODE平台,中国版Github简要使用说明
CSDN CODE平台,中国版Github简要使用说明!(多图慎入) 楼主说 以前一直看到别人在用github发布自己的代码,各种牛逼,各种羡慕嫉妒恨.最后终于受不了了,也去注册了一个,注册到没什 ...
- kafka connect 使用说明
KAFKA CONNECT 使用说明 一.概述 kafka connect 是一个可扩展的.可靠的在kafka和其他系统之间流传输的数据工具.简而言之就是他可以通过Connector(连接器)简单.快 ...
- CSDN CODE平台,中国版Github简要使用说明!(多图慎入)
楼主说 以前一直看到别人在用github发布自己的代码,各种牛逼,各种羡慕嫉妒恨.最后终于受不了了,也去注册了一个,注册到没什么难度.然后就没有然后了... 完全看不懂,不知道怎么用. 一次偶然的机会 ...
- Kafka简要图解
LinkedIn贡献的分布式消息系统 - 请参考这里 kafka集群:producer写入消息,consumer读取消息 消息分为不同主题,每个主题可以分为多个partition(并行),每个part ...
- supervisor简要使用说明
安装方法(之一) pip install supervisor 主要组件 supervisord: 用于控制启用和退出子进程,记录子进程的标准输出和标准错误输出. supervisorctl: she ...
- JProfiler 简要使用说明
1.简介 JProfiler是一个ALL-IN-ONE的JAVA剖析工具,可以方便地监控Java程序的CPU.内存使用状况,能够检查垃圾回收.分析性能瓶颈. 本说明文档基于JProfiler 9.2编 ...
- tftp 简要使用说明
yum 安装:tftp tftp-server (2)启动tftp CentOS 6 service xinetd restart chkconfig tftp on CentOS ...
- kafka知识点详解
第一部分:kafka概述 一.定义(消息引擎系统) 一句话概括kafka的核心功能就是:高性能的消息发送与高性能的消息消费. kafka刚推出的时候是以消息引擎的身份出现的,它具有强大的消息传输效率和 ...
- 高吞吐量消息系统—kafka
现在基本上大数据的场景中都会有kafka的身影,那么为什么这些场景下要用kafka而不用其他传统的消息队列呢?例如rabbitmq.主要的原因是因为kafka天然的百万级TPS,以及它对接其他大数据组 ...
随机推荐
- 【原创】hdu 1166 敌兵布阵(线段树→单点更新,区间查询)
学习线段树的第三天...真的是没学点啥好的,又是一道水题,纯模板,我个人觉得我的线段树模板还是不错的(毕竟我第一天相当于啥都没学...找了一整天模板,对比了好几个,终于找到了自己喜欢的类型),中文题目 ...
- [CTSC2012]熟悉的文章(后缀自动机+动态规划)
题目描述 阿米巴是小强的好朋友. 在小强眼中,阿米巴是一个作文成绩很高的文艺青年.为了获取考试作文的真谛,小强向阿米巴求教.阿米巴给小强展示了几篇作文,小强觉得这些文章怎么看怎么觉得熟悉,仿佛是某些范 ...
- 蓝桥杯 错误票据 (stringstream的使用)
题目链接:http://lx.lanqiao.cn/problem.page?gpid=T28 问题描述 某涉密单位下发了某种票据,并要在年终全部收回. 每张票据有唯一的ID号.全年所有票据的ID号是 ...
- jsp model1
一.model1(纯jsp技术): 1.dao:data access object,数据访问对象,即专门对数据库进行操作的类,一般说dao不含业务逻辑. 2.当进行跳转时候,需要用servlet来实 ...
- poj3614 Sunscreen
贪心题. 如何找出正确的贪心策略呢? 我一开始是以为按照l排序,然后从1到n遍历,挑最大的满足的防晒霜.后来发现不行.挑最小的也不行. 看了题解发现是从n到1遍历. 为什么? 因为i-1的l比i的l承 ...
- APP reset.css
html { box-sizing: border-box; } * { user-select: none; -webkit-tap-highlight-color: rgba(255,255,25 ...
- python与java的猜拳游戏
python版: import randomprint("-----猜拳游戏-----")print("---0.剪刀--1.石头--2.布---")while ...
- undefined is not an object(evaluating '_react3.default.PropTypes.shape)
手机红屏报这个错时的解决办法: npm uninstall --save react-native-deprecated-custom-components npm install --save ht ...
- golang与vscode的安装与配置
一.golang的下载与安装 以下都是win10的安装与配置 go语言官方下载地址:https://golang.org/dl/ 找到适合你系统的版本下载 傻瓜式安装开始... 二.golang环境变 ...
- 斯坦福大学公开课机器学习: machine learning system design | error analysis(误差分析:检验算法是否有高偏差和高方差)
误差分析可以更系统地做出决定.如果你准备研究机器学习的东西或者构造机器学习应用程序,最好的实践方法不是建立一个非常复杂的系统.拥有多么复杂的变量,而是构建一个简单的算法.这样你可以很快地实现它.研究机 ...