Apache Kafka（十一）Topic 的配置与组成

Topic 的配置与组成

之前我们仅主要介绍了Kafka Producer与Kafka Consumer 的相关配置，而未详细介绍过有关topic的配置。Topic的配置在Kafka 使用中也至关重要，因为它的参数足以影响集群性能以及topic 的行为。

在一个topic被创建后，会有它默认的参数，不过有些topic的参数可能仍需要根据实际情况进行一些调整，例如：

Replication Factor
Partition数目
Message Size
Compression level
Log Cleanup Policy
Min Insync Replicas
…

其中Replication Factor与Partition数目之前有被提及，所以我们主要关注之前未提及过的参数配置。

1. 如何配置一个 Kafka Topic

这里我们会简单地介绍如何使用kafka cli 为一个topic 修改配置。首先我们创建一个topic：

> kafka-topics.sh --zookeeper 172.31.24.148:2181 --create --topic configured-topic --partitions 3 --replication-factor 1

我们可以使用 kafka-configs cli 配置topic 的参数，例如：

kafka-configs.sh --zookeeper 172.31.24.148 --entity-type topics --entity-name configured-topic --add-config min.insync.replicas=2 --alter

然后describe 这个 topic：

kafka-topics.sh --zookeeper 172.31.24.148:2181 --describe --topic configured-topic

Topic:configured-topic PartitionCount:3 ReplicationFactor:1 Configs:min.insync.replicas=2

Topic: configured-topic Partition: 0 Leader: 0 Replicas: 0 Isr: 0

Topic: configured-topic Partition: 1 Leader: 0 Replicas: 0 Isr: 0

Topic: configured-topic Partition: 2 Leader: 0 Replicas: 0 Isr: 0

可以看到在Configs一栏，多出了一个配置。

也可以使用--delete-config 选项，删除一个配置：

kafka-configs.sh --zookeeper 172.31.24.148 --entity-type topics --entity-name configured-topic --delete-config min.insync.replicas --alter

Completed Updating config for entity: topic 'configured-topic'.

2. Partitions 与Segments

我们知道一个topic是由一个或多个partitions组成。而对于一个partition来说，它是由一个或多个segments （本质是文件）组成。如下图所示：

每个segment都会有一个starting offset以及一个ending offset。下一个segment的starting offset为前一个segment 的ending offset + 1。最后一个segment 称为active segment，意味着当前segment仍为“被写入”状态。也就是说，若是有新的record写入，则是写入到这个active segment中。在active segment中的offset达到预期值后，则此segment会被关闭，并开启一个新的segment。

所以在任何时刻，均只有一个segment为ACTIVE 状态（也就是数据被写入的segment）。

有关segment 的参数有两个：

log.segment.bytes：单个segment可容纳的最大数据量，默认为1GB
log.segment.ms：Kafka在commit一个未写满的segment前，所等待的时间（默认为7天）

3. Segment 与 Indexes

每个Segment 均有与之对应的两个index文件：

Offset 与 Position 之间映射的索引：用于让Kafka通过offset在segment中找到一条message
Timestamp 与 Offset之间的索引：用于让Kafka通过一个timestamp找到一条message

也是基于这些index文件，使得Kafka可以在一个常数时间内找到数据。在找到此条数据后，会继续顺序读取之后的数据。这也就是为什么Kafka仅适用于顺序读写，而不适用于随机读写。

我们进一步可以再查看真正对应到这些概念的文件。之前我们定义了kafka 的log.dirs 为：

/home/hadoop/kafka_2.12-2.3.0/data/kafka-logs

进入到此目录，可以看到所有列出来的topics，以及它们对应的partitions：

进入到kafka_demo-0 这个partition目录中可以看到：

其中.log 为存储message的文件，.index 为Offset与Position之间的索引文件，.timeindex为Timestamp与 Offset之间的索引文件。

4. Segment 配置

在进一步了解了segment后，再回头看看segment的两个配置log.segment.bytes与log.segment.ms。

若是将log.segment.bytes（大小，默认为1GB）调小，则意味着：

每个partition对应更多的segments
Log Compaction发生的会更频繁

· Kafka 会维护更多的open files（报错：Too many open files）

在决定此参数的大小时，需要考虑到业务吞吐的大小。如果业务的数据量是每天一个GB的数据，则默认的配置即可适用此场景；而如果业务的数据量是一周一个GB，则可以适当调小此值。

而若是将 log.segment.ms（默认为一周）调小，则意味着：

更频繁的log compaction（触发的更频繁）
生成更多的文件

在决定此参数的大小时，需要考虑到：业务中需要log compaction 发生的频率。Log Compaction会在之后介绍。

Apache Kafka（十一）Topic 的配置与组成的更多相关文章

Kafka中Topic级别配置
一.Kafka中topic级别配置 1.Topic级别配置配置topic级别参数时,相同(参数)属性topic级别会覆盖全局的,否则默认为全局配置属性值. 创建topic参数可以设置一个或多个--c ...
【转】apache kafka技术分享系列(目录索引)
转自: http://blog.csdn.net/lizhitao/article/details/39499283 估计大神会不定期更新,所以还是访问这个链接看最新的目录list比较好 apa ...
apache kafka技术分享系列(目录索引)--转载
原文地址:http://blog.csdn.net/lizhitao/article/details/39499283 kafka开发与管理: 1)apache kafka消息服务 2)kafak安装 ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十一）定制一个arvo格式文件发送到kafka的topic，通过Structured Streaming读取kafka的数据
将arvo格式数据发送到kafka的topic 第一步:定制avro schema: { "type": "record", "name": ...
Apache Kafka使用默认配置执行一些负载测试来完成性能测试和基准测试
Kafka是一种分布式,分区,复制的提交日志服务.它提供了消息传递系统的功能. 我们先来看看它的消息传递术语: Kafka在称为主题的类别中维护消息的提要. 我们将调用向Kafka主题生成器发布消 ...
Error when sending message to topic test with key: null, value: 2 bytes with error: (org.apache.kafka.clients.producer.internals.ErrorLoggingCallback)
windows下使用kafka遇到这个问题: Error when sending message to topic test with key: null, value: 2 bytes with ...
CDH下集成spark2.2.0与kafka（四十一）：在spark+kafka流处理程序中抛出错误java.lang.NoSuchMethodError: org.apache.kafka.clients.consumer.KafkaConsumer.subscribe(Ljava/util/Collection;)V
错误信息 19/01/15 19:36:40 WARN consumer.ConsumerConfig: The configuration max.poll.records = 1 was supp ...
kafka删除topic后再创建同名的topic报错（ERROR org.apache.kafka.common.errors.TopicExistsException）
[hadoop@datanode3 logs]$ kafka-topics.sh --delete --zookeeper datanode1:2181 --topic firstTopic firs ...
Kafka设计解析（十一）Kafka无消息丢失配置
转载自 huxihx,原文链接 Kafka无消息丢失配置目录一.Producer端二.Consumer端 Kafka到底会不会丢数据(data loss)? 通常不会,但有些情况下的确有可能会发生 ...

随机推荐

CF1299D Around the World
题意 $n$阶无向图,$m$条带权边,保证$1$不会被"超过$3$阶的圈"所包含.求删除与$1$相邻的边集,使得不存在从$1$出发的权值为$0$的非平凡 ...
PP: Soft-DTW: a differentiable loss function for time-series
Problem: new loss Label: new loss; Abstract: A differentiable learning loss; Introduction: supervise ...
题解 AT4278 【[ABC115A] Christmas Eve Eve Eve】
题目传送门. 分析根据题目,我们可以发现要求如下: $d$的值输出 $d=25$ Christmas $d=24$ Christmas Eve $d=23$ Christmas E ...
Codeforces 1303E. Erase Subsequences 代码（dp 字符串压缩一维状态优化）
https://codeforces.com/contest/1303/problem/E #include<bits/stdc++.h> using namespace std; ; i ...
更改pip为豆瓣源加速下载
需求 Python默认pip下载太慢,更改pip为豆瓣源文件位置 Git Bash Windows $ vi ~/pip/pip.ini Linux $ vi ~/.pip/pip.conf 内容 ...
“公文流转系统 v1.0”
1.项目需求: 河北金力集团是我省机械加工的龙头企业,主要从事矿山机械制造及各种机械零部件加工.企业有3个厂区,主厂区位于省高新技术开发区,3个分厂分别在保定.邢台和唐山.为增加企业的核心竞争力和加强 ...
使用ESLint+Prettier来统一前端代码风格
Prettier 简单使用 ESLint 与 Prettier配合使用首先肯定是需要安装 prettier ,并且你的项目中已经使用了 ESLint ,有 eslintrc.js 配置文件. npm ...
模块简介与matplotlib基础
模块简介与matplotlib基础 1.基本概念 1.1数据分析对已知的数据进行分析,提取出一些有价值的信息. 1.2数据挖掘对大量的数据进行分析与挖掘,得到一些未知的,有价值的信息. 1.3数据 ...
Flask知识总结
1.-----------------路由设置的2种方式----------------- 查看源码,route方法里,本质是执行app.add_url_rule() 因此可以这么写(主流方式): @ ...
C#之Quartz任务调度的使用（2.2.3.400）
这里使用的Quartz版本号为2.2.3.400,.net 框架为4.0. 目的实现一个小案例,每隔一秒钟打印一条记录.后面会附上源码,以供参考. 建立一个控制台程序. 代码: class Pro ...

Apache Kafka（十一）Topic 的配置与组成

Apache Kafka（十一）Topic 的配置与组成的更多相关文章

随机推荐

热门专题