漫游Kafka实现篇之分布式

Zookeeper节点标记

当路径中的元素包括在方括号里比如[xyz],则表示xyz表示的值是不固定的，每个可能的值都有一个Zookeeper节点。比如/topics/[topic]表示每个topic名称对应/topics的一个子目录。也可以用类似[0...5]表示一个数值范围来表示含有子目录0,1,2,3,4的目录。箭头->表示znode的节点含有某个内容，比如/hello->word表示一个含有“world”的节点。

/brokers/ids/[0...N] --> host:port (ephemeral node)

表示一个broker节点的列表，每个节点提供了一个供consumers识别的broker id,这个id必须在配置文件中指明。启动时，broker节点会用纸的id在/brokers/ids下给自己注册一个znode，broker可以被转移到另外一台机器上，只要id不变就不会影响consumers.如果试图注册一个已经存在的broker id（比如两个节点配置了同样的id）将会产生错误。

Broker注册的Zookeeper节点是临时节点，如果一个broker节点关闭了，注册也就失效了，并通知consumer这个节点不再活动了。

Consumers和Consumer组

Consumers也在Zookeeper中注册自己，目的是在消费消息时进行负载均衡，并跟踪消费的每个分区的offset.

Consumers可以组成一个组，共同消费一个copic,组中的每个consumer共享一个组id.组id配置在consumer的配置参数中。可以参考前面文章的consumer实例。

组中的consumer会均匀分配topic的分区，每个分区只会被组里的一个consumer消费。

Consumer Id注册

除了共享的组id，每个consumer还会没分配一个临时的唯一的consumer_id,格式为：hostname:uuid。consumer_id被注册到以下的目录中：

/consumers/[group_id]/ids/[consumer_id] --> {"topic1": #streams, ..., "topicN": #streams} (ephemeral node)

每个consumer都注册到组的下面，并用consumer_id创建一个znode.znode的值包含一个<topic, #streams>.的map.Znode节点是临时的，如果consumer线程结束了，这个节点就会消失。

Consumer Offset 跟踪

Consumer跟踪它在每个分区中消费的最大的offset,并保存在以下的Zookeeper目录中：

/consumers/[group_id]/offsets/[topic]/[broker_id-partition_id] --> offset_counter_value ((persistent node)

分区归属注册

每个分区只会被组中的一个consumer消费，consumer在消费之前必须建立和分配的分区的归属关系，把它的consumerid写入broker分区下的一个临时节点。

/consumers/[group_id]/owners/[topic]/[broker_id-partition_id] --> consumer_node_id (ephemeral node)

Broker节点注册

Broker节点基本是独立的，只需发布自己拥有的信息。当一个节点加入，它把自己注册到broker node目录中，并写入host name和port的信息到broker topic记录中。Broker也要注册一个topic列表，新的topic会被动态的注册。

Consumer注册规则

当一个consumer启东时，它将遵循以下步骤：

把自己注册到组下面的consumer id记录中。
注册一个监听器，监听consumer id记录的的“变更（新的consumer加入或老的退出）”，每次“变更”都会触发一次组中各consumer之间的再平衡。
注册一个监听器，监听broker id记录的“变更（新的broker加入或者老的退出）”，每次变更都会触发一次所有组中所有sonsumers之间的再平衡。
如果consumer消息流是使用了topic过滤器，也需要注册一个监听器去监听broker topic记录的变更（新的topic加入）。每次变更都会触发一次对所有的topics的重新评估以决定是否符合这个过滤器。一个新的copic会触发一次在所有consumers中的再平衡.
在它所在的组进行一次再平衡。