Kafka02--Kafka生产者简要原理

前言

　　在Kafka01--Kafka生产者使用方式中对KafkaProducer的基本使用方式进行了了解。以上只是使用方面，一个好的开元框架必定是易于开发者使用的，但是对生产者的基本逻辑流程和数据流转并没有什么概念。

KafkaProducer原理分析

　　生产者客户端的基本架构图：　

由上图可以看出：KafkaProducer有两个基本线程：

主线程：负责消息创建，拦截器，序列化器，分区器等操作，并将消息追加到消息收集器RecoderAccumulator中（这里可以看出拦截器确实在序列化和分区之前执行）；
- 消息收集器RecoderAccumulator为每个分区都维护了一个 Deque<ProducerBatch> 类型的双端队列。
- ProducerBatch 可以暂时理解为是 ProducerRecord 的集合，批量发送有利于提升吞吐量，降低网络影响；
- 由于生产者客户端使用 java.io.ByteBuffer 在发送消息之前进行消息保存，并维护了一个 BufferPool 实现 ByteBuffer 的复用；该缓存池只针对特定大小（ batch.size 指定）的 ByteBuffer进行管理，对于消息过大的缓存，不能做到重复利用。
- 每次追加一条ProducerRecord消息，会寻找/新建对应的双端队列，从其尾部获取一个ProducerBatch，判断当前消息的大小是否可以写入该批次中。若可以写入则写入；若不可以写入，则新建一个ProducerBatch，判断该消息大小是否超过客户端参数配置 batch.size 的值，不超过，则以 batch.size建立新的ProducerBatch，这样方便进行缓存重复利用；若超过，则以计算的消息大小建立对应的 ProducerBatch ，缺点就是该内存不能被复用了。
Sender线程：（先简单了解，有个大概，后续说明）
- 该线程从消息收集器获取缓存的消息，将其处理为 <Node, List<ProducerBatch> 的形式， Node 表示集群的broker节点。
- 进一步将<Node, List<ProducerBatch>转化为<Node, Request>形式，此时才可以向服务端发送数据。
- 在发送之前，Sender线程将消息以 Map<NodeId, Deque<Request>> 的形式保存到 InFlightRequests 中进行缓存，可以通过其获取 leastLoadedNode ,即当前Node中负载压力最小的一个，以实现消息的尽快发出。

Kafka集群的元数据

　　什么是元数据？怎么获取？

　　卡夫卡集群中的元数据记录了，集群中有哪些主题，每个主题下有哪些分区，分区的leader副本和follower副本各分部在哪些节点上，哪些副本在AR，ISR集合中，控制节点是哪一个等信息。

　　一个最简单的发送消息的示例代码中，只填写了broker的地址以及topic信息，就能实现发送，其中就包含了客户端从服务端获取元数据信息的过程。

　　举例来说，客户端首先要获取该topic下的parition数量，计算得出目标分区，然后获取leader副本所在broker节点，才能建立连接实现数据发送。

　　当客户端没有元数据信息或者元数据信息过时（ metadata.max.age.ms(默认5min) ），会通过上述的 leastLoadedNode，获取服务端元数据信息。