Kafka的Producer和Consumer源码学习

先解释下两个概念：

high watermark (HW)

它表示已经被commited的最后一个message offset(所谓commited, 应该是ISR中所有replica都已写入)，HW以下的消息都已被ISR中各个replica同步，从而保持一致。HW以上的消息可能是脏数据：部分replica写成功，但最终失败了。

Kafka Partition： 1> 均衡各个Broker之间的数据和请求压力； 2> 分摊处理不同的消费者进程； 3> 在partition内可以保证局部有序和状态记录；

Producer发送数据时，Broker的内部处理流程： a. Broker Server接到一个Producer request

b. 会先从ZK中获取该topic的metadata

c. 进而找到partition的metadata

d. 从而确定对应的partition leader

e. 接下来通过该leader partition来append log

f. 最后计算是否调整leader的High Watermark (它是ISR中所有replica的logEndOffset的最小值与leader的logEndOffset比较得出的最大值) 当然，Broker Server还要根据Producer request的需要决定是否回复ack给client；

Kafka Producer配置：

Kafka的Producer采用了 linkedBlockingQueue, 所以用户设置的batchNumMessages不能大于queueBufferingMaxMessages.
Producer线程可以设定为定期更新Topic Metadata （topic.metadata.refresh.interval.ms, 若该值为负值，则取消定期更新）；但是一旦Producer遇到失败情况（partition missing or leader not available), 她会自动更新Metadata;
message.send.max.retries: Kafka有可能会出现某个partition leader暂时不可访问的情况，这个配置参数描述了Producer在此种情况下最多retry的次数。
compression.codec：           在Producer配置中，该参数指定压缩模式，默认是NoCompressionCodec(对所有Topic都不使用压缩)
compressed.topics：    在compression.codec不是NoCompressionCodec的前提下,则为指定的若干Topic执行写压缩,当compressed.topics为空时则是为所有topic执行压缩。
producer.type：                       sync or async
metadata.broker.list：           Producer通过这个参数指定的Broker来获取Topic Metadata
partitioner.class:                     关于生产者向指定的分区发送数据，通过设置partitioner.class的属性来指定向那个分区发送数据；如果自己指定必须编写相应的程序，默认是kafka.producer.DefaultPartitioner,分区程序是基于散列的键（ Utils.abs(key.hashCode) % numPartitions ）。
retry.backoff.ms：    设置Producer在refresh metadata之前要等待的时间 (Producer在每次retry之前都要refresh metadata, 但是可能partition的leader selection等需要一定的执行时间)，默认100毫秒；

Kafka Consumer配置:

group.id:                                       指定consumer所属的consumer group
consumer.id:                                如果不指定会自动生成
socket.timeout.ms：            网络请求的超时设定
socket.receive.buffer.bytes：    Socket的接收缓存大小
fetch.message.max.bytes：    试图获取的消息大小之和(bytes)
num.consumer.fetchers：该消费去获取data的总线程数
auto.commit.enable: 如果是true, 定期向zk中更新Consumer已经获取的last message offset(所获取的最后一个batch的first message offset)
auto.commit.interval.ms： Consumer向ZK中更新offset的时间间隔
queued.max.message.chunks：默认为2
rebalance.max.retries: 在rebalance时retry的最大次数，默认为4
fetch.min.bytes：                              对于一个fetch request, Broker Server应该返回的最小数据大小，达不到该值request会被block, 默认是1字节。
fetch.wait.max.ms:                           Server在回答一个fetch request之前能block的最大时间（可能的block原因是返回数据大小还没达到fetch.min.bytes规定）；
rebalance.backoff.ms：    当rebalance发生时，两个相邻retry操作之间需要间隔的时间。
refresh.leader.backoff.ms：如果一个Consumer发现一个partition暂时没有leader, 那么Consumer会继续等待的最大时间窗口（这段时间内会refresh partition leader);
auto.offset.reset：                            当发现offset超出合理范围（out of range)时，应该设成的大小（默认是设成offsetRequest中指定的值）：
                    smallest: 自动把该consumer的offset设为最小的offset；
                largest: 自动把该consumer的offset设为最大的offset；
                anything else: throw exception to the consumer；
consumer.timeout.ms：                 如果在该规定时间内没有消息可供消费，则向Consumer抛出timeout exception；
                       该参数默认为-1，即不指定Consumer timeout；
client.id：                                         区分不同consumer的ID，默认是group.id

Kafka Consumer如何与ZK交互：

/brokers/ids/[0]...[N-1]: N是Broker个数，每个[i]是一个Broker,里面存储着每个Broker相关的信息（ip,port,epoch等）；
/brokers/topics/[topic_name]/partitions/[0]...[N-1]/state： N是这个topic的partition数目，state里存放了每个partition的leader及ISR等信息；
备注: [topic_name]这个znode本身也存储了所有partition对应的leader broker；

/consumers/[group_id]/ids/[consumer_id]/[topic0]-[topicN]: [consumer_id]是一个临时znode, 其子node是该consumer监听的topic
/consumers/[group_id]/offsets/[topic_name]/[partition_id]: [partition_id]结点中的值即为offset
/consumers/[group_id]/owners/[topic_name]: ?（会陆续补充）

ConsumerFetcherThread的内部命名：
"ConsumerFetcherThread-%s-%d-%d".format(consumerIdString, fetcherId, sourceBroker.id)

Kafka消费端如何知道从哪个partition消费，以及如何在多个消费者之间平衡对于多个partition的消费？ 目前Broker Server端不会做类似处理，client端可以利用zookeeper来动态分配。~~（此处还有些不解）~~

Kafka Consumer在ZK中注册后会监听Broker变化及同组内（Consumer Group）consumer的加入或推出，从而自动实现partitions与consumers的平衡。

关于平衡算法，简单的说就是在实现平衡过程中，尽量保证一个consumer只和尽可能少的Broker维持连接。

Kafka的Producer和Consumer源码学习的更多相关文章

RocketMQ 源码学习笔记————Producer 是怎么将消息发送至 Broker 的？
目录 RocketMQ 源码学习笔记----Producer 是怎么将消息发送至 Broker 的? 前言项目结构 rocketmq-client 模块 DefaultMQProducerTest ...
RocketMQ 源码学习笔记 Producer 是怎么将消息发送至 Broker 的？
目录 RocketMQ 源码学习笔记 Producer 是怎么将消息发送至 Broker 的? 前言项目结构 rocketmq-client 模块 DefaultMQProducerTest Roc ...
Java并发包源码学习之AQS框架（三）LockSupport和interrupt
接着上一篇文章今天我们来介绍下LockSupport和Java中线程的中断(interrupt). 其实除了LockSupport,Java之初就有Object对象的wait和notify方法可以实现 ...
Java并发包源码学习系列：阻塞队列BlockingQueue及实现原理分析
目录本篇要点什么是阻塞队列阻塞队列提供的方法阻塞队列的七种实现 TransferQueue和BlockingQueue的区别 1.ArrayBlockingQueue 2.LinkedBloc ...
Java并发包源码学习系列：阻塞队列实现之LinkedTransferQueue源码解析
目录 LinkedTransferQueue概述 TransferQueue 类图结构及重要字段 Node节点前置:xfer方法的定义队列操作三大类插入元素put.add.offer 获取元素t ...
实战录 | Kafka-0.10 Consumer源码解析
<实战录>导语前方高能!请注意本期攻城狮幽默细胞爆表,坐地铁的拉好把手,喝水的就建议暂时先别喝了:)本期分享人为云端卫士大数据工程师韩宝君,将带来Kafka-0.10 Consumer源 ...
Kakfa揭秘 Day6 Consumer源码解密
Kakfa揭秘 Day6 Consumer源码解密今天主要分析下Consumer是怎么来工作的,今天主要是例子出发,对整个过程进行刨析. 简单例子 Example中Consumer.java是一个简 ...
Dubbo源码学习--服务是如何引用的
ReferenceBean 跟服务引用一样,Dubbo的reference配置会被转成ReferenceBean类,ReferenceBean实现了InitializingBean接口,直接看afte ...
Dubbo源码学习--注册中心分析
相关文章: Dubbo源码学习--服务是如何发布的 Dubbo源码学习--服务是如何引用的注册中心关于注册中心,Dubbo提供了多个实现方式,有比较成熟的使用zookeeper 和 redis 的 ...

随机推荐

easyui 页签
昨天开始搭后台框架,到晚上的时候遇到了一个现在觉得挺可笑但是当时一直很纠结很纠结的问题,这个问题刚刚解决出来,把它拿出来说说,让自己长点儿记性,希望大家不要犯我这个错误啊在backstage.jsp ...
mapred和mapreduce
总体上看,Hadoop MapReduce分为两部分:一部分是org.apache.hadoop.mapred.*,这里面主要包含旧的API接口以及MapReduce各个服务(JobTracker以及 ...
PHP-Java-Bridge使用笔记，2014年9月最新版
这是我在做平安银行开发的时候,本地使用PHP环境,平安银行接口为Java接口的时候,采用PHP-Java-Bridge的方式调用接口的笔记.因为现在网上的教程基本上都不行了,所以在这里贴出我能使用的而 ...
ZOJ题目分类
ZOJ题目分类初学者题: 1001 1037 1048 1049 1051 1067 1115 1151 1201 1205 1216 1240 1241 1242 1251 1292 1331 13 ...
CF 50E. Square Equation Roots
思路:这题的关键就是重复根只可能是整数. 这样先求出所有的根的数目,在减去重复的根. 代码如下: #include <iostream> #include <cstring> ...
lintcode:买卖股票的最佳时机 III
买卖股票的最佳时机 III 假设你有一个数组,它的第i个元素是一支给定的股票在第i天的价格.设计一个算法来找到最大的利润.你最多可以完成两笔交易. 样例给出一个样例数组 [4,4,6,1,1,4,2 ...
SVN与CVS的区别大全(转载)
本节讲解SVN与CVS的区别,主要包括是否更好的冲突标识与处理,是否有更多的本地/离线操作以及元数据管理问题. 更好的冲突标识与处理通过是否进行更好的冲突标识与处理看SVN与CVS的区别:C ...
Delphi对于控件的SuperClassing（封装并扩展Button，使之变成TButton）
写博客写了这么久,但是一直不知道应该怎么样写函数之间的调用关系和执行顺序,因为不停的跳来跳去的,但是写的时候却只能顺序写调用关系,直到今天发现这种写法很不错: TButton创建窗口是在CreateW ...
qt resize() 和 geometry()
resize(),设置的部件客户区的大小.只有当该部件被show后才生效,即geomery() 返回的才是 resize() 的客户区大小.
Linear Regression
大学时候学物理实验的时候接触过线性回归,现在忘记了...还得重新拾起来.学习不扎实耽误了多少时光... sigh Suppose that you time a program as a functi ...

Kafka的Producer和Consumer源码学习

Kafka的Producer和Consumer源码学习的更多相关文章

随机推荐

热门专题