apache kafka源码分析-Producer分析---转载

原文地址：http://www.aboutyun.com/thread-9938-1-1.html

问题导读
1.Kafka提供了Producer类作为java producer的api,此类有几种发送方式？
2.总结调用producer.send方法包含哪些流程？
3.Producer难以理解的在什么地方？

producer的发送方式剖析
Kafka提供了Producer类作为java producer的api，该类有sync和async两种发送方式。
sync架构图

调用流程如下：

代码流程如下：
Producer:当new Producer(new ProducerConfig()),其底层实现，实际会产生两个核心类的实例：Producer、DefaultEventHandler。在创建的同时，会默认new一个ProducerPool，即我们每new一个java的Producer类，就会有创建Producer、EventHandler和ProducerPool，ProducerPool为连接不同kafka broker的池，初始连接个数有broker.list参数决定。
调用producer.send方法流程：
当应用程序调用producer.send方法时，其内部其实调的是eventhandler.handle(message)方法,eventHandler会首先序列化该消息,
eventHandler.serialize(events)-->dispatchSerializedData()-->partitionAndCollate()-->send()-->SyncProducer.send()
调用逻辑解释：当客户端应用程序调用producer发送消息messages时(既可以发送单条消息，也可以发送List多条消息)，调用eventhandler.serialize首先序列化所有消息，序列化操作用户可以自定义实现Encoder接口，下一步调用partitionAndCollate根据topics的messages进行分组操作，messages分配给dataPerBroker(多个不同的Broker的Map)，根据不同Broker调用不同的SyncProducer.send批量发送消息数据，SyncProducer包装了nio网络操作信息。
Producer的sync与async发送消息处理，大家看以上架构图一目了然。
partitionAndCollate方法详细作用:获取所有partitions的leader所在leaderBrokerId(就是在该partiionid的leader分布在哪个broker上),
创建一个HashMap>>>,把messages按照brokerId分组组装数据，然后为SyncProducer分别发送消息作准备工作。

名称解释：partKey:分区关键字，当客户端应用程序实现Partitioner接口时，传入参数key为分区关键字，根据key和numPartitions，返回分区(partitions)索引。记住partitions分区索引是从0开始的。

Producer平滑扩容机制
如果开发过producer客户端代码，会知道metadata.broker.list参数，它的含义是kafak broker的ip和port列表，producer初始化时，就连接这几个broker，这时大家会有疑问，producer支持kafka cluster新增broker节点？它又没有监听zk broker节点或从zk中获取broker信息，答案是肯定的，producer可以支持平滑扩容broker，他是通过定时与现有的metadata.broker.list通信，获取新增broker信息，然后把新建的SyncProducer放入ProducerPool中。等待后续应用程序调用。

DefaultEventHandler类中初始化实例化BrokerPartitionInfo类，然后定期brokerPartitionInfo.updateInfo方法，DefaultEventHandler部分代码如下：

  def handle(events: Seq[KeyedMessage[K,V]]) {

    ......

    while (remainingRetries > 0 && outstandingProduceRequests.size > 0) {

      topicMetadataToRefresh ++= outstandingProduceRequests.map(_.topic)

      if (topicMetadataRefreshInterval >= 0 &&

          SystemTime.milliseconds - lastTopicMetadataRefreshTime > topicMetadataRefreshInterval) {

        Utils.swallowError(brokerPartitionInfo.updateInfo(topicMetadataToRefresh.toSet, correlationId.getAndIncrement))

        sendPartitionPerTopicCache.clear()

        topicMetadataToRefresh.clear

        lastTopicMetadataRefreshTime = SystemTime.milliseconds

      }

      outstandingProduceRequests = dispatchSerializedData(outstandingProduceRequests)

      if (outstandingProduceRequests.size > 0) {

        info("Back off for %d ms before retrying send. Remaining retries = %d".format(config.retryBackoffMs, remainingRetries-1))

        //休眠时间，多长时间刷新一次

        Thread.sleep(config.retryBackoffMs)

        // 生产者定期请求刷新最新topics的broker元数据信息

        Utils.swallowError(brokerPartitionInfo.updateInfo(outstandingProduceRequests.map(_.topic).toSet, correlationId.getAndIncrement))

        .....

      }

    }

  }

BrokerPartitionInfo的updateInfo方法代码如下：

 def updateInfo(topics: Set[String], correlationId: Int) {

    var topicsMetadata: Seq[TopicMetadata] = Nil

    //根据topics列表,meta.broker.list,其他配置参数,correlationId表示请求次数，一个计数器参数而已

    //创建一个topicMetadataRequest，并随机的选取传入的broker信息中任何一个去取metadata，直到取到为止

    val topicMetadataResponse = ClientUtils.fetchTopicMetadata(topics, brokers, producerConfig, correlationId)

    topicsMetadata = topicMetadataResponse.topicsMetadata

    // throw partition specific exception

    topicsMetadata.foreach(tmd =>{

      trace("Metadata for topic %s is %s".format(tmd.topic, tmd))

      if(tmd.errorCode == ErrorMapping.NoError) {

        topicPartitionInfo.put(tmd.topic, tmd)

      } else

        warn("Error while fetching metadata [%s] for topic [%s]: %s ".format(tmd, tmd.topic, ErrorMapping.exceptionFor(tmd.errorCode).getClass))

      tmd.partitionsMetadata.foreach(pmd =>{

        if (pmd.errorCode != ErrorMapping.NoError && pmd.errorCode == ErrorMapping.LeaderNotAvailableCode) {

          warn("Error while fetching metadata %s for topic partition [%s,%d]: [%s]".format(pmd, tmd.topic, pmd.partitionId,

            ErrorMapping.exceptionFor(pmd.errorCode).getClass))

        } // any other error code (e.g. ReplicaNotAvailable) can be ignored since the producer does not need to access the replica and isr metadata

      })

    })

    producerPool.updateProducer(topicsMetadata)

  }

ClientUtils.fetchTopicMetadata方法代码：

def fetchTopicMetadata(topics: Set[String], brokers: Seq[Broker], producerConfig: ProducerConfig, correlationId: Int): TopicMetadataResponse = {

    var fetchMetaDataSucceeded: Boolean = false

    var i: Int = 0

    val topicMetadataRequest = new TopicMetadataRequest(TopicMetadataRequest.CurrentVersion, correlationId, producerConfig.clientId, topics.toSeq)

    var topicMetadataResponse: TopicMetadataResponse = null

    var t: Throwable = null

    val shuffledBrokers = Random.shuffle(brokers) //生成随机数

    while(i

ProducerPool的updateProducer

def updateProducer(topicMetadata: Seq[TopicMetadata]) {

    val newBrokers = new collection.mutable.HashSet[Broker]

    topicMetadata.foreach(tmd => {

      tmd.partitionsMetadata.foreach(pmd => {

        if(pmd.leader.isDefined)

          newBrokers+=(pmd.leader.get)

      })

    })

    lock synchronized {

      newBrokers.foreach(b => {

        if(syncProducers.contains(b.id)){

          syncProducers(b.id).close()

          syncProducers.put(b.id, ProducerPool.createSyncProducer(config, b))

        } else

          syncProducers.put(b.id, ProducerPool.createSyncProducer(config, b))

      })

    }

  }

当我们启动kafka broker后，并且大量producer和consumer时，经常会报如下异常信息。

root@lizhitao:/opt/soft$ Closing socket connection to 192.168.11.166

复制代码

笔者也是经常很长时间看源码分析，才明白了为什么ProducerConfig配置信息里面并不要求使用者提供完整的kafka集群的broker信息，而是任选一个或几个即可。因为他会通过您选择的broker和topics信息而获取最新的所有的broker信息。
值得了解的是用于发送TopicMetadataRequest的SyncProducer虽然是用ProducerPool.createSyncProducer方法建出来的，但用完并不还回ProducerPool，而是直接Close.

重难点理解：
刷新metadata并不仅在第一次初始化时做。为了能适应kafka broker运行中因为各种原因挂掉、paritition改变等变化，
eventHandler会定期的再去刷新一次该metadata，刷新的间隔用参数topic.metadata.refresh.interval.ms定义，默认值是10分钟。
这里有三点需要强调：

客户端调用send, 才会新建SyncProducer，只有调用send才会去定期刷新metadata在每次取metadata时，kafka会新建一个SyncProducer去取metadata，逻辑处理完后再close。根据当前SyncProducer(一个Broker的连接)取得的最新的完整的metadata，刷新ProducerPool中到broker的连接.每10分钟的刷新会直接重新把到每个broker的socket连接重建，意味着在这之后的第一个请求会有几百毫秒的延迟。如果不想要该延迟，把topic.metadata.refresh.interval.ms值改为-1，这样只有在发送失败时，才会重新刷新。Kafka的集群中如果某个partition所在的broker挂了，可以检查错误后重启重新加入集群，手动做rebalance，producer的连接会再次断掉，直到rebalance完成，那么刷新后取到的连接着中就会有这个新加入的broker。

说明：每个SyncProducer实例化对象会建立一个socket连接

特别注意:
在ClientUtils.fetchTopicMetadata调用完成后，回到BrokerPartitionInfo.updateInfo继续执行，在其末尾，pool会根据上面取得的最新的metadata建立所有的SyncProducer，即Socket通道producerPool.updateProducer(topicsMetadata)

在ProducerPool中，SyncProducer的数目是由该topic的partition数目控制的，即每一个SyncProducer对应一个broker，内部封了一个到该broker的socket连接。每次刷新时，会把已存在SyncProducer给close掉，即关闭socket连接，然后新建SyncProducer，即新建socket连接，去覆盖老的。
如果不存在，则直接创建新的。

apache kafka源码分析-Producer分析---转载的更多相关文章

Apache Kafka源码分析 – Broker Server
1. Kafka.scala 在Kafka的main入口中startup KafkaServerStartable, 而KafkaServerStartable这是对KafkaServer的封装 1: ...
Apache Kafka源码分析 - kafka controller
前面已经分析过kafka server的启动过程,以及server所能处理的所有的request,即KafkaApis 剩下的,其实关键就是controller,以及partition和replica ...
Apache Kafka源码分析 – Log Management
LogManager LogManager会管理broker上所有的logs(在一个log目录下),一个topic的一个partition对应于一个log(一个log子目录)首先loadLogs会加载 ...
Apache Kafka源码分析 - autoLeaderRebalanceEnable
在broker的配置中,auto.leader.rebalance.enable (false) 那么这个leader是如何进行rebalance的? 首先在controller启动的时候会打开一个s ...
Apache Kafka源码分析 - KafkaApis
kafka apis反映出kafka broker server可以提供哪些服务,broker server主要和producer,consumer,controller有交互,搞清这些api就清楚了 ...
Apache Kafka源码分析 – Controller
https://cwiki.apache.org/confluence/display/KAFKA/Kafka+Controller+Internalshttps://cwiki.apache.org ...
Apache Kafka源码分析 – Replica and Partition
Replica 对于local replica, 需要记录highWatermarkValue,表示当前已经committed的数据对于remote replica,需要记录logEndOffsetV ...
Apache Kafka源码分析 – ReplicaManager
如果说controller作为master,负责全局的事情,比如选取leader,reassignment等那么ReplicaManager就是worker,负责完成replica的管理工作主要工作 ...
Apache Kafka源码分析 - ReplicaStateMachine
startup 在onControllerFailover中被调用, /** * Invoked on successful controller election. First registers ...

随机推荐

【UVA 1411】 Ants （KM）
Young naturalist Bill studies ants in school. His ants feed onplant-louses that live on apple trees. ...
Android 自定义组件随着手指自动画圆
首先自定义一个View子类: package com.example.androidtest0.myView; import android.content.Context; import andro ...
Excel数据链接取消
Excel数据链接取消 2013-9-14 学校里弄来学生的成绩单,想去掉原来高一的学号,但是一删除,后面的成绩数据就一同消失,如以下两图对比所示. 删除第一列前删除第一列后此问题不知道怎么描述, ...
ZOJ3582:Back to the Past(概率DP)
Recently poet Mr. po encountered a serious problem, rumor said some of his early poems are written b ...
vs2010创建和使用动态链接库(dll)
本文将创建一个简单的动态链接库,并编写一个应用台控制程序使用该动态链接库,并提出了与实现相关的几个问题,供初学者交流. 本文包含以下内容: 创建动态链接库项目向动态链接库添加类创建引用动态链接库的 ...
产品设计中先熟练使用铅笔不要依赖Axure
在互联网产品领域,Axure已成为产品经理.产品设计师以及交互设计师的必备工具,从某种程度讲,Axure帮助我们建立低保真模型,便于与用户的需求验证,也帮助我们构思交互细节,使前端和开发人员更容易理解 ...
MS SQL Server 如何得到执行最耗时的前N条T-SQL语句-
--得到最耗时的前N条T-SQL语句 --适用于SQL SERVER 2005及其以上版本 --给N赋初值为30 ;with maco as ( select top (@n) plan_handle ...
使用IAR6.1调试LPCXpresso-cn
由于Manly公司驱动兼容性问题,下载破解版的IAR6.1 使用. http://blog.sina.com.cn/s/blog_48bde2b20101e6v0.html 然后使用IAR打开示例wo ...
vi find和grep
linux grep和find命令 linux中强大且常用命令:find.grep 源码搜索:find . -name "*.xml" | xargs grep -Hna &quo ...
ARM学习笔记14——C语言和汇编相互套用
这里,我们要准备两个文件,一个是汇编文件start.S,另一个是C文件led.c.汇编文件套用C文件中的开关灯函数,C文件套用汇编文件中延时函数. //start.S .global led_init ...

apache kafka源码分析-Producer分析---转载

apache kafka源码分析-Producer分析---转载的更多相关文章

随机推荐

热门专题