kafka指定partiton生产

kafka发送一个消息的时候需要封装成一个ProducerRecord ：

public ProducerRecord(String topic, Integer partition, Long timestamp, K key, V value) {

        if (topic == null)

            throw new IllegalArgumentException("Topic cannot be null");

        if (timestamp != null && timestamp < 0)

            throw new IllegalArgumentException("Invalid timestamp " + timestamp);

        this.topic = topic;

        this.partition = partition;

        this.key = key;

        this.value = value;

        this.timestamp = timestamp;

    }

我们需要关注的是partition和key。

kafka在调用send的时候实际上是将消息放到了内存中，并没有发送出去。在放到内存队列之前，会计算消息应该放到哪个partiton中

private Future<RecordMetadata> doSend(ProducerRecord<K, V> record, Callback callback) {

    // 忽略

    int partition = partition(record, serializedKey, serializedValue, metadata.fetch()); // partiton用来计算书消息具体放置的partiton

    //忽略

    if (result.batchIsFull || result.newBatchCreated) {

                log.trace("Waking up the sender since topic {} partition {} is either full or getting a new batch", record.topic(), partition);

                this.sender.wakeup();

            }

            return result.future;

    // 忽略

}

我们来分析下partiton方法：

private int partition(ProducerRecord<K, V> record, byte[] serializedKey , byte[] serializedValue, Cluster cluster) {

        Integer partition = record.partition(); // ProducerRecord中partiton参数

        if (partition != null) {

            List<PartitionInfo> partitions = cluster.partitionsForTopic(record.topic());

            int lastPartition = partitions.size() - 1;

            // they have given us a partition, use it

            if (partition < 0 || partition > lastPartition) {

                throw new IllegalArgumentException(String.format("Invalid partition given with record: %d is not in the range [0...%d].", partition, lastPartition));

            }

            return partition; // 指定了partiton，则消息发送到该指定的partiton

        }

        // 否则使用partitioner根据ProducerRecord的key参数来计算发送的partiton

        return this.partitioner.partition(record.topic(), record.key(), serializedKey, record.value(), serializedValue,

            cluster);

    }

可以通过在配置中指定“partitioner.class”配置项使用自定义的partitioner，自定义的partitioner需要实现Partitioner接口：

public interface Partitioner extends Configurable {

    /**

     * Compute the partition for the given record.

     *

     * @param topic The topic name

     * @param key The key to partition on (or null if no key)

     * @param keyBytes The serialized key to partition on( or null if no key)

     * @param value The value to partition on or null

     * @param valueBytes The serialized value to partition on or null

     * @param cluster The current cluster metadata

     */

    public int partition(String topic, Object key, byte[] keyBytes, Object value, byte[] valueBytes, Cluster cluster);

    /**

     * This is called when partitioner is closed.

     */

    public void close();

}

如果没有指定“partitioner.class”配置项则使用默认的partitioner：DefaultPartitioner。我们来看下DefaultPartitioner的分配方法

public int partition(String topic, Object key, byte[] keyBytes, Object value, byte[] valueBytes, Cluster cluster) {

        List<PartitionInfo> partitions = cluster.partitionsForTopic(topic); // 获取partiton列表，该列表是更新metadata的时候获取的，默认每30s更新一次metadata

        int numPartitions = partitions.size();

        if (keyBytes == null) { // 如果ProducerRecord没有传入key，则从一个随机数开始，采用round-robin方式

            int nextValue = counter.getAndIncrement(); // counter被初始化为一个随机值，每次递增

            List<PartitionInfo> availablePartitions = cluster.availablePartitionsForTopic(topic);

            if (availablePartitions.size() > 0) {

                int part = DefaultPartitioner.toPositive(nextValue) % availablePartitions.size();

                return availablePartitions.get(part).partition();

            } else {

                // no partitions are available, give a non-available partition

                return DefaultPartitioner.toPositive(nextValue) % numPartitions;

            }

        } else { // 对 keyBytes 进行 hash 选出一个 patition

            // hash the keyBytes to choose a partition

            return DefaultPartitioner.toPositive(Utils.murmur2(keyBytes)) % numPartitions;

        }

    }

kafka指定partiton生产的更多相关文章

Kafka下的生产消费者模式与订阅发布模式
原文:https://blog.csdn.net/zwgdft/article/details/54633105 在RabbitMQ下的生产消费者模式与订阅发布模式一文中,笔者以“数据接入”和“事 ...
docker搭建kafka环境&&Golang生产和消费
docker 搭建kafka环境 version: '2' services: zk1: image: confluentinc/cp-zookeeper:latest hostname: zk1 c ...
关于怎么获取kafka指定位置offset消息(转)
1.在kafka中如果不设置消费的信息的话,一个消息只能被一个group.id消费一次,而新加如的group.id则会被“消费管理”记录,并指定从当前记录的消息位置开始向后消费.如果有段时间消费者关闭 ...
ELK+kafka+filebeat搭建生产ELFK集群
文章原文 ELK 架构介绍集群服务版本服务版本 java 1.8.0_221 elasticsearch 7.10.1 filebeat 7.10.1 kibana 7.10.1 logstas ...
python操作kafka（confluent_kafka 生产）
#!/usr/bin/python # -*- coding:utf-8 -*- from confluent_kafka import Producer import json import tim ...
kafka指定partition的分区规则
博客地址:https://www.cnblogs.com/gnivor/p/5318319.html
Python 基于Python结合pykafka实现kafka生产及消费速率&主题分区偏移实时监控
基于Python结合pykafka实现kafka生产及消费速率&主题分区偏移实时监控 By: 授客 QQ:1033553122 1．测试环境 python 3.4 zookeeper- ...
二十二、Hadoop学记笔记————Kafka 基础实战：消费者和生产者实例
kafka的客户端也支持其他语言,这里主要介绍python和java的实现,这两门语言比较主流和热门图中有四个分区,每个图形对应一个consumer,任意一对一即可获取topic的分区数,每个分区 ...
Kafka基础
简介 #概念:消息中间件(消息系统) //消息系统分类: 点对点消息队列(peer-to-peer) 发布/订阅消息队列消费者在消费时,是通过pull ...

随机推荐

太骚了，用Excel玩机器学习
最近发现了一个好玩的Python库,它可以将训练好的机器学习模型转换为Java.C.JavaScript.Go.Ruby,VBA 本地代码,可以让连Python和机器学习一无所知的同学也能感受预测的神 ...
containerd与kubernetes集成部署
概念介绍 cri (Container runtime interface) cri is a containerd plugin implementation of Kubernetes conta ...
每日一算法之two sum
题目如下:首先准备一个数组,[1,2,8,4,9] 然后输入一个6,找出数组两项之和为6的两个下标. 啥也不想,马上上代码,这个太简单了, static int[] twoSum(int[] num ...
spring 中<ref parent="">标签是什么意思；ref标签与ref属性有什么不同；子容器如何引用父容器的bean
spring的配置文件可能会有多个<property name="a" ref="b" />就是找当前配置文件里的bean 也就是id为b的 < ...
Dubbo服务框架和spring-cloud架构的优缺点
Dubbo一.dubbo简介 Dubbo是阿里巴巴公司开源的一个高性能优秀的服务框架,使得应用可通过高性能的RPC实现服务的输出和输入功能,可以和Spring框架无缝集成. Dubbo是一款高性能.轻 ...
Jmeter-根据负载计算并发用户实际案例
业务场景假设公司领导现在给你分配了一个性能测试需求如下: 1:公司有1000人在上班时间段会登录平台进行打卡操作,可能会登录打卡多次2:业务高峰时间段在8:00-8:30,半小时3:需要保证90%用 ...
Python安装包报错：PackagesNotFoundError: The following packages are not available from current channels
以安装SimpleITK包为例,安装时,显示下图错误 conda install SimpleITK 按以下操作完成包安装 anaconda search -t conda SimpleITK #查询 ...
编写第一个GET、POST接口[renren-fast框架系列（1）]
配置好 renren-fast 脚手架,学习完 Spring MVC 架构后,我需要具体调试 renren-fast 的接口,比如要新增某个接口. 什么是前后端分离运行 renren-fast 项目 ...
linux定时任务 - at定时任务
at命令是一次性定时计划任务,at的守护进程atd会以后台模式运行,检查作业队列来运行作业.atd守护进程会检查系统上的一个特殊目录来获取at命令的提交的作业,默认情况下,atd守护进程每60秒检查一 ...
kkFileView部署到windows服务出现问题解决
1.部署之后执行出现api-ms-win-crt-runtime-l1-1-0.dll丢失的办法微软官网下载vc_redist.x64.exe vc_redist.x86.exe 64位的操作系统需 ...

kafka指定partiton生产

kafka指定partiton生产的更多相关文章

随机推荐

热门专题