【原创】Kafka Consumer多线程实例

　　Kafka 0.9版本开始推出了Java版本的consumer，优化了coordinator的设计以及摆脱了对zookeeper的依赖。社区最近也在探讨正式用这套consumer API替换Scala版本的consumer的计划。鉴于目前这方面的资料并不是很多，本文将尝试给出一个利用KafkaConsumer编写的多线程消费者实例，希望对大家有所帮助。

这套API最重要的入口就是KafkaConsumer(o.a.k.clients.consumer.KafkaConsumer)，普通的单线程使用方法官网API已有介绍，这里不再赘述了。因此，我们直奔主题——讨论一下如何创建多线程的方式来使用KafkaConsumer。KafkaConsumer和KafkaProducer不同，后者是线程安全的，因此我们鼓励用户在多个线程中共享一个KafkaProducer实例，这样通常都要比每个线程维护一个KafkaProducer实例效率要高。但对于KafkaConsumer而言，它不是线程安全的，所以实现多线程时通常由两种实现方法：

1 每个线程维护一个KafkaConsumer

2 维护一个或多个KafkaConsumer，同时维护多个事件处理线程(worker thread)

当然，这种方法还可以有多个变种：比如每个worker线程有自己的处理队列。consumer根据某种规则或逻辑将消息放入不同的队列。不过总体思想还是相同的，故这里不做过多展开讨论了。

　　下表总结了两种方法的优缺点：

	优点	缺点
方法1(每个线程维护一个KafkaConsumer)	方便实现速度较快，因为不需要任何线程间交互易于维护分区内的消息顺序	更多的TCP连接开销(每个线程都要维护若干个TCP连接) consumer数受限于topic分区数，扩展性差频繁请求导致吞吐量下降线程自己处理消费到的消息可能会导致超时，从而造成rebalance
方法2 (单个(或多个)consumer，多个worker线程)	可独立扩展consumer数和worker数，伸缩性好	实现麻烦通常难于维护分区内的消息顺序处理链路变长，导致难以保证提交位移的语义正确性

下面我们分别实现这两种方法。需要指出的是，下面的代码都是最基本的实现，并没有考虑很多编程细节，比如如何处理错误等。

方法1

ConsumerRunnable类

 import org.apache.kafka.clients.consumer.ConsumerRecord;

 import org.apache.kafka.clients.consumer.ConsumerRecords;

 import org.apache.kafka.clients.consumer.KafkaConsumer;

 import java.util.Arrays;

 import java.util.Properties;

 public class ConsumerRunnable implements Runnable {

     // 每个线程维护私有的KafkaConsumer实例

     private final KafkaConsumer<String, String> consumer;

     public ConsumerRunnable(String brokerList, String groupId, String topic) {

         Properties props = new Properties();

         props.put("bootstrap.servers", brokerList);

         props.put("group.id", groupId);

         props.put("enable.auto.commit", "true");        //本例使用自动提交位移

         props.put("auto.commit.interval.ms", "1000");

         props.put("session.timeout.ms", "30000");

         props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");

         props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");

         this.consumer = new KafkaConsumer<>(props);

         consumer.subscribe(Arrays.asList(topic));   // 本例使用分区副本自动分配策略

     }

     @Override

     public void run() {

         while (true) {

             ConsumerRecords<String, String> records = consumer.poll(200);   // 本例使用200ms作为获取超时时间

             for (ConsumerRecord<String, String> record : records) {

                 // 这里面写处理消息的逻辑，本例中只是简单地打印消息

                 System.out.println(Thread.currentThread().getName() + " consumed " + record.partition() +

                         "th message with offset: " + record.offset());

             }

         }

     }

 }

ConsumerGroup类

 package com.my.kafka.test;

 import java.util.ArrayList;

 import java.util.List;

 public class ConsumerGroup {

     private List<ConsumerRunnable> consumers;

     public ConsumerGroup(int consumerNum, String groupId, String topic, String brokerList) {

         consumers = new ArrayList<>(consumerNum);

         for (int i = 0; i < consumerNum; ++i) {

             ConsumerRunnable consumerThread = new ConsumerRunnable(brokerList, groupId, topic);

             consumers.add(consumerThread);

         }

     }

     public void execute() {

         for (ConsumerRunnable task : consumers) {

             new Thread(task).start();

         }

     }

 }

ConsumerMain类

 public class ConsumerMain {

     public static void main(String[] args) {

         String brokerList = "localhost:9092";

         String groupId = "testGroup1";

         String topic = "test-topic";

         int consumerNum = 3;

         ConsumerGroup consumerGroup = new ConsumerGroup(consumerNum, groupId, topic, brokerList);

         consumerGroup.execute();

     }

 }

方法2

Worker类

 import org.apache.kafka.clients.consumer.ConsumerRecord;

 public class Worker implements Runnable {

     private ConsumerRecord<String, String> consumerRecord;

     public Worker(ConsumerRecord record) {

         this.consumerRecord = record;

     }

     @Override

     public void run() {

         // 这里写你的消息处理逻辑，本例中只是简单地打印消息

         System.out.println(Thread.currentThread().getName() + " consumed " + consumerRecord.partition()

             + "th message with offset: " + consumerRecord.offset());

     }

 }

ConsumerHandler类

 import org.apache.kafka.clients.consumer.ConsumerRecord;

 import org.apache.kafka.clients.consumer.ConsumerRecords;

 import org.apache.kafka.clients.consumer.KafkaConsumer;

 import java.util.Arrays;

 import java.util.Properties;

 import java.util.concurrent.ArrayBlockingQueue;

 import java.util.concurrent.ExecutorService;

 import java.util.concurrent.ThreadPoolExecutor;

 import java.util.concurrent.TimeUnit;

 public class ConsumerHandler {

     // 本例中使用一个consumer将消息放入后端队列，你当然可以使用前一种方法中的多实例按照某张规则同时把消息放入后端队列

     private final KafkaConsumer<String, String> consumer;

     private ExecutorService executors;

     public ConsumerHandler(String brokerList, String groupId, String topic) {

         Properties props = new Properties();

         props.put("bootstrap.servers", brokerList);

         props.put("group.id", groupId);

         props.put("enable.auto.commit", "true");

         props.put("auto.commit.interval.ms", "1000");

         props.put("session.timeout.ms", "30000");

         props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");

         props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");

         consumer = new KafkaConsumer<>(props);

         consumer.subscribe(Arrays.asList(topic));

     }

     public void execute(int workerNum) {

         executors = new ThreadPoolExecutor(workerNum, workerNum, 0L, TimeUnit.MILLISECONDS,

                 new ArrayBlockingQueue<>(1000), new ThreadPoolExecutor.CallerRunsPolicy());

         while (true) {

             ConsumerRecords<String, String> records = consumer.poll(200);

             for (final ConsumerRecord record : records) {

                 executors.submit(new Worker(record));

             }

         }

     }

     public void shutdown() {

         if (consumer != null) {

             consumer.close();

         }

         if (executors != null) {

             executors.shutdown();

         }

         try {

             if (!executors.awaitTermination(10, TimeUnit.SECONDS)) {

                 System.out.println("Timeout.... Ignore for this case");

             }

         } catch (InterruptedException ignored) {

             System.out.println("Other thread interrupted this shutdown, ignore for this case.");

             Thread.currentThread().interrupt();

         }

     }

 }

Main类

 public class Main {

     public static void main(String[] args) {

         String brokerList = "localhost:9092,localhost:9093,localhost:9094";

         String groupId = "group2";

         String topic = "test-topic";

         int workerNum = 5;

         ConsumerHandler consumers = new ConsumerHandler(brokerList, groupId, topic);

         consumers.execute(workerNum);

         try {

             Thread.sleep(1000000);

         } catch (InterruptedException ignored) {}

         consumers.shutdown();

     }

 }

　　总结一下，这两种方法或是模型都有各自的优缺点，在具体使用时需要根据自己实际的业务特点来选取对应的方法。就我个人而言，我比较推崇第二种方法以及背后的思想，即不要将很重的处理逻辑放入消费者的代码中，很多Kafka consumer使用者碰到的各种rebalance超时、coordinator重新选举、心跳无法维持等问题都来源于此。

【原创】Kafka Consumer多线程实例的更多相关文章

【原创】Kafka Consumer多线程实例续篇
在上一篇<Kafka Consumer多线程实例>中我们讨论了KafkaConsumer多线程的两种写法:多KafkaConsumer多线程以及单KafkaConsumer多线程.在第二种 ...
kafka系列 -- 多线程消费者实现
看了一下kafka,然后写了消费Kafka数据的代码.感觉自己功力还是不够. 不能随心所欲地操作数据,数据结构没学好,spark的RDD操作没学好. 不能很好地组织代码结构,设计模式没学好,面向对象思 ...
【原创】kafka consumer源代码分析
顾名思义,就是kafka的consumer api包. 一.ConsumerConfig.scala Kafka consumer的配置类,除了一些默认值常量及验证参数的方法之外,就是consumer ...
【原创】美团二面：聊聊你对 Kafka Consumer 的架构设计
在上一篇中我们详细聊了关于 Kafka Producer 内部的底层原理设计思想和细节, 本篇我们主要来聊聊 Kafka Consumer 即消费者的内部底层原理设计思想. 1.Consumer之总体 ...
kafka consumer assign 和 subscribe模式差异分析
转载请注明原创地址:http://www.cnblogs.com/dongxiao-yang/p/7200971.html 最近需要研究flink-connector-kafka的消费行为,发现fli ...
Kafka设计解析（四）- Kafka Consumer设计解析
本文转发自Jason’s Blog,原文链接 http://www.jasongj.com/2015/08/09/KafkaColumn4 摘要本文主要介绍了Kafka High Level Con ...
读Kafka Consumer源码
最近一直在关注阿里的一个开源项目:OpenMessaging OpenMessaging, which includes the establishment of industry guideline ...
kafka consumer 配置详解
1.Consumer Group 与 topic 订阅每个Consumer 进程都会划归到一个逻辑的Consumer Group中,逻辑的订阅者是Consumer Group.所以一条message ...
[Big Data - Kafka] Kafka设计解析（四）：Kafka Consumer解析
High Level Consumer 很多时候,客户程序只是希望从Kafka读取数据,不太关心消息offset的处理.同时也希望提供一些语义,例如同一条消息只被某一个Consumer消费(单播)或被 ...

随机推荐

gitHub使用入门和github for windows的安装教程
在看这篇教程之前我想大家也在搜索怎样使用gitHub托管自己的项目,在使用gitHub之前我也遇到过各种问题,在网上我也搜索了很多,但总觉得网上搜索到的东西很多很杂,有的根本不知道是在表达什么.在这过 ...
如何利用pt-online-schema-change进行MySQL表的主键变更
业务运行一段时间,发现原来的主键设置并不合理,这个时候,想变更主键.这种需求在实际生产中还是蛮多的. 下面,看看pt-online-schema-change解决这类问题的处理方式. 首先,创建一张测 ...
spring remoting源码分析--Hessian分析
1. Caucho 1.1 概况 spring-remoting代码的情况如下: 本节近分析caucho模块. 1.2 分类其中以hession为例,Hessian远程服务调用过程: Hessian ...
【开源毕设】一款精美的家校互动APP分享——爱吖校推 [你关注的，我们才推]（持续开源更新3）附高效动态压缩Bitmap
一.写在前面爱吖校推如同它的名字一样,是一款校园类信息推送交流平台,这么多的家校互动类软件,你选择了我,这是我的幸运.从第一次在博客园上写博客到现在,我一次一次地提高博文的质量和代码的可读性,都是为 ...
linux拷贝命令，移动命令
http://blog.sina.com.cn/s/blog_7479f7990101089d.html
BPM配置故事之案例6-条件可见与条件必填
小明兴奋的告诉大毛自己独立解决了必填和水印问题,腹黑的大毛决定给小明出一个进阶问题刷一下存在感. 大毛:我再考考你,我把表单改成了这样(下图).怎么做到,预算状态为"预算内"时,不 ...
DevExpress第三方控件使用实例之ASPxPopupControl弹出子窗体
弹出页面控件:ASPxPopupControl, <dxpc:ASPxPopupControl ID="popubCtr" runat="server" ...
进程监控工具supervisor 启动Mongodb
进程监控工具supervisor 启动Mongodb 一什么是supervisor Superviosr是一个UNIX-like系统上的进程监控工具. Supervisor是一个Python开发的cl ...
Dijkstra 单源最短路径算法
Dijkstra 算法是一种用于计算带权有向图中单源最短路径(SSSP:Single-Source Shortest Path)的算法,由计算机科学家 Edsger Dijkstra 于 1956 年 ...
Visual Studio Code，完美的编辑器
今日凌晨,微软的文本(代码)编辑器 Visual Studio Code(简称 VS Code),发布了首个正式版,距离首个 beta 版上线时间刚好一年. 在十多年的编程经历中,我使用过非常多的的代 ...

【原创】Kafka Consumer多线程实例

【原创】Kafka Consumer多线程实例的更多相关文章

随机推荐

热门专题