Kafka 第三章，第四章阅读笔记

Kafka 发送消息有三种方式：不关心结果的，同步方式，异步方式。
Kafka 的异常主要有两类：一种是可重试异常，一种是无需重试异常。

生产者的配置：

acks 越大，越不容易丢失消息，但是吞吐量下降。
buffer.memory，设置不当会导致阻塞或者抛出异常。
compression.type snappy和gzip， lz4。
retries 重试次数，
如果要保证消息的顺序，必须保证max.in.flight.requests.per.connection=1.

分区

1.一个进程只从一个分区读取数据
2.相同键的消息都会被写到同一个分区。
3.使用默认分区器时，只有不改变分区数据的情况下，键和分区的映射关系才能保持不变。
4.群组协调器broker，不同的群组可以有不同的协调器。消费者在轮询消息或者提交偏移量时会发送心跳，如果心跳长时间停止，会话会过期，群组协调器会认为消费者死亡，发生再均衡。
5.同一个Topic的分区，只被同一个消费组里的消费者拥有一次。有多个放映厅（消费组），一场电影（分区），每一个放映厅里面人只能看一次。一个放映厅的人可以看多个不同的电影。

轮询间隔：
max.poll.interval.ms

分配分区：

消费者第一个加入群组，则它将成为群主。
群主从协调器获得群组的成员列表，并负责给每一个消费者分配分区。实现了一个PartitionAssignor的接口。
Kafka实现了两种分配策略。
分配完毕之后，群主把分配情况发送给群组协调器，协调器再把信息发送给所有的消费者。只有群主知道群组里所有的消费者信息。
该过程在每次再均衡时发生。

消费者的配置：

fetch.min.bytes，如果数据量小于fetch.min.bytes指定的大小，会等待满足条件broker才会返回给消费者。
fetch.max.wait.ms，指定broker的等待时间，默认500ms，如果没有足够的数据流入Kafka，会导致500ms的延迟。
如果fetch.max.wait.ms=100ms，fetch.min.bytes=1MB，Kafka收到消费者的请求后，要么返回1MB的数据，要么100ms后返回所有的数据。
max.partition.fetch.bytes 默认值是1MB。 poll()方法从每个分区里返回的记录最多不超过这个值。20分区，5个消费者，则至少4MB可用内存才能接收记录。该值必须比broker能手接受的最大消息的字节数,max.message.size大，否则可能无法读取消息，导致消费者一直挂起重试。。。
如果单次返回的数据过多，可能来不及处理数据，导致会话过期，这种情况下，可以把该值改小，或者延长会话过期时间。

session.timeout.ms
消费者超过这个时间没有发送心跳给群组协调器则会被认为死亡，从而触发再均衡。
该属性和heartbeat.interval.ms紧密相关，heartbeat.interval.ms指定了poll()方法向协调器发送心跳的频率。session.timeout.ms则指定了消费者多久可以不发心跳。
一般来说，heartbeat.interval.ms必须比session.timeout.ms小，一般是1/3。session.timeout.ms属性太小，有利于更快检测和恢复崩溃的节点，但是长时间轮询或垃圾收集等情况会导致非预期的再均衡。相反该值过大，可以减少意外的再均衡，但是检测崩溃节点会需要更长的时间。

auto.offset.reset
在偏移量无效的情况下，消费者将从何处读取分区记录。因消费者长时间失效，包含偏移量的记录已经过时并被删除。默认值为latest，意思为从最新的记录开始读取。另一个值是earliest，从起始位置读取分区的记录。

enable.auto.commit
该属性指定消费者是否自动提交偏移量，默认是true。为了尽量避免重复数据和数据丢失，可以把他设置为false，由自己控制何时提交偏移量。
auto.commit.interval.ms 可以控制相应的自动提交的频率，默认值是5秒。

partition.assignment.strategy
分区分配策略，kafka内置两种策略：
Range：该策略会把连续的分区分配给消费者。当分区数量是奇数时，容易将更多的分区分配给某一个消费者。
RoundRobin：该策略会将分区逐个分配给消费者，如果所有的消费者都订阅相同的主题，所有消费者分配到数量相同的分区，最多相差一个。

client.id
客户端的ID

max.poll.records
用于控制单次调用call方法能够返回的记录数量。

receive.buffer.bytes和send.buffer.bytes
socket用到的TCP的缓冲区大小。-1表示使用操作系统的默认值。

消费者如何提交偏移量

消费者更新分区的当前位置的操作叫做提交。
消费者往一个叫做_consumer_offset的特殊主题提交偏移量。
自动提交，按照时间间隔。
手动提交：
同步提交，异步提交。最好的写法就是轮询中异步提交，再最外部，关闭之前同步提交。

再均衡监听器

可以在发生再均衡期间提交偏移量。实现 ConsumerRebalanceListener接口。

onPartitionsRevoked 方法会在再均衡开始之前，且消费者停止读取消息之后被调用。
onPartitionAssigned 方法会在重新分配分区之后，且消费者开始毒气消息之前被调用。

seek 可以自定义偏移量。

退出

主线程上的消费者，退出线程可以使用addShutdownHook。退出循环的安全方式是通过wakeup()方法。poll会抛出WakeupException，退出循环。在退出之前，确保关闭了消费者。

没有群组的消费者。独立消费者

一个消费者可以订阅主题加入消费组，或者为自己分配分区，但是不能同时做这两件事情。

步骤是，先从集群请求主题哪些分区可用，然后调用assign方法。

Kafka 权威指南阅读笔记（第三章，第四章）的更多相关文章

Kafka权威指南阅读笔记（第六章）
Broker配置 Kafka可以同时拥有可靠的主题和非可靠的主题.非可靠的主题允许丢失. 复制系数主题级别的配置参数是 replication.factor,在Broker级别则可以通过defaul ...
Kafka权威指南阅读笔记（第五章）
Kafka Broker kafka 第一个启动的Broker在ZooKeeper中创建一个临时节点/controller,让自己成为控制器.其他Broker启动后在控制器节点上创建Watch对象,便 ...
html5+css3 权威指南阅读笔记（三）---表单及其它新增和改良元素
一.新增元素及属性 1.表单内元素的form属性. html5: <form id="testForm"> <input type=text> </f ...
Kafka权威指南阅读笔记（第八章）
跨集群数据镜像使用场景: 区域集群和中心集群这种场景下,每个区域的应用程序只访问相应的区域内的集群.而有些情况下,需要将各个集群的信息汇总到中心集群,就可以用中心集群分析业务数据了. 冗余一个K ...
Javascript权威指南阅读笔记--第3章类型、值和变量(1)
之前一直有个想法,好好读完JS权威指南,便于自己对于JS有个较为全面的了解.毕竟本人非计算机专业出生,虽然做着相关行业的工作,但总觉得对于基础的掌握并没有相关专业学者扎实,正好因为辞职待业等原因,还是 ...
mycat权威指南阅读笔记--序言1
前言 mycat官方地址http://www.mycat.io/,mycat是关系数据库的中间件,也就是说它可以把后端的多个数据库,抽象成一个关系数据库. mycat能干啥官方文档介绍,主要是用来做 ...
《HTTP 权威指南》笔记:第三章 HTTP 报文
如果说 HTTP 是因特网的信使,那么 HTTP 报文就是它用来搬东西的包了. 这一章讲述关于 HTTP 报文的相关知识,包括: HTTP 报文的三个组成部分请求报文以及其各种功能响应报文以及各种 ...
HTTP权威指南阅读笔记三：HTTP报文
报文的组成部分报文由三部分组成:对报文进行描述的起始行(start line).包含属性的首部(header),以及可选的.包含数据的主体(body)部分. 请求报文格式 <method> ...
Kafka权威指南读书笔记之（三）Kafka 生产者一一向 Kafka 写入数据
不管是把 Kafka 作为消息队列.消息总线还是数据存储平台来使用 ,总是需要有一个可以往 Kafka 写入数据的生产者和一个从 Kafka 读取数据的消费者,或者一个兼具两种角色的应用程序. 开发者 ...

随机推荐

JavaScript DOM 编程艺术
最近把JavaScript DOM 编程艺术这本书看完了,觉得这本书很好深入浅出地展示了渐进增强.平稳退化.结构和样式分离等编程思想,我对书中重要的知识进行了梳理总结. 一.网页二.JavaScr ...
数据结构之二叉树篇卷二 -- 二叉树递归遍历（With Java)
一.先序递归遍历(Preorder Recursive Traversal) 1.1 算法首先需要明确的是这里的序是针对 root 节点而言的.故先序即先“访问”根节点,其次“访问”其左右节点. 1 ...
Hadoop点滴-Hadoop分布式文件系统
Hadoop自带HDFS,即 Hadoop Distributed FileSystem(不是HaDoop FileSystem 的简称) 适用范围超大文件:最新的容量达到PB级流式数据访问:H ...
注意！GetThreadPriority的返回值不是系统的优先级值
GetThreadPriority的返回值 Return code/value Description THREAD_PRIORITY_ABOVE_NORMAL 1 Priority 1 point ...
Scanner类的next()方法和nextLine()方法的异同点
通过一段代码就可以明白其中的奥妙!! import java.util.Scanner; public class next_nextLine { public static void main(St ...
react redux 二次开发流程
在一个大项目中如何引入redux及其相关技术栈(react-redux redux-thunk redux-immutable ),已经成为react前端工程师不可或缺的技能,下面通过实现一个简单的t ...
WebGL简易教程(六)：第一个三维示例(使用模型视图投影变换)
目录 1. 概述 2. 示例:绘制多个三角形 2.1. Triangle_MVPMatrix.html 2.2. Triangle_MVPMatrix.js 2.2.1. 数据加入Z值 2.2.2. ...
PHP 正则表达式的简单应用以 preg_match_all 抓取HTML元素为例 [转载]
PHP 正则表达式的简单应用以 preg_match_all 抓取HTML元素为例 2011-12-02 17:09:39| 分类: PHP|举报|字号订阅下载LOFTER我的照片书 ...
基于HTML5 WebGL的工业化3D电子围栏
前言现代工业化的推进在极大加速现代化进程的同时也带来的相应的安全隐患,在传统的可视化监控领域,一般都是基于 Web SCADA 的前端技术来实现 2D 可视化监控,本系统采用 Hightopo 的 ...
IDEA 学习笔记之 Spark/SBT项目开发
Spark/SBT项目开发: 下载Scala SDK 下载SBT 配置IDEA SBT:(如果不配置,就会重新下载SBT, 非常慢,因为以前我已经下过了,所以要配置为过去使用的SBT) 新建立SBT项 ...

Kafka 权威指南阅读笔记（第三章，第四章）