Kakfa揭秘 Day4 Kafka中分区深度解析

哎哟慰 2024-10-19 11:29:05 原文

Kakfa揭秘 Day4

Kafka中分区深度解析

今天主要谈Kafka中的分区数和consumer中的并行度。从使用Kafka的角度说，这些都是至关重要的。

分区原则

Partition代表一个topic的分区，可以看到在构造时注册了zookeeper，也就是说kafka在分区时，是被zk管理的。

在实际存储数据时，怎么确定分区。
咱们从kafka的设计开始，为了完成高吞吐性，关键有两点设计：

使用了磁盘操作系统级的页page的访问，据说在顺序读写时比使用内存速度更快。
使用Topic进行分布化，可以突破一台机器的限制。consumer和producer都是基于Topic的多线程操作，其中每个线程都会操作一个分区。

也就是分区是高吞吐的一个关键。从具体实现看，每次来请求的时候，都会用一条新的线程来处理，每次consumer或者producer，背后都有一个socketServer，提供NIO操作。

那是不是说Kafka只要topic越多，上面的partition越多，吞吐就越大么？凡事都有利弊，这里有几点考虑。

当分区变多时，服务器需要开辟更多的线程，有更多的内存消耗和CPU的使用，太多的时候，会产生太多的句柄，那么管理方面消耗就会过大。
kafka本身在运行时，每个producer在写数据时，都有一个cache，达到量之后，会把具体的消息发送给kafka集群，分区越多的情况下，从producer角度，cache就越大，内存消耗越多。
kafka cluster有很多的组件，在分区数较多时会进行大量的管理，会产生大量的句柄。
ReplicaManager 都要管理每个parition，需要保存相关的句柄，并进行leader、follower与zk交互，在选举过程中会有短暂的不可用，当分区过多时，让zk选举的工作也会特别庞大。

所以，从工作角度，是需要设定一个合适的分区数，这个是需要根据实际数据情况进行训练的。

分区过程

下面让我们具体跟踪一下分区的过程。

Producer

首先从发送数据开始：

数据本身一般有key，则直接获取指定，否则是使用partitioner进行随机选取。

随机计算时会根据Hash值进行计算。

Consumer

默认会用一条线程来消费数据，默认是一个分区一个线程，一个线程可以消费很多分区的数据。
在实现时，会有一个queue阻塞队列，如果没有消息的话，会阻塞的一直等消息过来。读取数据时会有一个策略，决定了每个consumer中的线程读取哪些分区。

欲知后事如何，且听下回分解!

DT大数据每天晚上20：00YY频道现场授课频道68917580

Kakfa揭秘 Day4 Kafka中分区深度解析的更多相关文章

Kakfa揭秘 Day3 Kafka源码概述
Kakfa揭秘 Day3 Kafka源码概述今天开始进入Kafka的源码,本次学习基于最新的0.10.0版本进行.由于之前在学习Spark过程中积累了很多的经验和思想,这些在kafka上是通用的. ...
Kakfa揭秘 Day1 Kafka原理内幕
Spark Streaming揭秘 Day32 Kafka原理内幕今天开始,会有几天的时间,和大家研究下Kafka.在大数据处理体系中,kafka的重要性不亚于SparkStreaming.可以认为 ...
Kakfa揭秘 Day2 Kafka内核再揭秘
Spark Streaming揭秘 Day33 Kafka内核再揭秘优秀的框架会把引擎做到极致,Kafka就是这样,让我们再深入一下研究. 设计目标 kafka系统有着比较独特的的设计,包括5点: ...
Kafka学习之一深度解析
背景介绍 Kafka简介 Kafka是一种分布式的,基于发布/订阅的消息系统.主要设计目标如下: 以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间的访问性能高吞吐 ...
Hadoop中Partition深度解析
本文地址:http://www.cnblogs.com/archimedes/p/hadoop-partitioner.html,转载请注明源地址. 旧版 API 的 Partitioner 解析 P ...
Kafka源码深度解析－序列7 －Consumer －coordinator协议与heartbeat实现原理
转自:http://blog.csdn.net/chunlongyu/article/details/52791874 单线程的consumer 在前面我们讲过,KafkaProducer是线程安全的 ...
「Kafka」Kafka中offset偏移量提交
在消费Kafka中分区的数据时,我们需要跟踪哪些消息是读取过的.哪些是没有读取过的.这是读取消息不丢失的关键所在. Kafka是通过offset顺序读取事件的.如果一个消费者退出,再重启的时候,它知道 ...
Kafka深度解析（如何在producer中指定partition）（转）
原文链接:Kafka深度解析背景介绍 Kafka简介 Kafka是一种分布式的,基于发布/订阅的消息系统.主要设计目标如下: 以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能 ...
Kafka深度解析
本文转发自Jason’s Blog,原文链接 http://www.jasongj.com/2015/01/02/Kafka深度解析背景介绍 Kafka简介 Kafka是一种分布式的,基于发布/订阅 ...

随机推荐

android scrollview主要的问题
项目做多了之后,会发现其实 ScrollView嵌套ListVew或者GridView等很常用,但是你也会发现各种奇怪问题产生.根据个人经验现在列出常见问题以及代码最少最简单的解决方法. 问题一 : ...
Python刷票小脚本——网络人气奖？不好意思，我要了
零.前言最近参加微软的kinect大赛,报名之后发现有一个网络投票,票数最多的项目可以得到网络人气奖. 这种事,必然是要搞一搞! 说干就干. 说明:由于本人过于懒惰,所以就不截图了,让大家失望了! ...
python(1) - 第一个程序 Hello World!
进入python3的解释器环境. 我们让解释器输出 “Hello World!” 解释器成功的输出了Hello world! 程序就这样完成了. 当然上面的程序我们是在解释器中完成的. 我们可以通过 ...
[改善Java代码]建议40:匿名类的构造函数很特殊
建议40: 匿名类的构造函数很特殊在上一个建议中我们讲到匿名类虽然没有名字,但可以有一个初始化块来充当构造函数,那这个构造函数是否就和普通的构造函数完全一样呢?我们来看一个例子,设计一个计算器,进行 ...
hdu 2196 树形dp
思路:先求以1为根时,每个节点到子节点的最大长度.然后再次从1进入进行更新. #include<iostream> #include<cstring> #include< ...
loadrunner做webservice接口之简单调用
今天听大神讲了webservice做接口,我按照他大概讲的意思自己模拟实战了下,可能还有很多不对,一般使用webservice做接口,会使用到soapui,但是用了loadrunner以后发现lr很快 ...
Sherlock and The Beast
Sherlock Holmes suspects his archenemy, Professor Moriarty, is once again plotting something diaboli ...
Linux 命令 - grep: 正则搜索文本
grep 搜索文本文件中与指定正则表达式匹配的行命令格式 grep [OPTIONS] PATTERN [FILE...] 命令参数 Generic Program Information --he ...
MVC Model Binder
这篇博客是借助一个自己写的工程来理解model binder的过程. MVC通过路由系统,根据url找到对应的Action,然后再执行action,在执行action的时候,根据action的参数和数 ...
Javascript之相册拖动管理
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...