kafka高吞吐，低延迟的分布式消息队列

核心概念

broker是kafka的节点，多台broker集群就是kafka
topic消息分为多个topic
partition分区，topic划分了多个partition分区，存在负载均衡策略

每个分区由一个个消息构成，消息在分区中被标识了递增的序号（表明了消息的偏移量）

每个分区各自维护一套偏移量
producer生产者，选择topic插入消息数据。根据kafka的分配策略，将消息插入某个分区队尾。
consumer消费者，选择topic并根据offset偏移量来获取消息数据，记录当前读取的消息的偏移量，下次读取从前一次的偏移量基础上继续读取。

消费者需要自己保存偏移量，通过修改偏移量实现读取不同位置的消息。多个消费者不会相互影响，线程安全，实现高并发消费。
消息数据的删除时间默认为7天
以partition为单位进行备份，每个partition设置一个leader（本身）和若干follower，随机分配在集群上。leader处理读写请求，follower不对外服务，拉取leader数据。
消费者组

偏移量实际属于消费者组。用户绑定消费者组，消费者组之间相互独立。

一条消息在一个组内只能消费一次，组中的多个用户不能多次读取这条消息

组会阻塞多用户同时访问一个分区

集群部署

消息同步ISR

isr列表监控follower的同步状态，isr列表由leader动态维护。

将同步状态满足条件的follower记录在列表中，将不满足条件的follower移出列表。

leader下线后，从isr列表中的follower中选举新的leader

条件参数

follower的fech拉取请求间隔时间（10s）

replica.lag.time.max.ms=10000
leader与follower相差记录数（4000）

replica.lag.max.messages=4000

API

生产者

消费者

数据丢失和重复读取

生产者消息丢失

原因1：kafka数据先存储在内存中，一段时间后溢写到硬盘中。那么节点宕机，在内存中的消息未持久化，随着内存一起丢失。

原因2：分区主从备份，leader分区宕机，从分区未及时拉取同步，导致数据丢失

处理方式：修改持久化触发参数（数据量，时间）

处理方式：修改。。。。

消息丢失（消费者）

原因：在High level模式下，客户端向zk提交了偏移量，但数据读取时消费节点挂了，导致偏移量之前的数据没处理完毕。消费节点再次上线，从zk获取偏移量并向后读取，之前的数据不再处理，最终导致消费数据的丢失。

解决：客户端每条消息处理完，再手动提交偏移量，关闭偏移量自动提交。

重复消费（消费者）

原因：数据处理完以后，偏移量自动提交，设置间隔时间较长。节点宕机后，获取的偏移量是前一次的，节点会重复执行已执行的消息。

解决：手动提交数偏移量

高吞吐

高吞量

pagecache（页缓存），基于系统内存的数据接收
磁盘顺序写，相对随机存效率百倍以上，尤其对于磁盘存储。

高吐量

零拷贝计数

pagecache -- 网卡bufffer（数据）+socket（描述符）-- 客户端

高吞吐

producer消息存入速度与consumer读取数据速度维持均衡，保证在数据flush到磁盘前读取数据，实现只在pagecache内存层面的队列高速吞吐。

kafka高吞吐，低延迟的分布式消息队列的更多相关文章

高吞吐低延迟Java应用的垃圾回收优化
高吞吐低延迟Java应用的垃圾回收优化高性能应用构成了现代网络的支柱.LinkedIn有许多内部高吞吐量服务来满足每秒数千次的用户请求.要优化用户体验,低延迟地响应这些请求非常重要. 比如说,用户经 ...
深入浅出理解基于 Kafka 和 ZooKeeper 的分布式消息队列
消息队列中间件是分布式系统中重要的组件,主要解决应用耦合,异步消息,流量削锋等问题.实现高性能,高可用,可伸缩和最终一致性架构,是大型分布式系统不可缺少的中间件. 本场 Chat 主要内容: Kafk ...
Kafka 和 ZooKeeper 的分布式消息队列分析
1. Kafka 总体架构基于 Kafka-ZooKeeper 的分布式消息队列系统总体架构如下: 如上图所示,一个典型的 Kafka 体系架构包括若干 Producer(消息生产者),若干 bro ...
【转】快速理解Kafka分布式消息队列框架
from:http://blog.csdn.net/colorant/article/details/12081909 快速理解Kafka分布式消息队列框架标签: kafkamessage que ...
分布式消息队列 Kafka
分布式消息队列 Kafka 2016-02-25 杜亦舒 Kafka是一个高吞吐量的.分布式的消息系统,由Linkedin开发,开发语言为scala具有高吞吐.可扩展.分布式等特点适用场景活动数据 ...
Kafka 分布式消息队列介绍
Kafka 分布式消息队列类似产品有JBoss.MQ 一.由Linkedln 开源,使用scala开发,有如下几个特点: (1)高吞吐 (2)分布式 (3)支持多语言客户端 (C++.Java) 二 ...
Kafka分布式消息队列
基本架构 Kafka分布式消息队列的作用: 解耦:将消息生产阶段和处理阶段拆分开,两个阶段互相独立各自实现自己的处理逻辑,通过Kafka提供的消息写入和消费接口实现对消息的连接处理.降低开发复杂度,提 ...
一款低延迟的分布式数据库同步系统--databus
每次看到马路对面摩托罗拉的大牌子,都想起谷歌125亿美元收购摩托罗拉移动,后来又以29亿美元卖给联想的事情.谷歌所做的决策都比较考虑长远利益,在这串交易中,谷歌获得了摩托罗拉最有价值的几千项专利,稳健 ...
分布式消息队列Apache Pulsar
Pulsar简介 Apache Pulsar是一个企业级的分布式消息系统,最初由Yahoo开发并在2016年开源,目前正在Apache基金会下孵化.Plusar已经在Yahoo的生产环境使用了三年多, ...

随机推荐

KVM命令--使用篇（1）
1. KVM常见使用命令: 1.1 查看命令列出所有虚拟机 virsh list --all 显示虚拟机信息 virsh dominfo vm_name 显示虚拟机内存和cpu使用情况 virsh- ...
发邮件python
import smtplib #smtplib是python的一个内置库,所以不需要用pip安装 mailhost='smtp.qq.com' #把qq邮箱的服务器地址赋值到变量mailhost上 q ...
转载：arm neon intrinsic
转自:https://blog.csdn.net/hemmingway/article/details/44828303/ https://blog.csdn.net/chshplp_liaoping ...
2019 LOL 全球总决赛
FPS 牛逼涅槃重生
[CF1034B] Longest Palindrome - 贪心
如果自己是回文串可以做中心如果一个串和另一个串的转置相等则可以凑一对优先配对 #include <bits/stdc++.h> using namespace std; int n,m ...
使用Image Sharp 对二维码图片中间加入logo图片
1.在NuGet包源加入Image Sharp包源 2.在需要用到Image Sharp的项目中安装以下的插件 3.调用图片上绘制图片的方法
eclipse中部署项目到tomcat启动，一直是starting状态
这个问题主要是在eclipse中设置了proxy代理导致的,将Network Connections中的Active Provider更改即可! 打赏
【转载】17个新手常见Python运行时错误
转自:http://www.cnblogs.com/smile-ls/archive/2013/05/20/3088393.html 当初学 Python 时,想要弄懂 Python 的错误信息的含义 ...
165.扩展User模型-继承AbstractBaseUser
继承自AbstractBaseUser模型如果你想要修改默认的验证方式,并且对于User模型上的一些字段不想要,那么可以自定义一个模型,然后继承自AbstractBaseUser,再添加你想要的字段 ...
三分钟快速上手TensorFlow 2.0 （后续）——扩展和附录
TensorFlow Hub 模型复用 TF Hub 网站打开主页 https://tfhub.dev/ ,在左侧有 Text.Image.Video 和 Publishers 等选项,可以选取关注 ...