kafka为何需要High Available

一、为何需要replication

kafka0.8以前的版本中，是没有Replication的，一旦某一个Broker宕机，则其上所有的partition数据都不可被消费，这与kafka数据持久性及Delivery担保设计目标相悖，同时producer都不能再将数据保存于这些partition中。

1.1 如果producer使用同步模式则producer会再尝试重新发送message.send.max.retries(默认值是3）次后会抛出Exception，用户可以选择停止发送后续数据也可选择继续发送。而前者会造成数据阻塞，后者会造成本应发往该broker的数据丢失。

1.2如果producer使用异步模式则producer会尝试重新发送message.send.max.retries(默认值是3)次后记录该异常并继续发送后续数据，这会造成数据丢失并且用户只能通过日志发现该问题，同时，kafka的producer并未对异常模式提供callback接口。

由此可见，在没有replication的情况下，一旦某机器宕机或者某个broker停止工作则会造成整个系统的可用性降低，随着集群规模的增加，整个集群中出现该类异常的几率大大增加，因为对于生产系统而言replication机制引入非常重要。

二、为何需要leader Election

leader 选举主要是指replition之间的leader选举

引入replication之后，同一个partition可能会有多个replica，而这时需要再这些replicationn直接选举一个leader，producer和consumer只与这个leader交互，其他replica作为followe从leader中复制数据。

因为需要保证同一个partition的多个replica之间的数据一致性（其中一个宕机后其他replica必须要能继续服务并且即不能造成数据丢失）如果没有一个leader，所有的replication都可同时读/写数据，那就需要保证多个replica之间互相（N*N条通道）同步数据，数据的一致性和有序性非常难保证，大大增加了replication实现的复杂性，同时也增加了出现异常的几率，而引入leader后，只有leader负责数据读写，followe只向leader顺序fetch数据(N条通道），系统更加简单且高效。

kafka为何需要High Available的更多相关文章

Spark踩坑记——Spark Streaming+Kafka
[TOC] 前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark strea ...
消息队列 Kafka 的基本知识及 .NET Core 客户端
前言最新项目中要用到消息队列来做消息的传输,之所以选着 Kafka 是因为要配合其他 java 项目中,所以就对 Kafka 了解了一下,也算是做个笔记吧. 本篇不谈论 Kafka 和其他的一些消息 ...
kafka学习笔记：知识点整理
一.为什么需要消息系统 1.解耦: 允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束. 2.冗余: 消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险. ...
.net windows Kafka 安装与使用入门(入门笔记)
完整解决方案请参考: Setting Up and Running Apache Kafka on Windows OS 在环境搭建过程中遇到两个问题,在这里先列出来,以方便查询: 1. \Jav ...
kafka配置与使用实例
kafka作为消息队列,在与netty.多线程配合使用时,可以达到高效的消息队列
kafka源码分析之一server启动分析
0. 关键概念关键概念 Concepts Function Topic 用于划分Message的逻辑概念,一个Topic可以分布在多个Broker上. Partition 是Kafka中横向扩展和一 ...
Kafka副本管理—— 为何去掉replica.lag.max.messages参数
今天查看Kafka 0.10.0的官方文档,发现了这样一句话:Configuration parameter replica.lag.max.messages was removed. Partiti ...
Kafka：主要参数详解（转）
原文地址:http://kafka.apache.org/documentation.html ############################# System ############### ...
kafka
2016-11-13 20:48:43 简单说明什么是kafka? Apache kafka是消息中间件的一种,我发现很多人不知道消息中间件是什么,在开始学习之前,我这边就先简单的解释一下什么是消息 ...
Spark Streaming+Kafka
Spark Streaming+Kafka 前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端, ...

随机推荐

【UVA】11400 照明系统设计排序+dp
题目中有一个重要的信息是:每一种灯泡只能换成比它电压更大的灯泡,因此电压的大小限制了状态的转移.因此,在这里按照电压从小到大把每种灯泡排序,使得在考虑后面的灯泡时,前面的灯泡自然可以换成后面的灯泡.状 ...
在hive中UDF和UDAF使用说明
Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以. 一.背景:Hive是基于Hadoop中的MapReduce,提供HQ ...
ImageMagick 笔记：索引颜色(index color)、锁定图层，透明 png 转 gif (保持清晰度)
今天在处理一张 png 透明背景的图片,大小: 16KB, 尺寸: 400 x 300,用到一段代码,也许对以后有用. /** 带透明背景和阴影的png图片, 转换成 gif, [索引色] + [锁住 ...
bzoj 4326: NOIP2015 运输计划（二分+树链剖分）
传送门题解: 树链剖分快速求解任意两点间的路径的权值和: 然后,二分答案: 此题的难点是如何快速求解重合路径? 差分数组可以否??? 在此之前先介绍一下相关变量: int fa[maxn]; int ...
NOIP 普及组 2012 寻宝(思维？？？)
传送门 https://www.cnblogs.com/violet-acmer/p/9937201.html 题解: 一开始用暴力查找下一个要去的房间,超时了,emmmmm....... 然后,就稍 ...
论文总结(Frequent Itemsets Mining With Differential Privacy Over Large-Scale Data)
一.论文目标:将差分隐私和频繁项集挖掘结合,主要针对大规模数据. 二.论文的整体思路: 1)预处理阶段: 对于大的数据集,进行采样得到采样数据集并计算频繁项集,估计样本数据集最大长度限制,然后再缩小源 ...
JS学习笔记Day6
一.数组 1.数组就是个容器,里面可以存放任意类型的数 2.定义数组:1)var arr = []: 2)var arr = new Array():构造函数定义方式,如果括号中有一个整数,该正数代表 ...
django_admin用法
Django内置的admin Django内置的Admin是对于model中对应的数据表进行增删改查提供的组件,使用方式有: 依赖APP: django.contrib.auth django.con ...
CodeForces5E 环转链,dp思想
http://codeforces.com/problemset/problem/5/E 众所周知,在很久以前,在今天的 Berland 地区,居住着 Bindian 部落.他们的首都被 n 座山所环 ...
eclipse新建maven项目默认jre为1.5的问题
在maven的settings.xml中添加如下内容解决 <profiles> <profile> <id>jdk-1.8</id> <activ ...

kafka为何需要High Available

kafka为何需要High Available的更多相关文章

随机推荐

热门专题