kafka具体解释一、Kafka简单介绍

背景：

当今社会各种应用系统诸如商业、社交、搜索、浏览等像信息工厂一样不断的生产出各种信息，在大数据时代，我们面临例如以下几个挑战：

怎样收集这些巨大的信息
怎样分析它
怎样及时做到如上两点

以上几个挑战形成了一个业务需求模型，即生产者生产（produce）各种信息，消费者消费（consume）（处理分析）这些信息，而在生产者与消费者之间，须要一个沟通两者的桥梁-消息系统。

从一个微观层面来说，这样的需求也可理解为不同的系统之间怎样传递消息。

Kafka诞生：由 linked-in 开源

kafka-即是解决这类问题的一个框架，它实现了生产者和消费者之间的无缝连接。

kafka-高产出的分布式消息系统(A high-throughput distributed messaging system)

Kafka特性：它形容自己的设计是独一无二的，先看一下它有怎样过人之处：

快：单个kafka服务每秒可处理数以千计client发来的几百MB数据。
可扩展性：一个单一集群可作为一个大数据处理中枢，集中处理各种类型业务
持久化：消息被持久化到磁盘（可处理TB数据级别数据但仍保持极高数据处理效率），而且有备份容错机制
分布式：着眼于大数据领域，支持分布式，集群可处理每秒百万级别消息
实时性：生产出的消息可马上被消费者消费

Kafka的组件：

topic：消息存放的文件夹即主题
Producer：生产消息到topic的一方
Consumer：订阅topic消费消息的一方
Broker：Kafka的服务实例就是一个broker

例如以下图所看到的，Producer生产的消息通过网络发送给Kafka cluster，而Consumer从当中消费消息

Topic 和Partition:

消息发送时都被发送到一个topic，其本质就是一个文件夹，而topic由是由一些Partition Logs(分区日志)组成,其组织结构例如以下图所看到的：

我们能够看到，每个Partition中的消息都是有序的，生产的消息被不断追加到Partition log上，当中的每个消息都被赋予了一个唯一的offset值。

Kafka集群会保存全部的消息，无论消息有没有被消费；我们能够设定消息的过期时间，仅仅有过期的数据才会被自己主动清除以释放磁盘空间。比方我们设置消息过期时间为2天，那么这2天内的全部消息都会被保存到集群中，数据仅仅有超过了两天才会被清除。

Kafka须要维持的元数据仅仅有一个--消费消息在Partition中的offset值，Consumer每消费一个消息，offset就会加1。事实上消息的状态全然是由Consumer控制的，Consumer能够跟踪和重设这个offset值，这种话Consumer就能够读取任何位置的消息。

把消息日志以Partition的形式存放有多重考虑，第一，方便在集群中扩展，每一个Partition能够通过调整以适应它所在的机器，而一个topic又能够有多个Partition组成，因此整个集群就能够适应随意大小的数据了；第二就是能够提高并发，由于能够以Partition为单位读写了。

分布式：

这些Partitions分布在集群的每一台server上，而每个Partition在集群中都能够有多个备份，这个备份数量是可配置的。

每一个Partition都有一个leader server，而其他备份的server都称为followers，仅仅有leaderserver才会处理这个Partition上全部的读写请求，而其他followers则被动的复制leader上的数据。假设一个leader挂掉了，followers中的一个server则会自己主动升级为leader。因此，事实上集群中的每一个server都扮演着一个Partition的leaderserver，和其他Partition的followerserver。

Producers:

Producer能够依据自己的选择公布消息到一个主题，Producer也能够自己决定把消息公布到这个主题的哪个Partition，当然我们能够选择API提供的简单的分区选择算法，也能够自己去实现一个分区选择算法。

Consumers:

消息传递通常由两种模式，queuing（队列）和publish-subscribe （公布-订阅）

queuing：每一个Consumer从消息队列中取走一个消息
pub-scrib:消息被广播到每一个Consumer

Kafka通过提供了一个对Consumer的抽象来同一时候实现这两种模式-ConsumerGroup。Consumer实例须要给自己指定一个ConsumerGroup的名字，假设全部的实例都用同一个ConsumerGroup名字，那么这些Consumer就会以queuing的模式工作；假设全部的实例分别用的不同的ConsumerGroup名字，那么它们就以public-subscribe模式工作。

例如以下图所看到的：含两台server的集群一共同拥有p0~p3四个Partition，两个Consumer Group，在Group内部是以queuing的模式消费Partition，在Group之间是以pub-scrib模式消费。

消息顺序性：

Kafka是怎样确保消息消费的顺序性的呢？前面讲到过Partition，消息在一个Partition中的顺序是有序的，可是Kafka仅仅保证消息在一个Partition中有序，假设要想使整个topic中的消息有序，那么一个topic仅设置一个Partition就可以。

kafka具体解释一、Kafka简单介绍的更多相关文章

【Android 应用开发】 ActionBar 样式具体解释 -- 样式主题简单介绍 Actionbar 的 icon logo 标题菜单样式改动
作者 : 万境绝尘 (octopus_truth@163.com) 转载请著名出处 : http://blog.csdn.net/shulianghan/article/details/3926916 ...
kafka简单介绍
Kafka是分布式发布-订阅消息系统.它最初由LinkedIn公司开发,之后成为Apache项目的一部分.Kafka是一个分布式的,可划分的,冗余备份的持久性的日志服务.它主要用于处理活跃的流式数据. ...
Kafka具体解释二、怎样配置Kafka集群
Kafka集群配置比較简单,为了更好的让大家理解.在这里要分别介绍以下三种配置单节点:一个broker的集群单节点:多个broker的集群多节点:多broker集群一.单节点单broker实例 ...
Kafka监控工具kafka-monitor v0.1简要介绍
Kafka Monitor为Kafka的可视化管理与监控工具,为Kafka的稳定运维提供高效.可靠.稳定的保障,这里主要简单介绍Kafka Monitor的相关功能与页面的介绍: Kafka Moni ...
Kafka具体解释五、Kafka Consumer的底层API- SimpleConsumer
1.Kafka提供了两套API给Consumer The high-level Consumer API The SimpleConsumer API 第一种高度抽象的Consumer API,它使用 ...
【Apache Kafka】二、Kafka安装及简单示例
(一)Apache Kafka安装 1.安装环境与前提条件安装环境:Ubuntu16.04 前提条件: ubuntu系统下安装好jdk 1.8以上版本,正确配置环境变量 ubuntu系统下安 ...
Kafka学习笔记之Kafka背景及架构介绍
0x00 概述本文介绍了Kafka的创建背景,设计目标,使用消息系统的优势以及目前流行的消息系统对比.并介绍了Kafka的架构,Producer消息路由,Consumer Group以及由其实现的不 ...
kafka具体解释四：Kafka的设计思想、理念
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/suifeng3051/article/details/37606001 本节主要从总体角度 ...
《HTML 5网页开发实例具体解释》样章、内容简单介绍、前言
http://spu.jd.com/1167757597.html http://product.dangdang.com/23484942.html 样章 http://download.csdn. ...
Linux守护进程简单介绍和实例具体解释
Linux守护进程简单介绍和实例具体解释简单介绍守护进程(Daemon)是执行在后台的一种特殊进程.它独立于控制终端而且周期性地执行某种任务或等待处理某些发生的事件.守护进程是一种非常实用的进程. ...

随机推荐

spring MVC 与 struts 的区别
当初选框架的时候目的比较单纯---springmvc支持rest,小生对restful url由衷的喜欢不用不知道一用就发现开发效率确实比struts2高我们用struts2时采用的传统的配置文件 ...
使用IP访问Mantis显示空白页的解决办法
使用http://localhost/mantis/ 可成功访问Mantis,但使用IP地址:http://172.16.20.111/Mantis却访不了,显示“无法显示网页”. 在aphache中 ...
一个VLAN配置的实际例子
背景很简单,和一般的eth-switch通过VLAN做成路由的方式一样. 首先看一种硬件效率较高的方法: Port1~4作为access口,同时在硬件上作为用户模式,即从PC发往这些端口的数据 ...
python垃圾回收杂谈
当创建对象时Python立即向操作系统请求内存.每当对象的引用数减为0,Python垃圾回收器立刻挺身而出,立即将其释放,把内存还给操作系统.在Python中,每个对象都保存了一个称为引用计数的整数值 ...
Spark Streaming的编程模型
Spark Streaming的编程和Spark的编程如出一辙,对于编程的理解也非常类似.对于Spark来说,编程就是对于RDD的操作:而对于Spark Streaming来说,就是对DStream的 ...
Eclipse 中java跨工程调用类
在Eclipse中,有时候需要跨工程调用其他工程中的方法.如下面有两个Java Project : 如果要在A工程中调用B工程中的类,可以将B工程添加到A工程中: A---- >Build Pa ...
Objective-C-代码块Block回顾
OC中的代码块是iOS4.0+ 和Mac OS X 10.6+ 引进的对C语言的扩展,用来实现匿名函数的特性.类似于其他语言脚本语言或者编程语言中的闭包或者是Lambda表达式,可能第一眼看上去很怪异 ...
vue组件级路由钩子函数介绍，及实际应用
正如其名,vue-router 提供的导航钩子主要用来拦截导航,让它完成跳转或取消. 有多种方式可以在路由导航发生时执行钩子:全局的.单个路由独享的.或者组件级的. 一.全局钩子你可以使用 rout ...
解决PHP在Windows IIS 上传的图片无法访问的问题
最近在做一个网站项目遇到了一个很奇怪的问题,现记录下来希望可以帮助到其他的朋友问题描述: 最近公司刚刚在香港购买了一个Windows Server 2008 服务器用于将一个客户的N个php网站 ...
Ubuntu 或 UbuntuKyLin14.04 Unity桌面側边栏和顶层菜单条显示异常解决方法
近期一直想要回到Linux以下去开发,正好Ubuntu14.04桌面版系统在近期公布,所以趁此机会下载了最新版的Ubuntu版本号.并在虚拟机VMware软件上面搭建一改Ubuntu系统,因为眼下有适 ...

kafka具体解释一、Kafka简单介绍

kafka具体解释一、Kafka简单介绍的更多相关文章

随机推荐

热门专题