为什么是kafka？

MQ在分布式场景下的应用已经非常广泛了。可是在全部的MQ使用场景中，大多都要求不能丢消息。意味着必须有持久化的能力，传统行业经常使用的activemq、rabbitmq尽管有持久化能力，无奈的是性能太低。扩展性太差。对于互联网公司来说，要么就去基于他们去扩展，要么就是自己研发一个新的MQ。自从kafka横空出世。唤醒了人们对高性能 MQ的追求。

实际上kafka0.8版本号已经脱胎换骨，再也不仅仅是适合日志收集的场景了，kafka在可靠性方面做了非常多改进。实际上kafka已经能够用在企业级应用里面了。

怎样达到高性能？

1、顺序写

磁盘的IO是全部应用性能的万恶之源。磁盘的顺序写能达到几百M每秒，而随机写仅仅有几十K，假设是一个千兆网卡，真实性能也就百M左右，可见，磁盘顺序写的威力巨大。

2、零拷贝

某些情况下，数据的传输是不须要经过应用程序的，能够降低数据在用户空间和系统空间的缓冲区进行copy，降低对cpu和网卡的消耗，这样能够获得非常好的性能。Linux下提供此功能的系统调用主要有sendfile、mmap、splice。

3、扩展性

假设要想突破单机的性能，必须拥有良好的扩展性，kafka能够在topic下建立partition，partition才是kafka的最小单位。这样就意味着同一个topic能够持久化到N台物理机上，仅仅要有足够的分区。

Kafka天生的分布式特性，差点儿能够无限的扩展。

实际上，kafka的吞吐量能够达到几万TPS，性能很高。而且扩展性如此高。在大并发、大数据量的场景下很适合。

怎么保证不丢消息？

丢消息主要有下面几个地方：

1、生产者发送消息。Kafka是採用ack机制保障的，假设消息没法送成功。也不会返回ack，所以。只要在生产者端做好重试机制就好。

怎样做好重试机制。又是一个很大的话题，此处不扩展开来。

Kafka服务端收到消息后能够直接拷贝到其它分片。成功后再通知生产者确定收到消息。就算不做同步的持久化，假设有三个节点，除非三个物理机同一时候宕机才会丢失数据。注意，这里假设不过kafka进程挂掉是不会丢数据的，操作系统会把数据持久化到磁盘。

2、Kafka存储的消息会不会丢失？kafka有定时删除策略，不以是否消费为前提，也就意味着没有经过消费的消息删除后就丢了，由于磁盘足够大。几天不删应该不是问题，假设几天的数据没有被消费你都没发现，那仅仅能怪你的监控系统太弱。或者你的应用量太小。出问题都没人发现，那也没有必要使用kafka。

3、消费消息。假设使用high level的api，全部消费者的信息都是存储在zookeeper中的，zookeeper的可靠性此处不必赘述。假设採用simple api。offset的可靠性要依赖于存储。务必小心。最好做充足的备份方案。

不管哪种方式，假设不能正常消费，你能够不去移动offset，这个地方全然能够自己控制。

有反复的消息怎么办？

尽管这样造成了反复消息的问题，可是这是非常难避免的，试想。像activeMQ那样，就算在服务端做了去重，消费时一样有可能会反复消费，不仅仅是在MQ中，就算你调用一个普通的服务接口，也有可能反复调用，最好的办法是通过业务尽量实现幂等性。比如添加唯一键。

从这些角度考虑。在互联网和大并发的企业级应用中，kafka会越来越重要，会被很多其它的人重视。就算是不用kafka，也会有跟kafka类似的架构模式、原理几乎相同的MQ,类似于rocketMQ。如今差的，就是被很多其它的企业使用。更复杂的场景证明。

为什么是kafka？的更多相关文章

Spark踩坑记——Spark Streaming+Kafka
[TOC] 前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark strea ...
消息队列 Kafka 的基本知识及 .NET Core 客户端
前言最新项目中要用到消息队列来做消息的传输,之所以选着 Kafka 是因为要配合其他 java 项目中,所以就对 Kafka 了解了一下,也算是做个笔记吧. 本篇不谈论 Kafka 和其他的一些消息 ...
kafka学习笔记：知识点整理
一.为什么需要消息系统 1.解耦: 允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束. 2.冗余: 消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险. ...
.net windows Kafka 安装与使用入门(入门笔记)
完整解决方案请参考: Setting Up and Running Apache Kafka on Windows OS 在环境搭建过程中遇到两个问题,在这里先列出来,以方便查询: 1. \Jav ...
kafka配置与使用实例
kafka作为消息队列,在与netty.多线程配合使用时,可以达到高效的消息队列
kafka源码分析之一server启动分析
0. 关键概念关键概念 Concepts Function Topic 用于划分Message的逻辑概念,一个Topic可以分布在多个Broker上. Partition 是Kafka中横向扩展和一 ...
Kafka副本管理—— 为何去掉replica.lag.max.messages参数
今天查看Kafka 0.10.0的官方文档,发现了这样一句话:Configuration parameter replica.lag.max.messages was removed. Partiti ...
Kafka：主要参数详解（转）
原文地址:http://kafka.apache.org/documentation.html ############################# System ############### ...
kafka
2016-11-13 20:48:43 简单说明什么是kafka? Apache kafka是消息中间件的一种,我发现很多人不知道消息中间件是什么,在开始学习之前,我这边就先简单的解释一下什么是消息 ...
Spark Streaming+Kafka
Spark Streaming+Kafka 前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端, ...

随机推荐

【转】Linux之printf命令
转自:http://blog.chinaunix.net/uid-9525959-id-2001528.html printf FORMAT [ARGUMENT]... printf OPTION [ ...
Spring Boot (26) RabbitMQ延迟队列
延迟消息就是指当消息被发送以后,并不想让消费者立即拿到消息,而是等待指定时间后,消费者才拿到这个消息进行消费. 延迟队列订单业务: 在电商/点餐中,都有下单后30分钟内没有付款,就自动取消订单. 短 ...
大数据插入Excel报错处理
发现问题: 最近运行程序时,发现了一个问题,就是在导出excel时,报了一下错误分析问题: 原来是由于NPOI这个动态库导致的,然后看了下版本,发现是1.2.5.然后百度了下,发现这个版本的NPOI ...
协程概念，原理及实现（c++和node.js实现）
协程什么是协程 wikipedia 的定义: 协程是一个无优先级的子程序调度组件,允许子程序在特点的地方挂起恢复. 线程包含于进程,协程包含于线程.只要内存足够,一个线程中可以有任意多个协程,但某一 ...
话说：Hibernate二级缓存
Hibernate缓存分类: 一.Session缓存(又称作事务缓存):Hibernate内置的,不能卸除. 缓存范围:缓存只能被当前Session对象访问.缓存的生命周期依赖于Session的生命周 ...
[转][IPC通信]基于管道的popen和pclose函数
标准I/O函数库提供了popen函数,它启动另外一个进程去执行一个shell命令行. 这里我们称调用popen的进程为父进程,由popen启动的进程称为子进程. popen函数还创建一个管道用于父子进 ...
Android studio在使用过程中的问题总汇！
使用android studio也有一段时间了,汇总了一下这段时间内遇到一些常见问题,希望能够帮助到大家! 一.字体大小问题在android studio的使用过程中没有发现类似于Eclipse中的 ...
汇总——WEB前端资源网
前端攻城师爱思资源网 HTML5吧 0101后花园前端网编程教程和源代码示例 Javascript中文网 Web前端资源网移动端HTML5资源整理 Web开发者 SegmentFault 前端 ...
cookie范例
GET /locate/api/getLocByIp?key=C6E22B7D480E3312C74EC7EF013E50C5&callback=bowlder.cb._0 HTTP/1.1 ...
C# Tuple 创建一个新二元集合
List<string> list1=new List<string>(); List<string> list2=new List<string>() ...

为什么是kafka？

为什么是kafka？的更多相关文章

随机推荐

热门专题