之前网上关于确定Kafka分区数的博客多多少少都源自于饶军大神的文章,如今他带来了这方面的第二篇文章,特此翻译一下,记录一下其中的要点. 原贴地址: https://www.confluent.io/blog/apache-kafka-supports-200k-partitions-per-cluster Kafka中topic可以设置多个分区,而分区是最小的并行度单位.通常而言,分区数越多吞吐量也越高.但是依然有很多因素制约了一个Kafka集群所能支持的最大分区数.我现在高兴地宣布Kafka…
Kafka支持单集群20万分区 之前网上关于确定Kafka分区数的博客多多少少都源自于饶军大神的文章,如今他带来了这方面的第二篇文章,特此翻译一下,记录一下其中的要点. 原贴地址: https://www.confluent.io/blog/apache-kafka-supports-200k-partitions-per-cluster Kafka中topic可以设置多个分区,而分区是最小的并行度单位.通常而言,分区数越多吞吐量也越高.但是依然有很多因素制约了一个Kafka集群所能支持的最大分…
单集群10万节点 走进腾讯云分布式调度系统VStation https://www.sohu.com/a/227223696_355140 2018-04-04 08:18 云计算并非无中生有的概念,它将普通的单台 PC计算能力通过分布式调度软件连接起来.其最核心的问题是如何把一百台.一千台.一万台机器高效地组织起来,灵活进行任务调度和管理,从而像使用单台机器一样方便地使用多台机器.目前,业界已存在多种分布式调度实现方案,比较知名的有 Hadoop YARN.Mesos.Google Borg…
一直在思考写一些什么东西作为2017年开篇博客.突然看到一篇<Kafka学习之路>的博文,觉得十分应景,于是决定搬来这“他山之石”.虽然对于Kafka博客我一向坚持原创,不过这篇来自Confluent团队Gwen Shapira女士的博文实在精彩,所以还是翻译给大家,原文参见这里. ~~~~~~~~~~~~ Kafka学习之路 看上去很多工程师都已经把“学习Kafka”加到了2017年的to-do列表中.这没什么惊讶的,毕竟Apache Kafka已经是一个很火的框架了.只需了解一些基本的Ka…
最近思路有些枯竭,找些务虚的话题来凑.本文内容完全来自于Martin Kelppmann在2019年Kafka伦敦峰会上的演讲.顺便提一句,Kelppmann是<Designing Data-Intensive Applications>的作者.提起DDIA的大名想必各位应该是有所耳闻的. Apache Kafka是数据库吗?你可能会觉得奇怪,Kafka怎么可能是数据库呢?它没有schema,也没有表,更没有索引.它仅仅是生产消息流.消费消息流而已.从这个角度来说Kafka的确不像数据库,至少…
今天带来一篇译文“调优Apache Kafka集群”,里面有一些观点并无太多新颖之处,但总结得还算详细.该文从四个不同的目标出发给出了各自不同的参数配置,值得大家一读~ 原文地址请参考:https://www.confluent.io/blog/optimizing-apache-kafka-deployment/ ========================================== Apache Kafka是当前最好的企业级流式处理平台.把你的应用程序链接到Kafka集群,剩下…
必读 | 大规模使用 Apache Kafka 的20个最佳实践 配图来源:书籍<深入理解Kafka> Apache Kafka是一款流行的分布式数据流平台,它已经广泛地被诸如New Relic(数据智能平台).Uber.Square(移动支付公司)等大型公司用来构建可扩展的.高吞吐量的.且高可靠的实时数据流系统.例如,在New Relic的生产环境中,Kafka群集每秒能够处理超过1500万条消息,而且其数据聚合率接近1 Tbps. 可见,Kafka大幅简化了对于数据流的处理,因此它也获得了…
本文作者是一位软件工程师,他对20位开发人员和数据科学家使用Apache Kafka的方式进行了最大限度得深入研究,最终将生产实践环节需要注意的问题总结为本文所列的20条建议. Apache Kafka是一个广受欢迎的分布式流媒体平台,New Relic.Uber以及Square等数千家公司都在使用它构建可扩展.高吞吐量.可靠的实时流媒体系统.例如,New Relic的Kafka集群每秒处理超过1500万条消息,总数据速率接近1 Tbps. Kafka在应用程序开发人员和数据科学家中非常受欢迎,…
“腾百万”之后,腾讯的云操作系统VStation单集群调度达10万台 https://www.leiphone.com/news/201909/4BsKCJtvvUCEb66c.html 腾讯有超过100万台服务器.. 阿里应该也差不多了吧 本文作者:王刚 2019-09-19 09:03 导语:对话腾讯云硬件与虚拟化团队 今年5月,腾讯全网服务器总量迈过100万台里程碑,成为中国首家服务器总量超过百万的公司,也是全球五家服务器数量过百万的公司之一.同时,今年腾讯的带宽峰值也突破100T. 而在…
公众号关注 「开源Linux」 回复「学习」,有我为您特别筛选的学习资料~ Kafka基础 消息系统的作用 应该大部分小伙伴都清楚,用机油装箱举个例子. 所以消息系统就是如上图我们所说的仓库,能在中间过程作为缓存,并且实现解耦合的作用. 引入一个场景,我们知道中国移动,中国联通,中国电信的日志处理,是交给外包去做大数据分析的,假设现在它们的日志都交给了你做的系统去做用户画像分析. 按照刚刚前面提到的消息系统的作用,我们知道了消息系统其实就是一个模拟缓存,且仅仅是起到了缓存的作用而并不是真正的缓存…