Kafka-python 客户端导致的 cpu 使用过高，且无法消费消息的问题

今天遇到一个情况使用了 Kafka-python 1.3.3 来操作读取 broker 1.0.1 版本的 kafka。出现了 rebalance 之后分配到了客户端，但是 cpu 利用率很高且无法消费的情况。

先是排查了连接方面和代码方面的问题，后来发现都没有问题就把注意力转移到了 kafka-client 本身。

搜索相关问题首先搜到了 kafka-python issues 1033

When no module exists to handle Snappy decompression, the KafkaConsumer returns no messages, rather than reporting the problem. This differs from the legacy Consumer API which provides a much more useful error message.

Background

I was attempting to fetch some data from a Kafka topic which was using snappy compression. No data was ever returned even though I knew data was being landed in the topic (confirmed with the Kafka CLI tools). This had me very confused.

>>> consumer = kafka.KafkaConsumer("test", bootstrap_servers=["svr:9092"])

>>> consumer.poll(5000)

{}

I then attempted to use the legacy consumer API which pointed me to the exact problem.

>>> client = kafka.SimpleClient("svr:9092")

>>> consumer.close()

>>> consumer = kafka.SimpleConsumer(client, "group", "test")

>>> for message in consumer:

...     print(message)

...

Traceback (most recent call last):

  File "<stdin>", line 1, in <module>

  File "/usr/lib/python2.7/site-packages/kafka/consumer/simple.py", line 353, in __iter__

    message = self.get_message(True, timeout)

  File "/usr/lib/python2.7/site-packages/kafka/consumer/simple.py", line 305, in get_message

    return self._get_message(block, timeout, get_partition_info)

  File "/usr/lib/python2.7/site-packages/kafka/consumer/simple.py", line 320, in _get_message

    self._fetch()

  File "/usr/lib/python2.7/site-packages/kafka/consumer/simple.py", line 379, in _fetch

    fail_on_error=False

  File "/usr/lib/python2.7/site-packages/kafka/client.py", line 665, in send_fetch_request

    KafkaProtocol.decode_fetch_response)

  File "/usr/lib/python2.7/site-packages/kafka/client.py", line 295, in _send_broker_aware_request

    for payload_response in decoder_fn(future.value):

  File "/usr/lib/python2.7/site-packages/kafka/protocol/legacy.py", line 212, in decode_fetch_response

    for partition, error, highwater_offset, messages in partitions

  File "/usr/lib/python2.7/site-packages/kafka/protocol/legacy.py", line 219, in decode_message_set

    inner_messages = message.decompress()

  File "/usr/lib/python2.7/site-packages/kafka/protocol/message.py", line 121, in decompress

    assert has_snappy(), 'Snappy decompression unsupported'

AssertionError: Snappy decompression unsupported

All I needed to do was install the python-snappy module to handle the decompression.

pip install python-snappy

跟我目前遭遇的情况非常相似。

的确我看了一下 requiments 里面也确实没有安装 python-snappy。看了一下我使用的生产者也确实使用了 snappy 来压缩 message 。

python-kafka 在新版本中修复了这个问题，如果没有安装 python-snappy 将会把错误 raise 出来而不是让人不知所措。

所以我直接升级了 python-kafka 然后安装了 python-snappy 便可以愉快运行了！

Reference:

https://github.com/dpkp/kafka-python/issues/1033 KafkaConsumer Fails to Report Problem with Compression

https://github.com/dpkp/kafka-python/issues/1315 High CPU usage in KafkaConsumer.poll() when subscribed to many topics with no new messages (possibly SSL related)

Kafka-python 客户端导致的 cpu 使用过高，且无法消费消息的问题的更多相关文章

性能分析（3）- 短时进程导致用户 CPU 使用率过高案例
性能分析小案例系列,可以通过下面链接查看哦 https://www.cnblogs.com/poloyy/category/1814570.html 系统架构背景 VM1:用作 Web 服务器,来模拟 ...
Python操作rabbitmq系列（二）:多个接收端消费消息
今天,我们要逐步开始讨论rabbitmq稍微高级点的耍法了.了解这一步,对我们设计高并发的系统非常有用.当然,还可以使用kafka.不过还是算了,有几个硬性条件不支持,还是用rabbitmq吧. 循环 ...
Python操作rabbitmq系列（三）:多个接收端消费消息
接着上一章.这一章,我们要将同一个消息发给多个客户端.这就是发布订阅模式.直接看代码: 发送端: import pikaimport sys connection = pika.BlockingCon ...
kafka消费者客户端启动之后消费不到消息的原因分析
如果你发现你的一个消费者客户端A已经启动了,但是就是不消费消息,此时你应该检查一下该消费者所在的组中(ConsumerGroup)是否还有其他的消费者,topic的分区可能被组中其他的消费者线程抢走( ...
工具运行过程中，CPU占用过高的分析定位
之前使用Java Swing开发了一款设备档案收集工具.支持多台设备同时收集,每个设备使用一个线程.在同时收集多台设备信息时,发现CPU占用率居然达到了97%,而且高居不下.显然这样的性能是令人无法忍 ...
线上cpu使用率过高解决方案
一个应用占用CPU很高,除了确实是计算密集型应用之外,通常原因都是出现了死循环. 下面我们将一步步定位问题,详尽的介绍每一步骤的相关知识. 一.通过top命令定位占用cpu高的进程执行top命令得到 ...
Kafka 消费者到底是什么以及消费者位移主题到底是什么（Python 客户端 1.01 broker）
Kafka 中有这样一个概念消费者组,所有我们去订阅 topic 和 topic 交互的一些操作我们都是通过消费者组去交互的. 在 consumer 端设置了消费者的名字之后,该客户端可以对多个 to ...
我们使用 Kafka 生产者在发消息的时候我们关注什么（Python 客户端 1.01 broker）
之前使用 Kafka 的客户端消费者比较多一点,而且也是无脑订阅使用也没有深入了解过具体的参数.总的来说使用不够细节. 这次公司项目活动期间暴露非常多的问题,于是有了这篇文章. 首先我们来拆解一下 K ...
kafka消费者客户端（0.9.0.1API）
转自:http://orchome.com/203 kafka客户端从kafka集群消费消息(记录).它会透明地处理kafka集群中服务器的故障.它获取集群内数据的分区,也和服务器进行交互,允许消费者 ...

随机推荐

[Go] 使用go语言解决现代编程难题
1.计算机一直在演化,64核,128核等等,但是我们依旧在使用为单核设计的技术编程2.Go语言让分享自己的代码包更容易3.Go语言重新思考传统的面向对象,提供了更高效的复用代码手段4.Go不仅提供高性 ...
chrome设置网页编码
新版的 chrome 没有这个设置选项,可以借助插件 charset 插件实现,到 web store 搜索安装即可.
Java开发笔记（十七）各得其所的多路分支
前面提到条件语句的标准格式为“if (条件) { /* 条件成立时的操作代码 */ } else { /* 条件不成立时的操作代码 */ }”,乍看之下仿佛只有两个分支,一个是条件成立时的分支,另一个 ...
Java基础篇——线程、并发编程知识点全面介绍（面试、学习的必备索引）
原创不易,如需转载,请注明出处https://www.cnblogs.com/baixianlong/p/10739579.html,希望大家多多支持!!! 一.线程基础 1.线程与进程线程是指进程 ...
Maven（十五）Maven 聚合
聚合解决的问题: 解决每个模块之间都要一个一个安装,一键安装各个模块工程尤其时在配置继承后要先安装子模块在安装父,模块. 配置方式自己找一个工程作为聚合工程,配置好后在聚合工程上运行Maven i ...
2013年第四届蓝桥杯javaB组试题答案解析
1.世纪末的星期曾有邪教称1999年12月31日是世界末日.当然该谣言已经不攻自破. 还有人称今后的某个世纪末的12月31日,如果是星期一则会.... 有趣的是,任何一个世纪末的年份的12月31日都 ...
Java虚拟机学习笔记（一）
Java虚拟机运行时数据区域 Java虚拟机将其所管理的内存划分为若干个不同的数据区域.这些区域都有着各自的用途,以及创建和销毁时间.其中有一些会随着虚拟机启动而启动,随着虚拟机退出而销毁:有些则是与 ...
二次剩余Cipolla算法学习笔记
对于同余式 \[x^2 \equiv n \pmod p\] 若对于给定的\(n, P\),存在\(x\)满足上面的式子,则乘\(n\)在模\(p\)意义下是二次剩余,否则为非二次剩余我们需要计算的 ...
JQuery显示，隐藏和淡入淡出效果
为了把JQuery搞熟悉,看着菜鸟教程,一个一个例子打,边看边记,算是一晚上的一个小总结吧.加油,我很本但是我很勤奋啊.系统的了解它,就要花时间咯. <!DOCTYPE html> < ...
jQuery省市区三级联动菜单
<style> select{ padding:5px 0; } .outer{ width:500px; margin:20px auto; } </style> <d ...

Kafka-python 客户端导致的 cpu 使用过高，且无法消费消息的问题

Background

Kafka-python 客户端导致的 cpu 使用过高，且无法消费消息的问题的更多相关文章

随机推荐

热门专题