Kafka-python 客户端导致的 cpu 使用过高，且无法消费消息的问题

今天遇到一个情况使用了 Kafka-python 1.3.3 来操作读取 broker 1.0.1 版本的 kafka。出现了 rebalance 之后分配到了客户端，但是 cpu 利用率很高且无法消费的情况。

先是排查了连接方面和代码方面的问题，后来发现都没有问题就把注意力转移到了 kafka-client 本身。

搜索相关问题首先搜到了 kafka-python issues 1033

When no module exists to handle Snappy decompression, the KafkaConsumer returns no messages, rather than reporting the problem. This differs from the legacy Consumer API which provides a much more useful error message.

Background

I was attempting to fetch some data from a Kafka topic which was using snappy compression. No data was ever returned even though I knew data was being landed in the topic (confirmed with the Kafka CLI tools). This had me very confused.

>>> consumer = kafka.KafkaConsumer("test", bootstrap_servers=["svr:9092"])

>>> consumer.poll(5000)

{}

I then attempted to use the legacy consumer API which pointed me to the exact problem.

>>> client = kafka.SimpleClient("svr:9092")

>>> consumer.close()

>>> consumer = kafka.SimpleConsumer(client, "group", "test")

>>> for message in consumer:

...     print(message)

...

Traceback (most recent call last):

  File "<stdin>", line 1, in <module>

  File "/usr/lib/python2.7/site-packages/kafka/consumer/simple.py", line 353, in __iter__

    message = self.get_message(True, timeout)

  File "/usr/lib/python2.7/site-packages/kafka/consumer/simple.py", line 305, in get_message

    return self._get_message(block, timeout, get_partition_info)

  File "/usr/lib/python2.7/site-packages/kafka/consumer/simple.py", line 320, in _get_message

    self._fetch()

  File "/usr/lib/python2.7/site-packages/kafka/consumer/simple.py", line 379, in _fetch

    fail_on_error=False

  File "/usr/lib/python2.7/site-packages/kafka/client.py", line 665, in send_fetch_request

    KafkaProtocol.decode_fetch_response)

  File "/usr/lib/python2.7/site-packages/kafka/client.py", line 295, in _send_broker_aware_request

    for payload_response in decoder_fn(future.value):

  File "/usr/lib/python2.7/site-packages/kafka/protocol/legacy.py", line 212, in decode_fetch_response

    for partition, error, highwater_offset, messages in partitions

  File "/usr/lib/python2.7/site-packages/kafka/protocol/legacy.py", line 219, in decode_message_set

    inner_messages = message.decompress()

  File "/usr/lib/python2.7/site-packages/kafka/protocol/message.py", line 121, in decompress

    assert has_snappy(), 'Snappy decompression unsupported'

AssertionError: Snappy decompression unsupported

All I needed to do was install the python-snappy module to handle the decompression.

pip install python-snappy

跟我目前遭遇的情况非常相似。

的确我看了一下 requiments 里面也确实没有安装 python-snappy。看了一下我使用的生产者也确实使用了 snappy 来压缩 message 。

python-kafka 在新版本中修复了这个问题，如果没有安装 python-snappy 将会把错误 raise 出来而不是让人不知所措。

所以我直接升级了 python-kafka 然后安装了 python-snappy 便可以愉快运行了！

Reference:

https://github.com/dpkp/kafka-python/issues/1033 KafkaConsumer Fails to Report Problem with Compression

https://github.com/dpkp/kafka-python/issues/1315 High CPU usage in KafkaConsumer.poll() when subscribed to many topics with no new messages (possibly SSL related)

Kafka-python 客户端导致的 cpu 使用过高，且无法消费消息的问题的更多相关文章

性能分析（3）- 短时进程导致用户 CPU 使用率过高案例
性能分析小案例系列,可以通过下面链接查看哦 https://www.cnblogs.com/poloyy/category/1814570.html 系统架构背景 VM1:用作 Web 服务器,来模拟 ...
Python操作rabbitmq系列（二）:多个接收端消费消息
今天,我们要逐步开始讨论rabbitmq稍微高级点的耍法了.了解这一步,对我们设计高并发的系统非常有用.当然,还可以使用kafka.不过还是算了,有几个硬性条件不支持,还是用rabbitmq吧. 循环 ...
Python操作rabbitmq系列（三）:多个接收端消费消息
接着上一章.这一章,我们要将同一个消息发给多个客户端.这就是发布订阅模式.直接看代码: 发送端: import pikaimport sys connection = pika.BlockingCon ...
kafka消费者客户端启动之后消费不到消息的原因分析
如果你发现你的一个消费者客户端A已经启动了,但是就是不消费消息,此时你应该检查一下该消费者所在的组中(ConsumerGroup)是否还有其他的消费者,topic的分区可能被组中其他的消费者线程抢走( ...
工具运行过程中，CPU占用过高的分析定位
之前使用Java Swing开发了一款设备档案收集工具.支持多台设备同时收集,每个设备使用一个线程.在同时收集多台设备信息时,发现CPU占用率居然达到了97%,而且高居不下.显然这样的性能是令人无法忍 ...
线上cpu使用率过高解决方案
一个应用占用CPU很高,除了确实是计算密集型应用之外,通常原因都是出现了死循环. 下面我们将一步步定位问题,详尽的介绍每一步骤的相关知识. 一.通过top命令定位占用cpu高的进程执行top命令得到 ...
Kafka 消费者到底是什么以及消费者位移主题到底是什么（Python 客户端 1.01 broker）
Kafka 中有这样一个概念消费者组,所有我们去订阅 topic 和 topic 交互的一些操作我们都是通过消费者组去交互的. 在 consumer 端设置了消费者的名字之后,该客户端可以对多个 to ...
我们使用 Kafka 生产者在发消息的时候我们关注什么（Python 客户端 1.01 broker）
之前使用 Kafka 的客户端消费者比较多一点,而且也是无脑订阅使用也没有深入了解过具体的参数.总的来说使用不够细节. 这次公司项目活动期间暴露非常多的问题,于是有了这篇文章. 首先我们来拆解一下 K ...
kafka消费者客户端（0.9.0.1API）
转自:http://orchome.com/203 kafka客户端从kafka集群消费消息(记录).它会透明地处理kafka集群中服务器的故障.它获取集群内数据的分区,也和服务器进行交互,允许消费者 ...

随机推荐

37.QT-QTSingleApplication-程序只运行一个实例
QTSingleApplication由Qt官方提供的,用于实现只启动一个实例,并在启动时可以向向另一个实例通信(依赖于QtNetwork模块) QTSingleApplication下载路径:链接: ...
apache tomcat的下载安装配置
大家好!欢迎浏览我的博客我们现在学习怎么下载,安装,配置apache-tomcat. 首先我们先了解一下Tomcat,Tomcat是Apache 软件基金会(Apache Software Foun ...
MySQL优化COUNT()查询
COUNT()聚合函数,以及如何优化使用了该函数的查询,很可能是最容易被人们误解的知识点之一 COUNT()的作用 COUNT()是一个特殊的函数,有两种非常不同的作用: 统计某个列值的数量统计行数 ...
Django学习之一：Install Djongo 安装Djongo
Install Djongo 安装Djongo Djongo是基于python的web框架,自然安装最关心的是python解释器版本了. Prerequisites 安装条件 Python版本与Djo ...
前端导出excel数据-jsonToExcel
咳咳,好久没有写博了... 在工作中遇到了纯前端,将数据导出为excel文件.正文开始: 第一步安装依赖: npm i xlsx 第二步写导出函数: import XLSX from 'xlsx' ...
[Android framework学习] ViewGroup的addView函数分析
博客首页:http://www.cnblogs.com/kezhuang/p/ Android中整个的View的组装是采用组合模式. ViewGroup就相当与树根,各种Layout就相当于枝干,各种 ...
Python使用Plotly绘图工具，绘制水平条形图
水平条形图与绘制柱状图类似,大家可以先看看我之前写的博客,如何绘制柱状图水平条形图需要在Bar函数中设置orientation= 'h' 其他的参数与柱状图相同.也可以通过设置barmode = ' ...
从 RAID 到 Hadoop Hdfs 『大数据存储的进化史』
我们都知道现在大数据存储用的基本都是 Hadoop Hdfs ,但在 Hadoop 诞生之前,我们都是如何存储大量数据的呢?这次我们不聊技术架构什么的,而是从技术演化的角度来看看 Hadoop Hdf ...
ICD
International Classification of Diseases,ICD 国际疾病分类
selenium-获取元素属性（六）
获取元素属性很简单,使用 get_attribute 方法即可如下图获取具体的属性直接将该属性名当作参数传入即可若是获取值,则获取的实则是该元素的 value,需要将 value 当参数传入 i ...

Kafka-python 客户端导致的 cpu 使用过高，且无法消费消息的问题

Background

Kafka-python 客户端导致的 cpu 使用过高，且无法消费消息的问题的更多相关文章

随机推荐

热门专题