阿里云kafka消息写入topic失败

原创已于 2024-09-19 16:18:27 修改 · 1.3k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#阿里云 #kafka

于 2024-09-19 16:17:22 首次发布

kafka故障记录专栏收录该内容

1 篇文章

订阅专栏

1. 问题现象描述

20240918,14:22，测试反馈说kafka有问题，生产者写入消息的时候报错，并发了一张日志截图，主要报错如下：
to topic xxxx: org.apache.kafka.common.errors.TimeoutException: Expiring 1 record(s) for xxxx-0:120000 ms has passed since batch creation。

The cloud topic xxxx-0 dose not support idempotent and transaction, please use the local topic

第一条报错的大概意思是写入超时，也就是网络有问题。第二条报错是说topic不支持幂等和事务，请使用本地topic。

2. 排查过程

2.1 检查网络环境

这个kafka实例是用的阿里云的，服务和配置我都检查过，一个多月没改动了，但还是根据报错检查一下，我先自行在pod中telnet了一下kafka实例的地址，检查了白名单，随后又按照阿里云官方提供的检查方式，检查了网络、生产、消费等方面，都显示正常。

2.2 检查kafka topic存储类型

阿里云上的kafka，创建topic时，可选的存储是云存储和local存储，我这边所有的topic默认都是使用的云存储，但是根据云厂商的回复，客户端版本如果使用3.0及以上的话，是没有办法使用幂等的，就会导致消息发送失败，刚好我问了一下开发，说用的是3.7.1，但开发说已经关闭了幂等功能。
好吧，到这里排查不下去了，准备抓包。

2.3 测试写入其他topic

这里让开发改了一下代码，看看写入其他topic是否正常，测试结果没问题，写其他topic能写。

2.4 抓包

这里把版本回滚到了消息写入异常的这一版，pod中用tcpdump 抓和kafka通信的包，让开发手动触发消息写入，报文截图如下:
在这里插入图片描述
可以看到上面kafka客户端版本是3.7.0，我寻思这跟开发说的一不一样的，于是把版本发到能够正常写入消息的这一版，继续抓包，报文如下：

新发现，能写的这个客户端是3.7.1，随后反馈给开发。