Kafka消息积压

一、事故现场

当天风和日丽,正在开(chou)开(mei)心(ku)心(lian)的排查bug,客户突然告警,某个引擎需要下发的数据没有推送,由于刚巧重启过服务,事故日志未保留,本地也未持久化相关日志,导致事故现场未保留,也不知道具体原因。

二、解决方案

  1. 由于此引擎作用为从Kafka消费消息,然后通过http或者Kafka的方式推送给下游,导致事故发生时积压了很多数据,因为决定先增加日志并重启服务,消费数据,观测有没有其他原因。
  2. 重启后发现消息消费一部分后阻塞,于是扩充资源,怀疑是资源引起的服务down掉,扩充资源后,服务正常。

三、事故总结

由于日志未备份,且刚好随意操作,导致事故日志未保留,这存在很大的隐患,无法确定当时事故发生的具体原因,经过考虑,可能是由于某个协程泄漏或者是内存逃逸导致,后续将会对这一服务进行压测,确定在大流量情况下是否还有类似情况发生,并确定资源阈值。


Kafka消息积压
https://www.zengzx.xyz/2023/03/17/02.记录/01.生产事故/01-Kafka消息积压/
作者
Eden
发布于
2023年3月17日
许可协议