前腾讯T3架构师分享:记一次 Kafka 集群线上扩容

2020-05-27 00:00:00 数据 集群 分区 分配 副本

欢迎关注专栏《Java架构筑基》——专注于Java技术的研究与分享!

Java架构筑基zhuanlan.zhihu.com
  • Java架构筑基——专注于Java技术的研究与分享!
  • 后续文章将此专栏!
  • 欢迎各位Java工程师朋友投稿和关注

前段时间收到某个 Kafka 集群的生产客户端反馈发送消息耗时很高,于是花了一段时间去排查这个问题,后该集群进行扩容,由于某些主题的当前数据量实在太大,在对这些主题迁移过程中花费了很长一段时间,不过这个过程还算顺利,因为在迁移过程中也做足了各方面的调研,包括分区重平衡过程中对客户端的影响,以及对整个集群的性能影响等,特此将这个过程总结一下,也为双十一打了一剂强心剂。

一、排查问题与分析

接到用户的反馈后,我用脚本测试了一遍,并对比了另外一个正常的 Kafka 集群,发现耗时确实很高,接下来

经过排查,发现有客户端在频繁断开与集群节点的连接,发现日志频繁打印如下内容:

Attempting to send response via channel for which there is no open connection, connection id xxx(kafka.network.Processor)

相关文章