一场噩梦Redis集群又挂了(redis 集群 挂了)

2023-05-15 10:29:54 集群 挂了 噩梦

一场噩梦:Redis集群又挂了

作为一名程序员,对于程序在运行中发生问题非常担心,特别是对于重要的Redis集群来说更是如此。我们以前都了解到,Redis集群异常情况下会出现挂掉的情况。所以,每次Redis出现问题时,我总是特别容易发抖。

前一天,我们重新部署了Redis集群,粗略测试之后感觉一切正常,完全没有异常的情况出现,因此便放心的歇息了。但没想到,昨日一早我们却收到了网络报警:Redis集群又自动挂掉了。

我马上检查了Redis日志,发现其中带有一条JS异常,说明测试时并没有完整模拟真是环境,而是忽略掉了一些场景,该场景是一些特殊情况下才会发生,这就让Redis报错。

随后我们就马上采取了补救措施,并且把该bug修复了:通过设置 `JVM参数` 的 `MaxDirectMemorySize` 的大小来避免巨大的CPU资源消耗,并限制数据的大小。

同时,为了防止今后发生类似的情况,我们特意把模拟测试的场景变得更加多样,并在其中创建更完善的监控机制,以及调整GC策略等等改善。

最终虽然辛苦折腾了一个晚上,但Redis集群终于可以正常运行,我们也深知仅仅是一次,再不能出现类似的情况,否则可能会影响用户体验,破坏公司的形象。感谢今晚的努力,才让一场噩梦终于失去了它们平时所拥有的恐怖力量。

相关文章