Tuesday 2018-04-03

响应异常

为不断提高整体服务质量,我们在 4 月 3 日凌晨 1 点 30 分升级了消息队列系统,上线观察 1 小时,各项指标正常。但自上午 10 点 10 分开始,appserver 的内存消耗和 IO 消耗都超出了阈值,从而导致 appserver 响应缓慢,部分 server 宕机;我们的值班工程师发现问题后立即进行排查,并启用紧急恢复预案,在 10 点 31 分恢复服务。整体影响时间为 21 分钟。

事故原因经分析,为消息队列系统在应对任务队列长度增长时,存在内存泄漏的情况,我们的工程师已定位到问题,并做了修复。