Thursday 2019-09-26

部分请求发生网关内部错误

北京时间 6 点 10 分开始,网关自动扩容过程中,部分机器开始使用新的 AMI。随后开始出现部分请求返回 500 错误码,随着扩容的进行,在 7 点 20 分,接近 35% 的 hserve 请求出现异常。该问题影响客户端接口,控制台不受影响。工程师接报警后介入,经排查,系新的 AMI 的 QoS 流量保护模块存在兼容性问题。工程师启动紧急措施,对受影响的机器进行替换,自 7 点 30 分开始,异常请求逐步恢复,到 8 点 28 分完全恢复正常。

该问题的产生有两个主要原因:

  1. AMI 上线投产的测试不完备;
  2. LB 的异常请求报警敏感度存在问题。

接下来我们将针对该问题作出如下改进计划:

  1. 制定更加严格的 AMI 上线投产流程,覆盖更细力度的冒烟测试,最大程度保障服务可用;
  2. 立即调整 LB 的异常请求报警,确保第一时间发现问题处理问题。

因此带来的影响我们深表歉意。