背景:4 月 11 日 12:50 开始系统访问异常,经确认是阿里云 RDS 数据库异常所致,10 分钟左右之后,数据库恢复访问。工单反馈问题,阿里云客服排查确认为“底层主机异常了,导致的闪断”。具体原因不明了。
问题:RDS 数据库闪断恢复之后,查看系统日志发现,时不时会有链接超时的错误日志。但又不是所有的 RDS 链接请求会超时。在提交工单反馈的情况下,检查了 RDS、ECS 的负载,网络请求环境,未发现任何异常,但是链接 RDS 的超时报错仍时不时出现。最终阿里云售后工程师给出的解决方案是重启试试。
ERR: SQLSTATE[HY000] [2006] MySQL server has gone away
ERR: SQLSTATE[HY000] [2002] Connection timed out
结果:在 4 月 12 日凌晨,业务低峰时进行了 RDS 重启操作,可能是因为业务低峰时请求量比较少的原因,重启耗时 2 分钟左右。重启成功之后观察系统情况,终于恢复正常。
