6 月 27 日下午,有众多网友在微博中反馈阿里云平台出现了访问故障。我们从阿里云官网公告中了解到,故障的开始时间为 2018 年 6 月 27 日16: 21 左右,主要原因为,阿里云官网的部分管控功能,及MQ、NAS、OSS等产品的部分功能出现访问异常。不过,目前大部分功能已经恢复正常。
随后阿里云发表了一篇故障说明,说明中阿里云表示:对于这次故障,没有借口,我们不能也不该出现这样的失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付。
以下为阿里云故障说明原文:
6 月 27 日下午,我们在运维上的一个操作失误,导致一些客户访问阿里云官网控制台和使用部分产品功能出现问题,引发了大量吐槽。故障于北京时间 2018 年 6 月 27 日16: 21 左右开始,16: 50 分开始陆续恢复。
经过紧急技术复盘,故障原因如下:
当天下午,工程师团队在上线一个自动化运维新功能中,执行了一项变更验证操作。这一功能在测试环境验证中并未发生问题,上线到自动化运维系统后,触发了一个未知代码bug,错误代码禁用了部分内部IP,导致部分产品访问链路不通。后续人工介入后,工程师团队快速定位问题进行了恢复。
受影响方位包括阿里云官网控制台,以及MQ、NAS、OSS等产品功能。对于这次故障,没有借口,我们不能也不该出现这样的失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付。