并且我们确定您在28月XNUMX日发现了影响网络的问题,该问题在短短五个多小时后就受到了今年秋天的影响。 在这种情况下,问题是基于 Amazon Web Services(AWS)S3服务 并且完全影响了Amazon的这项简单存储服务中托管的许多其他服务,例如IFTT,GIF Giphy网站,Trello或Hootsuite。
就目前而言,问题解决后对我们来说很清楚的是,在亚马逊进行调查之后,问题的原因已经是人为错误。 一些Amazon S3工作人员正在账单系统上执行维护任务,您可能要关闭一些服务器,正如您可能会想到的那样,这一切都非常糟糕,并且以错误的方式关闭了更多的服务器,而不是任务所必需的。必要的子系统无法检索信息, 因此服务停止工作.
从这个意义上讲,看到问题的严重性,他们唯一可以做的就是简单地重新启动整个系统,并且显然这不会在几分钟之内完成,因为许多过程由于它们存储的信息量而需要更多的时间。 从这个意义上来说, 许多服务器之前从未重启过 这进一步影响了服务的重新激活。
现在,我们怀疑是否可以再次重复该步骤,因为尽管计费系统中负责维护任务的工程师确实对手册进行了正确的操作,但是由于失误他碰到了一些他不应引起的错误。网络的崩溃可能在将来再次发生。 另一方面,在出现问题之后,现在有了新的 安全选项 在这种情况下,工程师将无法停用服务器 仪表板将是与S3无关的独立系统,以防止在未来的假设维护任务中发生此情况。