我們確信您已於 28 月 XNUMX 日發現了影響網絡的問題,僅五個多小時後,服務和一些應用程序就受到了今年秋季的影響。 在這種情況下,問題是基於 亞馬遜網絡服務 (AWS) S3 服務 它完全影響了許多服務,例如 IFTT、Giphy GIF 網站、Trello 或 Hootsuite 以及託管在 Amazon Simple Storage Service 上的許多其他公司。
目前,問題解決後我們可以清楚的是,經過亞馬遜的調查,問題的原因是人為錯誤。 一些 Amazon S3 工作人員在計費系統中執行維護任務,需要關閉一些服務器,正如您可能想的那樣,這一切都以非常糟糕的方式結束,那就是錯誤地關閉了超出任務所需的服務器,並且必要的子系統無法檢索信息。 所以服務停止工作.
從這個意義上說,看到問題的嚴重性,他們唯一能做的就是重新啟動整個系統,這顯然不可能在幾分鐘內完成,因為許多進程由於存儲的信息量而需要更多時間。 從這個意義上說,除此之外, 許多服務器以前從未重新啟動過 這進一步影響了服務的重新啟動。
現在我們剩下的問題是否會再次發生這種情況,因為負責計費系統維護任務的工程師確實按照手冊做了正確的事情,但誤觸了不該觸碰的東西,導致網絡癱瘓,但將來可能會再次發生這種情況。 另一方面,在問題之後,現在有一個新的 安全選項 工程師將無法禁用服務器 儀表板將是一個獨立於 S3 的系統,以避免在假設的未來維護任務中發生同樣的事情。