また、28月XNUMX日にネットワークに影響を与えた問題について、XNUMX時間強後にサービスと一部のアプリケーションがこの秋に影響を受けたことがわかったと確信しています。 この場合、問題は アマゾンウェブサービス(AWS)S3サービス また、このSimple Storage Serviceでホストされている、AmazonのIFTT、GIF Giphy Webサイト、Trello、Hootsuiteなどのいくつかのサービスに完全に影響を与えました。
今のところ、問題が解決された後、Amazonが調査を行った後、問題の原因は人為的ミスであったことが明らかです。 一部のAmazonS3ワーカーは課金システムでメンテナンスタスクを実行しており、一部のサーバーを閉じる必要がありました。ご想像のとおり、これはすべて非常にひどく終了し、タスクに必要な数よりも多くのサーバーが間違った方法で閉じられました。必要なサブシステムは情報を取得できませんでした、 そのため、サービスは機能しなくなりました.
この意味で、問題の大きさを見ると、彼らができることは単にシステム全体を再起動することだけでした。多くのプロセスは保存する情報の量のためにより多くの時間を必要とするため、これは明らかに数分で完了しません。 この意味で、これに加えて、 多くのサーバーはこれまで再起動されたことがありませんでした これはさらにサービスの再アクティブ化に影響を及ぼしました。
課金システムの保守作業を担当する技術者がマニュアルについて正しいことをしたのは事実ですが、誤って触ってはいけないことに触れてしまったので、これをもう一度繰り返すことができるかどうか疑問に思います。ネットワークの崩壊は、将来再び起こる可能性があります。 一方、問題の後には新しいものがあります セキュリティオプション エンジニアはサーバーを非アクティブ化できなくなります ダッシュボードはS3から独立したシステムになり、仮想の将来のメンテナンスタスクで同じことが起こらないようにします。