ואנחנו בטוחים שגיליתם את הבעיה שהשפיעה על הרשת ב- 28 בפברואר, בה לאחר קצת יותר מחמש שעות הושפעו מהסתיו הזה השירות וכמה יישומים. במקרה זה הבעיה מבוססת על ה- שירות S3 של שירותי האינטרנט של אמזון (AWS) וזה השפיע באופן מלא על קומץ טוב של שירותים כמו IFTT, אתר GIF Giphy, Trello או Hootsuite בקרב חברות רבות אחרות שמתארחות בשירות אחסון פשוט זה, מאמזון.
לעת עתה, מה שבררנו לאחר שהבעיה נפתרה הוא שלאחר החקירה שבוצעה על ידי אמזון, הגורם לבעיה היה טעות אנושית. חלק מהעובדים של אמזון S3 ביצעו משימות תחזוקה במערכת החיוב והיה צורך לסגור כמה שרתים, כפי שאתה יכול לחשוב, כל זה הסתיים די רע וזה שיותר שרתים נסגרו בצורה לא נכונה מהנדרש למשימה ולמשימה. תת מערכות נדרשות לא היו מסוגלות לאחזר מידע, אז השירות הפסיק לעבוד.
במובן זה, ולראות את גודל הבעיה, הדבר היחיד שהם יכלו היה פשוט להפעיל מחדש את המערכת כולה וזה כמובן לא נעשה תוך מספר דקות מכיוון שרבים מהתהליכים דורשים זמן רב יותר בגלל כמות המידע שהם מאחסנים. במובן זה בנוסף לכך, שרתים רבים מעולם לא הופעלו מחדש בעבר וזה השפיע עוד יותר על הפעלת השירות מחדש.
כעת יש לנו ספק אם ניתן לחזור על כך שוב שכן אמנם נכון שהמהנדס האחראי על משימת התחזוקה במערכת החיוב עשה את הדבר הנכון במדריך, אך בטעות הוא נגע במשהו שהוא לא אמור לגרום ל נפילת הרשת עשויה לקרות שוב בעתיד. מצד שני ואחרי הבעיה עכשיו יש חדש אפשרות אבטחה שבו המהנדסים לא יוכלו להשבית את השרתים ולוח המחוונים יהיה מערכת עצמאית מבית S3 כדי למנוע את זה קורה במשימת תחזוקה עתידית היפותטית.