ผลกระทบจากการขัดข้องของ AWS: ชุมชนตั้งคำถามถึงความน่าเชื่อถือของระบบคลาวด์และปรากฏการณ์ "Brain Drain"

ทีมชุมชน BigGo

ผลกระทบจากการขัดข้องของ AWS: ชุมชนตั้งคำถามถึงความน่าเชื่อถือของระบบคลาวด์และปรากฏการณ์ "Brain Drain"

เหตุขัดข้องของ AWS เป็นเวลา 14 ชั่วโมงในภูมิภาค us-east-1 ส่งผลกระทบเป็นวงกว้างในชุมชนเทคโนโลยี ก่อให้เกิดการอภิปรายอย่างเข้มข้นเกี่ยวกับความน่าเชื่อถือของระบบคลาวด์ การออกแบบระบบ และคำถามว่าปัญหาการรักษาบุคลากรมีส่วนทำให้กระบวนการกู้คืนระบบล่าช้าหรือไม่ ในขณะที่รายงานทางการอธิบายถึงความล้มเหลวทางเทคนิคใน DynamoDB, EC2 และ Network Load Balancers ปฏิกิริยาจากชุมชนกลับเผยให้เห็นความกังวลที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับแนวปฏิบัติพื้นฐานของผู้ให้บริการคลาวด์รายใหญ่


ไทม์ไลน์ของปัญหาต่างๆ ที่เกิดขึ้นระหว่างการล่มของ AWS เมื่อวันที่ 20 ตุลาคม

ทฤษฎีการย้ายออกของบุคลากรได้รับความสนใจ

หัวข้อสำคัญในการสนทนาของชุมชนคือ การย้ายออกของวิศวกรระดับสูงจาก AWS อาจมีส่วนทำให้เหตุขัดข้องยาวนานถึง 14 ชั่วโมง ผู้แสดงความคิดเห็นระบุว่า แม้การขัดข้องจะเป็นสิ่งที่คาดหมายได้ในระบบที่ซับซ้อน แต่กระบวนการกู้คืนที่ล่าช้ากลับทำให้เกิดคำถาม ความกังวลไม่ใช่ว่าเกิดเหตุขัดข้องขึ้น แต่คือการใช้เวลาแก้ไขนานเกินไป ซึ่งชี้ให้เห็นถึงช่องว่างของความรู้เชิงสถาบันที่อาจเกิดขึ้น ดังที่ผู้แสดงความคิดเห็นหนึ่งระบุว่า คนภายใน AWS บอกว่านั่นไม่ถูกต้องเสียทีเดียว เมื่อพูดถึงว่าบุคคลากรสำคัญซึ่งเข้าใจระบบดีที่สุดได้จากไปแล้ว ทฤษฎีนี้ได้รับความสนใจมากพอที่ Corey Quinn ผู้ให้ความเห็นในแวดวงอุตสาหกรรมเขียนบทความเฉพาะเพื่อตอบคำถามเรื่อง Amazon brain drain แม้หลักฐานที่เป็นรูปธรรมจะยังมีไม่มาก


ผู้เชี่ยวชาญในอุตสาหกรรมมีส่วนร่วมในการอภิปรายเกี่ยวกับผลกระทบจากเหตุการณ์ AWS ล่มครั้งล่าสุด

ตั้งคำถามกับโมเดลภูมิภาคเดี่ยวขนาดมหึมา

ขนาดอันมหาศาลของ us-east-1 ถูกนำมาตรวจสอบ โดยสมาชิกชุมชนเสนอแนะว่าขนาดที่ ใหญ่ยักษ์ ของภูมิภาคนี้กลับทำงานสวนทางกับเป้าหมายความน่าเชื่อถือของ AWS การอภิปรายเน้นย้ำว่า ในขณะที่ AWS ใช้การทำงานเสมือนบางส่วนเพื่อกระจายโหลดอยู่แล้ว — โดยสิ่งที่ลูกค้าหนึ่งมองเห็นเป็น us-east-1a อาจเป็น us-east-1c สำหรับลูกค้าอีกคน — ปัญหาพื้นฐานยังคงอยู่ที่ us-east-1 เป็นจุดล้มเหลวจุดเดียวสำหรับอินเทอร์เน็ตส่วนใหญ่ ผู้แสดงความคิดเห็นเสนอว่าการกำหนดขีดจำกัดขนาดภูมิภาคอย่างเข้มงวด หรือการแบ่ง us-east-1 ออกเป็นหลายภูมิภาคที่เล็กกว่าอาจช่วยจำกัดความล้มเหลวในอนาคตได้ อย่างไรก็ตาม บางส่วนแย้งว่าการแยกภูมิภาคในเหตุการณ์นี้ไม่ได้ล้มเหลวจริง ๆ และทางเลือกที่จะปรับใช้ที่อื่นมีอยู่แล้วด้วยภูมิภาคอย่าง us-east-2 ที่ยังไม่ได้รับผลกระทบ

us-east-1 รู้สึกเหมือนเป็นจุดล้มเหลวจุดเดียวสำหรับอินเทอร์เน็ตครึ่งหนึ่ง

การอภิปรายระหว่างทฤษฎีการควบคุมกับการนำไปปฏิบัติจริง

โซลูชันทางเทคนิคครอบงำการสนทนาส่วนใหญ่ โดยเฉพาะอย่างยิ่งเกี่ยวกับการป้องกันความล้มเหลวแบบลูกโซ่ แนวคิดเรื่องทฤษฎีการควบคุมและการนำกลไกการตอบสนองต่อโหลดมาใช้ได้รับความสนใจอย่างมาก แนวคิดนี้เสนอว่าบริการต้นทางควรส่งกลับข้อมูลโหลดไปยังบริการปลายทาง เพื่อเปิดใช้งานการจำกัดการใช้งานอัตโนมัติในช่วงที่ระบบมีความเครียด อย่างไรก็ตาม วิศวกรที่มีประสบการณ์ชี้ให้เห็นถึงความท้าทายในการนำไปปฏิบัติในทันที โดยระบุว่าบริการทุกอย่างมีสถาปัตยกรรมที่แตกต่างและเป็นเอกลักษณ์ และการให้ตัวเลขเชิงปริมาณตัวเดียวสำหรับอัตราคำขอที่ยอมรับได้เป็นเรื่องที่ยากอย่างยิ่ง การอภิปรายยอมรับว่าในขณะที่ YouTube ได้นำระบบดังกล่าวมาใช้สำเร็จแล้ว แต่โซลูชันของพวกเขาไม่สามารถนำไปใช้กับ workload ใดก็ได้อย่างเป็นสากล ซึ่งเน้นย้ำถึงช่องว่างระหว่างโซลูชันเชิงทฤษฎีกับการนำไปปฏิบัติจริงในระดับคลาวด์

แนวทางแก้ไขที่เสนอโดยชุมชน

กำหนดขีดจำกัดขนาดของภูมิภาคเพื่อจำกัดขอบเขตของความเสียหาย
เพิ่มประสิทธิภาพการทดสอบ cold start สำหรับระบบสำคัญทั้งหมด
พัฒนากลไกการรับข้อมูลป้อนกลับเกี่ยวกับโหลดแบบสากลระหว่างบริการต่างๆ
ปรับปรุงการรักษาองค์ความรู้ขององค์กรผ่านเอกสารและการฝึกอบรม
ส่งเสริมสถาปัตยกรรมแบบหลายภูมิภาคพร้อมระบบ failover อัจฉริยะ


ผู้เชี่ยวชาญกำลังพูดคุยเกี่ยวกับกระบวนการกู้คืนระบบและแนวทางแก้ไขทางวิศวกรรมเพื่อตอบสนองต่อเหตุการณ์ AWS ล่ม

กระบวนการกู้คืนและช่องว่างการทดสอบถูกเปิดเผย

การวิเคราะห์จากชุมชนชี้ให้เห็นว่าการขัดข้องที่ยืดเยื้อได้เผยให้เห็นจุดอ่อนในขั้นตอนการกู้คืน มิใช่เพียงความผิดพลาดทางเทคนิคในเบื้องต้นเท่านั้น ผู้แสดงความคิดเห็นคาดการณ์ว่าระบบบางระบบอาจไม่สามารถเริ่มต้นจากศูนย์ได้อย่างรวดเร็ว และเมื่อรวมกับการทดสอบการเริ่มต้นระบบจากศูนย์ที่ทำไม่บ่อยนัก — ซึ่งอาจเคยทำครั้งล่าสุดเมื่อห้าปีที่แล้ว — การกู้คืนระบบจึงกลายเป็นเรื่องที่ช้าอย่างทรมาน การสนทนาเน้นย้ำว่าในขณะที่ทีมมักให้ความสำคัญกับการขยาย規模สำหรับการเติบโต การทดสอบการกู้คืนจากความล้มเหลวโดยสมบูรณ์อาจกลายเป็นเรื่องรองจนกว่าจะสายเกินไป ข้อมูลเชิงลึกนี้ชี้ให้เห็นว่าความสนใจทั่วทั้งอุตสาหกรรมที่มุ่งเน้นไปที่การขยาย規模และการพัฒนาฟีเจอร์อาจมาพร้อมกับต้นทุนของการออกแบบความยืดหยุ่นของระบบ โดยผู้แสดงความคิดเห็นหนึ่งระบุว่าการนำระบบ failover หลายภูมิภาคที่แข็งแกร่งมาใช้หมายถึงงานทางวิศวกรรมและค่าใช้จ่ายโดยไม่มีมูลค่าดอลลาร์ attached

ฉันทามติของชุมชนชี้ให้เห็นว่าในขณะที่อุตสาหกรรมคลาวด์เติบโตขึ้นอย่างมีนัยสำคัญ เรายังคงอยู่ในช่วงเริ่มต้นของการทำความเข้าใจวิธีการสร้างระบบที่ยืดหยุ่นอย่างแท้จริงในระดับ hyperscale เหตุขัดข้องของ AWS ทำหน้าที่เป็นเครื่องเตือนใจที่ชัดเจนว่าขณะที่ระบบเติบโตซับซ้อนมากขึ้น แนวทางของเราต่อความน่าเชื่อถือ การรักษาบุคลากร และขั้นตอนการกู้คืนต้องพัฒนาอย่างรวดเร็วเท่าเทียมกัน การอภิปรายเผยให้เห็นอุตสาหกรรมที่กำลังต่อสู้กับความตึงเครียดระหว่างนวัตกรรมที่รวดเร็วและความมั่นคงพื้นฐาน ซึ่งเป็นความท้าทายที่มีแนวโน้มจะกำหนดทศวรรษหน้าของการประมวลผลแบบคลาวด์

อ้างอิง: More Than DNS: The 14 hour AWS us-east-1 outage

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌