เมื่อ Google Cloud Platform ประสบปัญหาระบบล่มครั้งใหญ่ทั่วโลกเมื่อวันที่ 11 มิถุนายน 2023 RedPanda Cloud ได้เผยแพร่บทวิเคราะห์หลังเหตุการณ์อย่างละเอียดเพื่ออธิบายว่าเหตุใดบริการของพวกเขาจึงไม่ได้รับผลกระทบ อย่างไรก็ตาม การตอบสนองของชุมชนเทคโนโลยีนั้นไม่ได้ประทับใจเท่าที่ควร โดยหลายคนตั้งคำถามว่าการรอดพ้นของ RedPanda เกิดจากสถาปัตยกรรมที่เหนือกว่าหรือเป็นเพียงแค่โชคดี
ชุมชนตั้งคำถามต่อการอ้างของ RedPanda เรื่องความเป็นเลิศทางสถาปัตยกรรม
การอภิปรายมุ่งเน้นไปที่การยืนยันของ RedPanda ว่าสถาปัตยกรรมแบบ cell-based และหprinciples การออกแบบของพวกเขาปกป้องพวกเขาในระหว่างเหตุการณ์ระบบล่มของ GCP นักวิจารณ์โต้แย้งว่า RedPanda เพียงแค่ไม่ได้ใช้บริการ GCP ที่เฉพาะเจาะจงที่ล้มเหลว ทำให้การรอดพ้นของพวกเขาเป็นเรื่องของโชคมากกว่าการออกแบบ ผู้แสดงความคิดเห็นคนหนึ่งได้สรุปความรู้สึกนี้ได้อย่างสมบูรณ์แบบ:
ไม่มีสิ่งใดเกี่ยวกับวิธีที่พวกเขาออกแบบสถาปัตยกรรมระบบของตนที่มีความสำคัญในเหตุการณ์นี้เลย บริการของพวกเขาเพียงแค่ไม่ได้ใช้โครงสร้างพื้นฐานใดๆ ที่ล้มเหลว - ไม่มีเหตุการณ์ใดในที่นี้ที่ทำให้การออกแบบระบบของพวกเขาต้องถูกทดสอบจริงๆ
ชุมชนชี้ให้เห็นว่าระบบการตรวจสอบและการแจ้งเตือนของ RedPanda ได้รับผลกระทบจากเหตุการณ์ระบบล่มจริงๆ ทำให้ทีมงานของพวกเขาต้องตรวจสอบแดชบอร์ดด้วยตนเองแทน สิ่งนี้ทำให้เกิดคำถามเกี่ยวกับความสมบูรณ์ของการอ้างเรื่องความทนทานต่อความผิดพลาดของพวกเขา
ข้อได้เปรียบด้านสถาปัตยกรรมที่ RedPanda อ้างว่ามี:
- สถาปัตยกรรมแบบ cell-based ที่มีบริการต่างๆ อยู่ในตำแหน่งเดียวกัน
- ค่าการจำลองข้อมูลขั้นต่ำ 3 ชุดกระจายข้าม availability zones
- ข้อมูลหลักจัดเก็บบนดิสก์ NVMe ภายในเครื่อง
- ใช้ระบบจัดเก็บข้อมูลแบบชั้นสำหรับข้อมูลเก่าแบบ asynchronous
- ไม่มีการพึ่งพาระบบภายนอกในเส้นทางข้อมูลที่สำคัญ
- SLA ความพร้อมใช้งาน 99.99% พร้อมเป้าหมายภายใน 99.999%
ความจริงเบื้องหลังการอ้างทางการตลาด
การอภิปรายทางเทคนิคเผยให้เห็นช่องว่างหลายประการในเรื่องเล่าของ RedPanda ระบบจัดเก็บข้อมูลแบบ tiered ของพวกเขาประสบกับอัตราข้อผิดพลาดที่เพิ่มขึ้น และพวกเขาต้องจัดเตรียมพื้นที่ดิสก์เพิ่มเติมเพื่อเป็นการป้องกัน ที่สำคัญกว่านั้น ระบบแจ้งเตือนของบุคคลที่สามของพวกเขาล่มลง ทำให้พวกเขาไม่มีการตรวจสอบอัตโนมัติในระหว่างเหตุการณ์ นักวิจารณ์ระบุว่าระบบที่มีความยืดหยุ่นอย่างแท้จริงควรรักษาความสามารถในการแจ้งเตือนไว้ได้แม้ในระหว่างเหตุการณ์ระบบล่มครั้งใหญ่ของผู้ให้บริการคลาวด์
ชุมชนยังเน้นย้ำว่า RedPanda สูญเสียโหนดคลัสเตอร์หนึ่งโหนดในระหว่างเหตุการณ์ แม้ว่าสิ่งนี้จะส่งผลกระทบเฉพาะสภาพแวดล้อมการทดสอบมากกว่าการผลิต รายละเอียดนี้ทำลายการอ้างของพวกเขาเรื่องการมีภูมิคุ้มกันต่อเหตุการณ์ระบบล่มอย่างสมบูรณ์ในระดับหนึ่ง
![]() |
---|
RedPanda : การสร้างแบรนด์ที่สนุกสนานซึ่งเป็นสัญลักษณ์ของความยืดหยุ่นและความน่าเชื่อถือในสถาปัตยกรรมคลาวด์ |
ผลกระทบที่กว้างขึ้นสำหรับการออกแบบสถาปัตยกรรมคลาวด์
การอภิปรายได้พัฒนาไปสู่การสนทนาที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับปรัชญาสถาปัตยกรรมของผู้ให้บริการคลาวด์ สมาชิกชุมชนเปรียบเทียบแนวทางบริการทั่วโลกของ Google Cloud กับโมเดลความเป็นอิสระของภูมิภาคของ Amazon Web Services ภูมิภาคของ AWS ทำงานเป็นโดเมนความล้มเหลวที่แยกออกจากกันอย่างแท้จริงด้วย IP addresses ที่ทับซ้อนกันซึ่งป้องกันการพึ่งพาข้ามภูมิภาคโดยไม่ตั้งใจ
แนวทางของ GCP มีข้อได้เปรียบเช่นการจัดการหลายภูมิภาคที่ง่ายขึ้นและการกระจายโหลดทั่วโลก แต่มาพร้อมกับการแลกเปลี่ยนของรัศมีการระเบิดที่เพิ่มขึ้นในระหว่างเหตุการณ์ระบบล่ม เหตุการณ์ล่าสุดแสดงให้เห็นว่าความล้มเหลวของบริการเดียวสามารถส่งผลกระทบต่อเนื่องข้ามหลายภูมิภาคในสถาปัตยกรรมของ GCP ได้อย่างไร
การเปรียบเทียบสถาปัตยกรรมระดับภูมิภาคระหว่าง GCP และ AWS :
- แนวทาง GCP: บริการระดับโลกที่มีการจำลองข้อมูลแบบเกือบทันที การจัดการหลายภูมิภาคที่เรียบง่าย แต่มีความเสี่ยงจากการล่มของระบบในวงกว้าง
- แนวทาง AWS: ภูมิภาคที่แยกออกจากกันอย่างแท้จริงด้วย IP address ที่ซ้ำซ้อน การปรับใช้แบบค่อยเป็นค่อยไป ความเสถียรคงที่สำหรับบริการระดับโลกเช่น Route53
- การแลกเปลี่ยน: GCP มอบการดำเนินงานระดับโลกที่ง่ายขึ้นแต่มีความสัมพันธ์ของความล้มเหลวสูงกว่า AWS ให้การแยกที่ดีกว่าแต่การตั้งค่าหลายภูมิภาคซับซ้อนกว่า
บทเรียนสำหรับอุตสาหกรรม
แม้ว่าแนวทางการตลาดของ RedPanda จะได้รับการวิจารณ์ แต่เหตุการณ์นี้เน้นย้ำถึงข้อพิจารณาที่สำคัญสำหรับการออกแบบบริการคลาวด์ การอภิปรายของชุมชนเน้นย้ำว่าการยอมรับโชคและปัจจัยภายนอกมีค่ามากกว่าการอ้างเครดิตสำหรับการตัดสินใจทางสถาปัตยกรรมที่ไม่ได้ถูกทดสอบจริงๆ
การถกเถียงยังเน้นย้ำถึงความสำคัญของการออกแบบระบบที่มีการพึ่งพาภายนอกน้อยที่สุดและการรักษาโครงสร้างพื้นฐานการตรวจสอบที่เป็นอิสระอย่างแท้จริง ดังที่ผู้สังเกตการณ์คนหนึ่งกล่าวไว้ การจัดสรรทรัพยากรเกินความจำเป็นและการหลีกเลี่ยงการพึ่งพาบริการที่ได้รับผลกระทบเป็นแนวปฏิบัติด้านความน่าเชื่อถือขั้นพื้นฐานมากกว่าความสำเร็จทางสถาปัตยกรรมที่เป็นนวัตกรรม
อ้างอิง: Behind the scenes: Redpanda Cloud's response to the GCP outage
![]() |
---|
ความสำเร็จทางสถาปัตยกรรมที่เป็นนวัตกรรมในการออกแบบ cloud ที่สำรวจผ่านบทเรียนความน่าเชื่อถือล่าสุด |