การตอบสนองต่อเหตุการณ์ระบบล่มของ GCP ของ RedPanda ก่อให้เกิดการถกเถียงเรื่องโชคชะตากับการออกแบบในสถาปัตยกรรมคลาวด์

ทีมชุมชน BigGo

การตอบสนองต่อเหตุการณ์ระบบล่มของ GCP ของ RedPanda ก่อให้เกิดการถกเถียงเรื่องโชคชะตากับการออกแบบในสถาปัตยกรรมคลาวด์

เมื่อ Google Cloud Platform ประสบปัญหาระบบล่มครั้งใหญ่ทั่วโลกเมื่อวันที่ 11 มิถุนายน 2023 RedPanda Cloud ได้เผยแพร่บทวิเคราะห์หลังเหตุการณ์อย่างละเอียดเพื่ออธิบายว่าเหตุใดบริการของพวกเขาจึงไม่ได้รับผลกระทบ อย่างไรก็ตาม การตอบสนองของชุมชนเทคโนโลยีนั้นไม่ได้ประทับใจเท่าที่ควร โดยหลายคนตั้งคำถามว่าการรอดพ้นของ RedPanda เกิดจากสถาปัตยกรรมที่เหนือกว่าหรือเป็นเพียงแค่โชคดี

ชุมชนตั้งคำถามต่อการอ้างของ RedPanda เรื่องความเป็นเลิศทางสถาปัตยกรรม

การอภิปรายมุ่งเน้นไปที่การยืนยันของ RedPanda ว่าสถาปัตยกรรมแบบ cell-based และหprinciples การออกแบบของพวกเขาปกป้องพวกเขาในระหว่างเหตุการณ์ระบบล่มของ GCP นักวิจารณ์โต้แย้งว่า RedPanda เพียงแค่ไม่ได้ใช้บริการ GCP ที่เฉพาะเจาะจงที่ล้มเหลว ทำให้การรอดพ้นของพวกเขาเป็นเรื่องของโชคมากกว่าการออกแบบ ผู้แสดงความคิดเห็นคนหนึ่งได้สรุปความรู้สึกนี้ได้อย่างสมบูรณ์แบบ:

ไม่มีสิ่งใดเกี่ยวกับวิธีที่พวกเขาออกแบบสถาปัตยกรรมระบบของตนที่มีความสำคัญในเหตุการณ์นี้เลย บริการของพวกเขาเพียงแค่ไม่ได้ใช้โครงสร้างพื้นฐานใดๆ ที่ล้มเหลว - ไม่มีเหตุการณ์ใดในที่นี้ที่ทำให้การออกแบบระบบของพวกเขาต้องถูกทดสอบจริงๆ

ชุมชนชี้ให้เห็นว่าระบบการตรวจสอบและการแจ้งเตือนของ RedPanda ได้รับผลกระทบจากเหตุการณ์ระบบล่มจริงๆ ทำให้ทีมงานของพวกเขาต้องตรวจสอบแดชบอร์ดด้วยตนเองแทน สิ่งนี้ทำให้เกิดคำถามเกี่ยวกับความสมบูรณ์ของการอ้างเรื่องความทนทานต่อความผิดพลาดของพวกเขา

ข้อได้เปรียบด้านสถาปัตยกรรมที่ RedPanda อ้างว่ามี:

สถาปัตยกรรมแบบ cell-based ที่มีบริการต่างๆ อยู่ในตำแหน่งเดียวกัน
ค่าการจำลองข้อมูลขั้นต่ำ 3 ชุดกระจายข้าม availability zones
ข้อมูลหลักจัดเก็บบนดิสก์ NVMe ภายในเครื่อง
ใช้ระบบจัดเก็บข้อมูลแบบชั้นสำหรับข้อมูลเก่าแบบ asynchronous
ไม่มีการพึ่งพาระบบภายนอกในเส้นทางข้อมูลที่สำคัญ
SLA ความพร้อมใช้งาน 99.99% พร้อมเป้าหมายภายใน 99.999%

ความจริงเบื้องหลังการอ้างทางการตลาด

การอภิปรายทางเทคนิคเผยให้เห็นช่องว่างหลายประการในเรื่องเล่าของ RedPanda ระบบจัดเก็บข้อมูลแบบ tiered ของพวกเขาประสบกับอัตราข้อผิดพลาดที่เพิ่มขึ้น และพวกเขาต้องจัดเตรียมพื้นที่ดิสก์เพิ่มเติมเพื่อเป็นการป้องกัน ที่สำคัญกว่านั้น ระบบแจ้งเตือนของบุคคลที่สามของพวกเขาล่มลง ทำให้พวกเขาไม่มีการตรวจสอบอัตโนมัติในระหว่างเหตุการณ์ นักวิจารณ์ระบุว่าระบบที่มีความยืดหยุ่นอย่างแท้จริงควรรักษาความสามารถในการแจ้งเตือนไว้ได้แม้ในระหว่างเหตุการณ์ระบบล่มครั้งใหญ่ของผู้ให้บริการคลาวด์

ชุมชนยังเน้นย้ำว่า RedPanda สูญเสียโหนดคลัสเตอร์หนึ่งโหนดในระหว่างเหตุการณ์ แม้ว่าสิ่งนี้จะส่งผลกระทบเฉพาะสภาพแวดล้อมการทดสอบมากกว่าการผลิต รายละเอียดนี้ทำลายการอ้างของพวกเขาเรื่องการมีภูมิคุ้มกันต่อเหตุการณ์ระบบล่มอย่างสมบูรณ์ในระดับหนึ่ง


RedPanda : การสร้างแบรนด์ที่สนุกสนานซึ่งเป็นสัญลักษณ์ของความยืดหยุ่นและความน่าเชื่อถือในสถาปัตยกรรมคลาวด์

ผลกระทบที่กว้างขึ้นสำหรับการออกแบบสถาปัตยกรรมคลาวด์

การอภิปรายได้พัฒนาไปสู่การสนทนาที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับปรัชญาสถาปัตยกรรมของผู้ให้บริการคลาวด์ สมาชิกชุมชนเปรียบเทียบแนวทางบริการทั่วโลกของ Google Cloud กับโมเดลความเป็นอิสระของภูมิภาคของ Amazon Web Services ภูมิภาคของ AWS ทำงานเป็นโดเมนความล้มเหลวที่แยกออกจากกันอย่างแท้จริงด้วย IP addresses ที่ทับซ้อนกันซึ่งป้องกันการพึ่งพาข้ามภูมิภาคโดยไม่ตั้งใจ

แนวทางของ GCP มีข้อได้เปรียบเช่นการจัดการหลายภูมิภาคที่ง่ายขึ้นและการกระจายโหลดทั่วโลก แต่มาพร้อมกับการแลกเปลี่ยนของรัศมีการระเบิดที่เพิ่มขึ้นในระหว่างเหตุการณ์ระบบล่ม เหตุการณ์ล่าสุดแสดงให้เห็นว่าความล้มเหลวของบริการเดียวสามารถส่งผลกระทบต่อเนื่องข้ามหลายภูมิภาคในสถาปัตยกรรมของ GCP ได้อย่างไร

การเปรียบเทียบสถาปัตยกรรมระดับภูมิภาคระหว่าง GCP และ AWS :

แนวทาง GCP: บริการระดับโลกที่มีการจำลองข้อมูลแบบเกือบทันที การจัดการหลายภูมิภาคที่เรียบง่าย แต่มีความเสี่ยงจากการล่มของระบบในวงกว้าง
แนวทาง AWS: ภูมิภาคที่แยกออกจากกันอย่างแท้จริงด้วย IP address ที่ซ้ำซ้อน การปรับใช้แบบค่อยเป็นค่อยไป ความเสถียรคงที่สำหรับบริการระดับโลกเช่น Route53
การแลกเปลี่ยน: GCP มอบการดำเนินงานระดับโลกที่ง่ายขึ้นแต่มีความสัมพันธ์ของความล้มเหลวสูงกว่า AWS ให้การแยกที่ดีกว่าแต่การตั้งค่าหลายภูมิภาคซับซ้อนกว่า

บทเรียนสำหรับอุตสาหกรรม

แม้ว่าแนวทางการตลาดของ RedPanda จะได้รับการวิจารณ์ แต่เหตุการณ์นี้เน้นย้ำถึงข้อพิจารณาที่สำคัญสำหรับการออกแบบบริการคลาวด์ การอภิปรายของชุมชนเน้นย้ำว่าการยอมรับโชคและปัจจัยภายนอกมีค่ามากกว่าการอ้างเครดิตสำหรับการตัดสินใจทางสถาปัตยกรรมที่ไม่ได้ถูกทดสอบจริงๆ

การถกเถียงยังเน้นย้ำถึงความสำคัญของการออกแบบระบบที่มีการพึ่งพาภายนอกน้อยที่สุดและการรักษาโครงสร้างพื้นฐานการตรวจสอบที่เป็นอิสระอย่างแท้จริง ดังที่ผู้สังเกตการณ์คนหนึ่งกล่าวไว้ การจัดสรรทรัพยากรเกินความจำเป็นและการหลีกเลี่ยงการพึ่งพาบริการที่ได้รับผลกระทบเป็นแนวปฏิบัติด้านความน่าเชื่อถือขั้นพื้นฐานมากกว่าความสำเร็จทางสถาปัตยกรรมที่เป็นนวัตกรรม

อ้างอิง: Behind the scenes: Redpanda Cloud's response to the GCP outage


ความสำเร็จทางสถาปัตยกรรมที่เป็นนวัตกรรมในการออกแบบ cloud ที่สำรวจผ่านบทเรียนความน่าเชื่อถือล่าสุด

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌