เหตุขัดข้องครั้งใหญ่ที่ศูนย์ข้อมูล US-East Newark ของ Linode ทำให้ลูกค้าหลายพันรายไม่สามารถเข้าถึงบริการคลาวด์ของตนเองได้เป็นเวลากว่า 24 ชั่วโมง ถือเป็นหนึ่งในเหตุการณ์หยุดชะงักที่สำคัญที่สุดในประวัติศาสตร์ล่าสุดของบริษัท เหตุการณ์ดังกล่าวเริ่มขึ้นเมื่อวันที่ 27 กรกฎาคม 2025 เวลา 10:08 UTC จากการไฟฟ้าดับที่ทำให้เกิดความล้มเหลวต่อเนื่องในระบบทำความร้อนและระบบทำความเย็นของสถานที่
ไทม์ไลน์ของเหตุการณ์ระบบล่ม:
- 27 กรกฎาคม 2025 10:08 UTC: รายงานเหตุการณ์เริ่มต้น
- 27 กรกฎาคม 2025 13:59 UTC: ระบุสาเหตุหลัก (ไฟฟ้าดับส่งผลกระทบต่อระบบ HVAC )
- 27 กรกฎาคม 2025 14:13 UTC: กู้คืน Block Storage แล้ว
- 27 กรกฎาคม 2025 17:52 UTC: กู้คืน Object Storage แล้ว
- 27 กรกฎาคม 2025 19:00 UTC: กู้คืน NodeBalancers แล้ว
- 28 กรกฎาคม 2025 10:50 UTC: อัปเดตล่าสุด (เกิดขึ้นต่อเนื่องมากกว่า 24 ชั่วโมง)
การหยุดชะงักที่ยาวนานทำให้ผู้ใช้ธุรกิจหงุดหงิด
ลักษณะที่ยืดเยื้อของเหตุขัดข้องครั้งนี้ส่งผลกระทบเป็นพิเศษต่อธุรกิจที่พึ่งพา Linode สำหรับโครงสร้างพื้นฐานที่สำคัญ ผู้ใช้หลายรายรายงานการสูญเสียการเข้าถึงเซิร์ฟเวอร์ส่วนตัวเสมือนของตนอย่างสมบูรณ์ โดยบางรายประสบกับการกู้คืนบางส่วนตามด้วยความล้มเหลวเพิ่มเติม เซิร์ฟเวอร์อีเมล บริการ DNS และเว็บไซต์ที่หันหน้าสู่ลูกค้าออฟไลน์ ทำให้เกิดการหยุดชะงักทางธุรกิจอย่างมีนัยสำคัญ
การตอบสนองของชุมชนเผยให้เห็นผลกระทบในโลกแห่งความเป็นจริงของการหยุดชะงักที่ยาวนานเช่นนี้ ผู้ใช้รายหนึ่งกล่าวถึงประสบการณ์ของตนกับโครงสร้างพื้นฐานที่กระจายไปยังผู้ให้บริการหลายราย โดยเน้นว่าแม้การตั้งค่าสำรองก็ไม่สามารถปกป้องธุรกิจจากเหตุขัดข้องระดับภูมิภาคในขนาดนี้ได้อย่างสมบูรณ์
ช่องว่างในการสื่อสารเพิ่มความกังวลให้กับลูกค้า
นอกเหนือจากปัญหาทางเทคนิคแล้ว ลูกค้ายังแสดงความหงุดหงิดกับการสื่อสารของ Linode ในระหว่างวิกฤต ใช้เวลาประมาณสี่ชั่วโมงกว่าที่บริษัทจะระบุและสื่อสารว่าสาเหตุหลักเกี่ยวข้องกับปัญหาไฟฟ้าและ HVAC นับตั้งแต่นั้นมา การอัปเดตสถานะส่วนใหญ่เป็นการซ้ำซาก โดยให้ข้อมูลที่เป็นรูปธรรมเกี่ยวกับความคืบหน้าการกู้คืนหรือกรอบเวลาน้อยมาก
เรากำลังใกล้ 24 ชั่วโมงของการหยุดชะงัก ฉันยังคงเป็นหนึ่งในผู้ที่ได้รับผลกระทบและฉันเริ่มสงสัยว่าสถานการณ์อาจแย่กว่าที่พวกเขาเปิดเผยไว้
รูปแบบการสื่อสารนี้ทำให้ผู้ใช้บางรายตั้งคำถามว่าขอบเขตทั้งหมดของปัญหาถูกเปิดเผยหรือไม่ โดยเฉพาะอย่างยิ่งเมื่อพิจารณาจากระยะเวลาที่ผิดปกติของเหตุขัดข้องสำหรับผู้ให้บริการคลาวด์รายใหญ่
ผลกระทบต่อบริการอย่างกว้างขวางนอกเหนือจาก Newark
สิ่งที่เริ่มต้นเป็นปัญหาศูนย์ข้อมูล Newark ในท้องถิ่นขยายไปส่งผลกระทบต่อบริการ Linode Kubernetes Engine (LKE) ในหลายภูมิภาค รวมถึง Dallas, Fremont, Sydney, Tokyo 2, Toronto และ Washington ผลกระทบข้ามภูมิภาคนี้แสดงให้เห็นว่าโครงสร้างพื้นฐานคลาวด์สมัยใหม่เชื่อมโยงกันอย่างไร ซึ่งปัญหาในสถานที่หนึ่งสามารถส่งผลกระทบต่อเนื่องไปทั่วทวีป
เหตุขัดข้องส่งผลกระทบต่อบริการ Linode เกือบทั้งหมดในภูมิภาค Newark รวมถึง Block Storage, Object Storage, NodeBalancers, Backups และ Metadata Service การกู้คืนเป็นไปอย่างค่อยเป็นค่อยไปและไม่สม่ำเสมอ โดยบริการบางอย่างเช่น Block Storage และ Object Storage ได้รับการกู้คืนก่อนบริการอื่น ๆ หลายชั่วโมง
บริการที่ได้รับผลกระทบ:
- อินสแตนซ์ Linode ทั้งหมดในภูมิภาค Newark
- Block Storage (กู้คืนแล้ว)
- Object Storage (กู้คืนแล้ว)
- NodeBalancers (กู้คืนแล้ว)
- Backups
- Metadata Service
- Longview
- ผลกระทบ LKE ข้ามภูมิภาค: Dallas, Fremont, Sydney, Tokyo 2, Toronto, Washington
ความคืบหน้าการกู้คืนยังคงช้า
ณ การอัปเดตล่าสุด ผู้เชี่ยวชาญด้านเรื่องเฉพาะของ Linode ยังคงทำงานเพื่อกู้คืนบริการที่เหลือ แต่ความคืบหน้าดูเหมือนจะเป็นไปทีละน้อย ผู้ใช้บางรายรายงานการเห็นสัญญาณชีวิตจากเซิร์ฟเวอร์แต่ละตัว ในขณะที่รายอื่น ๆ ยังคงออฟไลน์อย่างสมบูรณ์ บริษัทได้กู้คืนบริการหลายอย่างเป็นขั้นตอน โดย NodeBalancers กู้คืนประมาณ 19:00 UTC เมื่อวันที่ 27 กรกฎาคม ตามด้วย Block Storage เวลา 14:13 UTC และ Object Storage เวลา 17:52 UTC
เหตุการณ์นี้เป็นการเตือนใจอย่างชัดเจนเกี่ยวกับความเสี่ยงที่เกี่ยวข้องกับการปรับใช้ภูมิภาคเดียวและความสำคัญของกลยุทธ์หลายคลาวด์สำหรับแอปพลิเคชันที่สำคัญต่อภารกิจ สำหรับลูกค้าที่ได้รับผลกระทบหลายราย เหตุขัดข้องครั้งนี้แสดงถึงประสบการณ์ที่ยาวนานที่สุดของพวกเขากับการหยุดชะงักจากผู้ให้บริการโฮสติ้งใด ๆ ทำให้เกิดคำถามเกี่ยวกับข้อตกลงระดับบริการและนโยบายการชดเชย
HVAC: ระบบทำความร้อน ระบายอากาศ และปรับอากาศที่รักษาอุณหภูมิและความชื้นที่เหมาะสมในศูนย์ข้อมูล LKE: Linode Kubernetes Engine บริการการจัดการคอนเทนเนอร์ที่มีการจัดการ
อ้างอิง: Service Issue - All Services - US-EAST (Newark) Incident Report for Linode