ศูนย์ข้อมูล Linode Newark เกิดเหตุขัดข้องนาน 24 ชั่วโมงหลังระบบไฟฟ้าและระบบทำความเย็นล้มเหลว

ทีมชุมชน BigGo
ศูนย์ข้อมูล Linode Newark เกิดเหตุขัดข้องนาน 24 ชั่วโมงหลังระบบไฟฟ้าและระบบทำความเย็นล้มเหลว

เหตุขัดข้องครั้งใหญ่ที่ศูนย์ข้อมูล US-East Newark ของ Linode ทำให้ลูกค้าหลายพันรายไม่สามารถเข้าถึงบริการคลาวด์ของตนเองได้เป็นเวลากว่า 24 ชั่วโมง ถือเป็นหนึ่งในเหตุการณ์หยุดชะงักที่สำคัญที่สุดในประวัติศาสตร์ล่าสุดของบริษัท เหตุการณ์ดังกล่าวเริ่มขึ้นเมื่อวันที่ 27 กรกฎาคม 2025 เวลา 10:08 UTC จากการไฟฟ้าดับที่ทำให้เกิดความล้มเหลวต่อเนื่องในระบบทำความร้อนและระบบทำความเย็นของสถานที่

ไทม์ไลน์ของเหตุการณ์ระบบล่ม:

  • 27 กรกฎาคม 2025 10:08 UTC: รายงานเหตุการณ์เริ่มต้น
  • 27 กรกฎาคม 2025 13:59 UTC: ระบุสาเหตุหลัก (ไฟฟ้าดับส่งผลกระทบต่อระบบ HVAC )
  • 27 กรกฎาคม 2025 14:13 UTC: กู้คืน Block Storage แล้ว
  • 27 กรกฎาคม 2025 17:52 UTC: กู้คืน Object Storage แล้ว
  • 27 กรกฎาคม 2025 19:00 UTC: กู้คืน NodeBalancers แล้ว
  • 28 กรกฎาคม 2025 10:50 UTC: อัปเดตล่าสุด (เกิดขึ้นต่อเนื่องมากกว่า 24 ชั่วโมง)

การหยุดชะงักที่ยาวนานทำให้ผู้ใช้ธุรกิจหงุดหงิด

ลักษณะที่ยืดเยื้อของเหตุขัดข้องครั้งนี้ส่งผลกระทบเป็นพิเศษต่อธุรกิจที่พึ่งพา Linode สำหรับโครงสร้างพื้นฐานที่สำคัญ ผู้ใช้หลายรายรายงานการสูญเสียการเข้าถึงเซิร์ฟเวอร์ส่วนตัวเสมือนของตนอย่างสมบูรณ์ โดยบางรายประสบกับการกู้คืนบางส่วนตามด้วยความล้มเหลวเพิ่มเติม เซิร์ฟเวอร์อีเมล บริการ DNS และเว็บไซต์ที่หันหน้าสู่ลูกค้าออฟไลน์ ทำให้เกิดการหยุดชะงักทางธุรกิจอย่างมีนัยสำคัญ

การตอบสนองของชุมชนเผยให้เห็นผลกระทบในโลกแห่งความเป็นจริงของการหยุดชะงักที่ยาวนานเช่นนี้ ผู้ใช้รายหนึ่งกล่าวถึงประสบการณ์ของตนกับโครงสร้างพื้นฐานที่กระจายไปยังผู้ให้บริการหลายราย โดยเน้นว่าแม้การตั้งค่าสำรองก็ไม่สามารถปกป้องธุรกิจจากเหตุขัดข้องระดับภูมิภาคในขนาดนี้ได้อย่างสมบูรณ์

ช่องว่างในการสื่อสารเพิ่มความกังวลให้กับลูกค้า

นอกเหนือจากปัญหาทางเทคนิคแล้ว ลูกค้ายังแสดงความหงุดหงิดกับการสื่อสารของ Linode ในระหว่างวิกฤต ใช้เวลาประมาณสี่ชั่วโมงกว่าที่บริษัทจะระบุและสื่อสารว่าสาเหตุหลักเกี่ยวข้องกับปัญหาไฟฟ้าและ HVAC นับตั้งแต่นั้นมา การอัปเดตสถานะส่วนใหญ่เป็นการซ้ำซาก โดยให้ข้อมูลที่เป็นรูปธรรมเกี่ยวกับความคืบหน้าการกู้คืนหรือกรอบเวลาน้อยมาก

เรากำลังใกล้ 24 ชั่วโมงของการหยุดชะงัก ฉันยังคงเป็นหนึ่งในผู้ที่ได้รับผลกระทบและฉันเริ่มสงสัยว่าสถานการณ์อาจแย่กว่าที่พวกเขาเปิดเผยไว้

รูปแบบการสื่อสารนี้ทำให้ผู้ใช้บางรายตั้งคำถามว่าขอบเขตทั้งหมดของปัญหาถูกเปิดเผยหรือไม่ โดยเฉพาะอย่างยิ่งเมื่อพิจารณาจากระยะเวลาที่ผิดปกติของเหตุขัดข้องสำหรับผู้ให้บริการคลาวด์รายใหญ่

ผลกระทบต่อบริการอย่างกว้างขวางนอกเหนือจาก Newark

สิ่งที่เริ่มต้นเป็นปัญหาศูนย์ข้อมูล Newark ในท้องถิ่นขยายไปส่งผลกระทบต่อบริการ Linode Kubernetes Engine (LKE) ในหลายภูมิภาค รวมถึง Dallas, Fremont, Sydney, Tokyo 2, Toronto และ Washington ผลกระทบข้ามภูมิภาคนี้แสดงให้เห็นว่าโครงสร้างพื้นฐานคลาวด์สมัยใหม่เชื่อมโยงกันอย่างไร ซึ่งปัญหาในสถานที่หนึ่งสามารถส่งผลกระทบต่อเนื่องไปทั่วทวีป

เหตุขัดข้องส่งผลกระทบต่อบริการ Linode เกือบทั้งหมดในภูมิภาค Newark รวมถึง Block Storage, Object Storage, NodeBalancers, Backups และ Metadata Service การกู้คืนเป็นไปอย่างค่อยเป็นค่อยไปและไม่สม่ำเสมอ โดยบริการบางอย่างเช่น Block Storage และ Object Storage ได้รับการกู้คืนก่อนบริการอื่น ๆ หลายชั่วโมง

บริการที่ได้รับผลกระทบ:

  • อินสแตนซ์ Linode ทั้งหมดในภูมิภาค Newark
  • Block Storage (กู้คืนแล้ว)
  • Object Storage (กู้คืนแล้ว)
  • NodeBalancers (กู้คืนแล้ว)
  • Backups
  • Metadata Service
  • Longview
  • ผลกระทบ LKE ข้ามภูมิภาค: Dallas, Fremont, Sydney, Tokyo 2, Toronto, Washington

ความคืบหน้าการกู้คืนยังคงช้า

ณ การอัปเดตล่าสุด ผู้เชี่ยวชาญด้านเรื่องเฉพาะของ Linode ยังคงทำงานเพื่อกู้คืนบริการที่เหลือ แต่ความคืบหน้าดูเหมือนจะเป็นไปทีละน้อย ผู้ใช้บางรายรายงานการเห็นสัญญาณชีวิตจากเซิร์ฟเวอร์แต่ละตัว ในขณะที่รายอื่น ๆ ยังคงออฟไลน์อย่างสมบูรณ์ บริษัทได้กู้คืนบริการหลายอย่างเป็นขั้นตอน โดย NodeBalancers กู้คืนประมาณ 19:00 UTC เมื่อวันที่ 27 กรกฎาคม ตามด้วย Block Storage เวลา 14:13 UTC และ Object Storage เวลา 17:52 UTC

เหตุการณ์นี้เป็นการเตือนใจอย่างชัดเจนเกี่ยวกับความเสี่ยงที่เกี่ยวข้องกับการปรับใช้ภูมิภาคเดียวและความสำคัญของกลยุทธ์หลายคลาวด์สำหรับแอปพลิเคชันที่สำคัญต่อภารกิจ สำหรับลูกค้าที่ได้รับผลกระทบหลายราย เหตุขัดข้องครั้งนี้แสดงถึงประสบการณ์ที่ยาวนานที่สุดของพวกเขากับการหยุดชะงักจากผู้ให้บริการโฮสติ้งใด ๆ ทำให้เกิดคำถามเกี่ยวกับข้อตกลงระดับบริการและนโยบายการชดเชย

HVAC: ระบบทำความร้อน ระบายอากาศ และปรับอากาศที่รักษาอุณหภูมิและความชื้นที่เหมาะสมในศูนย์ข้อมูล LKE: Linode Kubernetes Engine บริการการจัดการคอนเทนเนอร์ที่มีการจัดการ

อ้างอิง: Service Issue - All Services - US-EAST (Newark) Incident Report for Linode