ทีมบรรณาธิการ BigGo
AWS ขัดข้องครั้งใหญ่ ส่งผลกระทบต่อบริการอินเทอร์เน็ตทั่วโลก

การขัดข้องอย่างกว้างขวางของ Amazon Web Services แพลตฟอร์มคลาวด์คอมพิวติ้งที่ใหญ่ที่สุดในโลก ได้สร้างความวุ่นวายอย่างมีนัยสำคัญต่อแอปพลิเคชันยอดนิยม เว็บไซต์ และบริการสำคัญระดับโลกในวันที่ 20 ตุลาคม 2025 เหตุการณ์ซึ่งกินเวลาหลายชั่วโมงนี้ ชี้ให้เห็นถึงการพึ่งพาอินเทอร์เน็ตอย่างหนักบนโครงสร้างพื้นฐานคลาวด์ และทำให้เกิดคำถามเกี่ยวกับจุดล้มเหลวเดียวในระบบนิเวศดิจิทัลสมัยใหม่

ขอบเขตของความวุ่นวาย

การขัดข้องของ AWS เริ่มขึ้นในช่วงเช้ามืดของวันที่ 20 ตุลาคม 2025 โดยมีรายงานแรกเกิดขึ้นประมาณเวลา 03.00 น. ตามเวลา EST ความวุ่นวายแพร่กระจายไปยังหลายทวีปอย่างรวดเร็ว ส่งผลกระทบต่อทุกอย่างตั้งแต่แอปพลิเคชันเพื่อความบันเทิงไปจนถึงบริการสำคัญของรัฐบาล จากข้อมูลของ Downdetector บริการติดตามการขัดข้อง รายงานสูงสุดด้วยข้อร้องเรียนจากผู้ใช้กว่า 13,000 รายในสหรัฐอเมริกาเพียงแห่งเดียว ในขณะที่รายงานระดับโลกชี้ให้เห็นว่าผู้ใช้หลายล้านคนได้รับผลกระทบจากบริษัทและบริการมากกว่า 1,000 แห่ง เหตุการณ์นี้ถือเป็นการขัดข้องของอินเทอร์เน็ตที่ใหญ่ที่สุดครั้งหนึ่งนับตั้งแต่การขัดข้องของ CrowdStrike เมื่อปีก่อนที่ทำให้ธนาคารและสนามบินทั่วโลกหยุดชะงัก

สาเหตุทางเทคนิคที่ถูกระบุ

Amazon ชี้ให้เห็นว่าปัญหาอยู่ที่ภูมิภาค US-EAST-1 ในรัฐเวอร์จิเนีย ซึ่งทำหน้าที่เป็นศูนย์กลางข้อมูลดั้งเดิมและใหญ่ที่สุดของบริษัท บริษัทระบุว่าปัญหามาจากข้อบกพร่องในระบบภายในที่ตรวจสอบสถานะของโหลดบาลานเซอร์เครือข่ายภายในโครงสร้างพื้นฐานเครือข่าย EC2 ของพวกเขา ความล้มเหลวทางเทคนิคนี้ทำให้เกิดสิ่งที่ AWS อธิบายว่าเป็นอัตราความผิดพลาดและความล่าช้าที่เพิ่มขึ้น รวมถึงข้อผิดพลาดของ API ในบริการต่างๆ ของ AWS ปัญหานี้มีความสำคัญเป็นพิเศษเพราะ US-EAST-1 ทำหน้าที่เป็นภูมิภาคเริ่มต้นสำหรับลูกค้า AWS หลายรายและมีความสามารถในการให้บริการตามความต้องการในปริมาณมาก ทำให้ความล้มเหลวของมันส่งผลกระทบอย่างรุนแรง

รายละเอียดผลกระทบทางเทคนิค:

  • พื้นที่หลักที่ได้รับผลกระทบ: US-EAST-1 (Northern Virginia)
  • สาเหตุหลัก: ข้อบกพร่องในระบบ network load balancer ที่ใช้ตรวจสอบสถานะของเครือข่ายภายในของ EC2
  • ผลกระทบรอง: ข้อผิดพลาดของ API เวลาตอบสนองที่เพิ่มขึ้น ความล้มเหลวในการแปลงที่อยู่ DNS
  • การดำเนินการแก้ไข: แนะนำให้ล้างแคช DNS ใช้มาตรการจำกัดอัตราการร้องขอ ประมวลผลคำขอค้างสำหรับ Cloudtrail และ Lambda

ผลกระทบต่อบริการในวงกว้าง

การขัดข้องสร้างเอฟเฟกต์โดมิโนทั่วภูมิทัศน์ดิจิทัล บริการผู้บริโภคยอดนิยมรวมถึง Snapchat, Fortnite, Roblox, Coinbase และ Signal กลายเป็นสิ่งที่ไม่สามารถเข้าถึงได้สำหรับผู้ใช้ บริการของ Amazon เองเช่น ลำโพงอัจฉริยะ Alexa, ระบบรักษาความปลอดภัย Ring และ Prime Video ก็ได้รับผลกระทบเช่นกัน ที่สำคัญกว่านั้น การขัดข้องยังขยายไปถึงบริการสำคัญ รวมถึงรายงานผลกระทบต่อบริการ NHS ในสหราชอาณาจักร สถาบันการเงินของอังกฤษอย่าง Lloyds และหน่วยงานเก็บภาษีของอังกฤษ HMRC National Rail ในสหราชอาณาจักรได้แนะนำผู้โดยสารให้ไปใช้แหล่งข้อมูลอื่น เนื่องจากเว็บไซต์และแอปพลิเคชันของพวกเขาไม่สามารถใช้งานได้ระหว่างเกิดเหตุการณ์

บริการที่ได้รับผลกระทบระหว่างเหตุการณ์ AWS ล่ม:

  • โซเชียล/บันเทิง: Snapchat, Fortnite, Roblox, Coinbase, Signal, Reddit, Apple TV, Duolingo
  • บริการของ Amazon: Alexa, Ring, Prime Video, Amazon Click and Collect
  • การเงิน: Venmo, Lloyds Bank
  • บริการภาครัฐ: NHS (UK), HMRC (หน่วยงานจัดเก็บภาษีของ UK), National Rail (UK)
  • อื่นๆ: Instacart, Perplexity, Canva

ความพยายามในการกู้คืนและความท้าทายที่ต่อเนื่อง

AWS เริ่มต้นความพยายามในการบรรเทาผลกระทบหลายชั่วโมงหลังจากเกิดการขัดข้อง โดยบริษัทระบุว่าปัญหา DNS ได้รับการบรรเทาเต็มที่แล้ว และการดำเนินงานส่วนใหญ่ของบริการกำลังกลับมาทำงานตามปกติ อย่างไรก็ตาม กระบวนการกู้คืนต้องเผชิญกับความท้าทายอย่างมีนัยสำคัญ AWS ได้ใช้การจำกัดการร้องขอ (request throttling) สำหรับเซิร์ฟเวอร์เสมือนใหม่เพื่อเร่งกระบวนการกู้คืน และยอมรับว่าบริการบางส่วนกำลังประมวลผลงานค้างในระบบเช่น Cloudtrail และ Lambda บริษัทระบุเป็นพิเศษว่าคำขอเพื่อเปิดใช้ EC2 instances ใหม่ในภูมิภาค US-EAST-1 ยังคงประสบกับอัตราความผิดพลาดที่เพิ่มขึ้น แม้ว่าบริการอื่นๆ จะมีเสถียรภาพแล้ว

ไทม์ไลน์การอัปเดตสถานะบริการของ AWS:

  • การระบุปัญหาเบื้องต้น: ~3 ทุ่ม EST (20 ตุลาคม 2025)
  • ระบุสาเหตุหลัก: ปัญหาการแปลง DNS กับ API ของ DynamoDB ใน US-EAST-1
  • ประกาศมาตรการแก้ไข: หลายชั่วโมงหลังจากเกิดการขัดข้อง
  • ปัญหาที่ยังคงดำเนินอยู่: การเปิดใช้งาน EC2 instance ยังคงพบข้อผิดพลาดหลังจากการแก้ไขหลักเสร็จสิ้น
  • สถานะการกู้คืน: บริการส่วนใหญ่ทำงานได้ปกติ โดยยังมีการประมวลผลงานค้างอยู่บางส่วน

ผลกระทบที่กว้างขึ้นสำหรับการประมวลผลคลาวด์

เหตุการณ์นี้ได้จุดประกายการอภิปรายใหม่เกี่ยวกับความเข้มข้นของโครงสร้างพื้นฐานอินเทอร์เน็ตภายในผู้ให้บริการคลาวด์รายใหญ่ไม่กี่ราย ผู้เชี่ยวชาญด้านความปลอดภัยทางไซเบอร์ระบุว่า AWS มีส่วนแบ่งประมาณ 30% ของตลาดโครงสร้างพื้นฐานคลาวด์ทั่วโลก ซึ่งหมายความว่าการขัดข้องใดๆ สามารถส่งผลกระทบในวงกว้างได้ ผู้เชี่ยวชาญในอุตสาหกรรมได้เริ่มส่งเสริมกลยุทธ์หลายคลาวด์ (multi-cloud) ที่แข็งแกร่งมากขึ้นและการวางแผนการกู้คืนจากภัยพิบัติที่ดีขึ้นทันที การขัดข้องครั้งนี้ทำหน้าที่เป็นเครื่องเตือนใจที่ชัดเจนถึงความเปราะบางของอินเทอร์เน็ต เมื่อบริการที่สำคัญพึ่งพาอย่างหนักบนภูมิภาคคลาวด์เดียวจากผู้ให้บริการรายเดียว

ความกังวลด้านความปลอดภัยระหว่างการกู้คืน

ผู้เชี่ยวชาญด้านความปลอดภัยเตือนว่าช่วงเวลาการกู้คืนนำมาซึ่งความเสี่ยงเพิ่มเติมนอกเหนือจากการขัดข้องของบริการในทันที Charlotte Wilson หัวหน้าฝ่ายองค์กรของ Check Point Software เตือนว่าผู้โจมตีมักใช้ประโยชน์จากสถานการณ์เช่นนี้เมื่อบริษัทต่างๆ เร่งฟื้นฟูการเข้าถึงและระบบต่างๆ ถูกใช้งานจนเต็มกำลัง เธอเน้นย้ำเป็นพิเศษถึงศักยภาพของข้อเสนอคืนเงินหรือส่วนลดปลอม อีเมลฟิชชิง และลิงก์หลอกลวงที่อ้างว่าแก้ไขปัญหาได้ สิ่งนี้สร้างภูมิทัศน์ภัยคุกคามทุติยภูมิที่ต้องการความตื่นตัวจากทั้งผู้ให้บริการและผู้ใช้ในช่วงการกู้คืน

บทเรียนสำหรับความต่อเนื่องทางธุรกิจ

การขัดข้องของ AWS ได้กระตุ้นให้ธุรกิจต่างๆ ประเมินการพึ่งพาคลาวด์และกลยุทธ์การกู้คืนจากภัยพิบัติของพวกเขาใหม่ ที่ปรึกษาด้านเทคโนโลยีแนะนำว่าองค์กรควรหลีกเลี่ยงการเก็บโครงสร้างพื้นฐานทั้งหมดไว้ในผู้ให้บริการคลาวด์รายเดียว และเน้นย้ำถึงความสำคัญของการทดสอบระบบสลับโอน (failover) อย่างสม่ำเสมอ เหตุการณ์นี้แสดงให้เห็นว่าแม้จะมีโครงสร้างพื้นฐานคลาวด์ที่แข็งแกร่ง จุดล้มเหลวเดียวก็ยังสามารถก่อให้เกิดความวุ่นวายทางธุรกิจอย่างมีนัยสำคัญได้ ขณะที่บริการต่างๆ ค่อยๆ กลับสู่สภาวะปกติตลอดทั้งวัน อุตสาหกรรมเทคโนโลยีก็เริ่มประเมินว่าการเปลี่ยนแปลงเชิงโครงสร้างใดที่อาจจำเป็นเพื่อป้องกันการขัดข้องที่แพร่หลายในลักษณะเดียวกันในอนาคต