October 27, 2025
AWS (ในเครือ Amazon) ได้ออกรายงาน “ชันสูตรระบบ (Post-Mortem)”
ถึงลำดับและสาเหตุที่การให้บริการ AWS ล้มเหลว
ในพื้นที่ภูมิภาค North Virginia Region [US-EAST-1] แต่มีผลกระทบทั่วโลก
มีเนื้อความโดยสังเขปคือ
1. AWS ให้บริการ AWS และ EC2 แก่ลูกค้า(และตัวเอง) ด้วยวิธีการควบคุมฝูง heterogeneous load-balancer ขนาดใหญ่ เพื่อกำหนด “ระดับ” การบริการในแง่ของ scaling, fault isolation and recovery, latency, และ locality
2. load-balancer ของ AWS ปรับการทำงานไปตามข้อมูลในฐานข้อมูล DNS
3. AWS ใช้ DynamoDB ในการเก็บข้อมูล DNS และใช้ระบบ automation ในการดูแลจัดการฐานข้อมูล
4. เกิดเหตุการณ์ Race Condition แบบ “หักฝังใน (Latent)” ทำให้มี “รายการ DNS บรรทัดเปล่า” หลุดเข้าไปในฐานข้อมูล
5. ข้อมูลบรรทัดเปล่า ทำให้เกิดกรณี “ข้อมูลไม่ตรงกัน (Inconsistency)”
6. ระบบ automation ที่ใช้ในการดูแลระบบ DNS โดยเลือกแก้ปัญหาด้วยวิธี ลบข้อมูลเก่าออกทั้งหมด
7. เมื่อไม่มีข้อมูลใน DNS บริการ(ของลูกค้าและตัวเอง)เหล่านั้นก็หยุดชะงัก
จึงแจ้งมาเพื่อทราบ,
ภาคผนวก:
อ่านผลการชันสูตรระบบฉบับเต็มของ AWS ได้ที่:
https://aws.amazon.com/message/101925
และ
https://aws.amazon.com/premiumsupport/technology/pes
อ่านข่าวฉบับเต็มของ The Guardian ได้ที่:
ดูเว็บไซต์แสดงสถานการณ์ทำงานของ AWS ได้ที่:
https://health.aws.amazon.com/health/status
[แซว: ถ้าล่มจริง ก็ไปด้วยกัน ไม่มีประโยชน์]