Google ชี้แจงปัญหา Google Cloud วันที่ 12 มิถุนายน 2025
เมื่อวันที่ 12 มิถุนายน 2025 Google Cloud ประสบปัญหาระดับโลกจากการล่มของระบบให้บริการ API ทำให้ผลิตภัณฑ์และบริการต่าง ๆ ของ Google Cloud และ Google Workspace ไม่สามารถใช้งานได้ตามปกติในหลายภูมิภาคทั่วโลก รวมถึงเอเชีย ยุโรป และอเมริกา
เหตุการณ์เกิดขึ้น
- เริ่มต้น: 12 มิ.ย. 2025 เวลา 10:51 น. (PDT) / ตรงกับ 00:51 น. วันที่ 13 มิ.ย. ตามเวลาไทย
- สิ้นสุด: 12 มิ.ย. 2025 เวลา 18:18 น. (PDT) / ตรงกับ 08:18 น. วันที่ 13 มิ.ย. ตามเวลาไทย
- รวมระยะเวลา: ประมาณ 7 ชั่วโมงครึ่ง
ปัญหาที่เกิดขึ้นคืออะไร
ปัญหาที่เกิดขึ้นคือ Google ได้อัปเดตระบบจัดการโควตา API โดยการเปลี่ยนแปลงโค้ดในระบบ Service Control ซึ่งมีการเปลี่ยนแปลงข้อมูลนโยบายใหม่ที่มีช่องว่าง (null field) ที่ไม่ได้รับการจัดการ ทำให้เกิดข้อผิดพลาดในโค้ดและทำให้ระบบล่มทั่วโลกโดยที่ไม่สามารถตรวจพบปัญหานี้ก่อนใช้งานจริง เนื่องจากไม่มีระบบควบคุม (feature flag) เพื่อป้องกันปัญหานี้
แนวทางแก้ไขที่ Google ดำเนินการ
- ภายใน 10 นาทีหลังพบปัญหา วิศวกรเริ่มระบุสาเหตุและ กดใช้ “red-button” เพื่อปิดเส้นทางที่ทำให้เกิดข้อผิดพลาด
- ภายใน 40 นาทีเริ่มเห็นสัญญาณการฟื้นตัวในบางภูมิภาค
- ภูมิภาคใหญ่ เช่น us-central1 us-central1 ฟื้นตัวช้า เพราะระบบจำนวนมากพยายามรีสตาร์ทพร้อมกัน ทำให้ฐานข้อมูลที่เกี่ยวกับนโยบายโควตาถูกใช้งานหนักเกินไป และไม่มีระบบหน่วงเวลาช่วยกระจายโหลดอย่างเหมาะสม
- บริการส่วนใหญ่ฟื้นตัวภายใน 3 ชั่วโมง และบริการทั้งหมดกลับมาใช้งานได้ปกติภายในเวลา 18:18 PDT (08:18 น. ตามเวลาไทย)
บริการที่ได้รับผลกระทบหลัก
- Google Cloud: Compute Engine, Cloud Storage, BigQuery, App Engine, Cloud SQL, Vertex AI, Dataflow, Dialogflow, Firebase, Cloud Run, Cloud DNS, Cloud Functions, และอื่น ๆ
- Google Workspace: Gmail, Google Meet, Google Drive, Docs, Calendar, Chat และ AppSheet
- บริการ AI และ ML: Vertex AI Online Prediction, Model Garden, Speech-to-Text, Text-to-Speech
- ภูมิภาคที่ได้รับผลกระทบ: แทบทุกภูมิภาคทั่วโลก รวมถึงเอเชียตะวันออกเฉียงใต้ ญี่ปุ่น ยุโรป สหรัฐฯ และอเมริกาใต้
สรุป: ปัญหาครั้งนี้ของ Google Cloud เกิดจากโค้ดที่ไม่มีการตรวจสอบช่องว่างข้อมูลและระบบจัดการนโยบายที่กระจายทั่วโลก เมื่อรวมกับการขาด feature flag และระบบ fallback ที่ดี ทำให้ส่งผลกระทบเป็นวงกว้างทั่วโลก แม้จะกู้ระบบได้เร็วในบางภูมิภาค แต่เหตุการณ์นี้ตอกย้ำถึงความเปราะบางของระบบคลาวด์ขนาดใหญ่ และความจำเป็นในการมีระบบป้องกันความผิดพลาดระดับสถาปัตยกรรม
ที่มา – Google
Leave a Reply