Google สรุปเหตุการณ์ระบบล่มของ Google Cloud วันที่ 12 มิถุนายน 2025 เกิดจาก ระบบจัดการโควตา API (Service Control)

Google ชี้แจงปัญหา Google Cloud วันที่ 12 มิถุนายน 2025

เมื่อวันที่ 12 มิถุนายน 2025 Google Cloud ประสบปัญหาระดับโลกจากการล่มของระบบให้บริการ API ทำให้ผลิตภัณฑ์และบริการต่าง ๆ ของ Google Cloud และ Google Workspace ไม่สามารถใช้งานได้ตามปกติในหลายภูมิภาคทั่วโลก รวมถึงเอเชีย ยุโรป และอเมริกา

เหตุการณ์เกิดขึ้น

เริ่มต้น: 12 มิ.ย. 2025 เวลา 10:51 น. (PDT) / ตรงกับ 00:51 น. วันที่ 13 มิ.ย. ตามเวลาไทย
สิ้นสุด: 12 มิ.ย. 2025 เวลา 18:18 น. (PDT) / ตรงกับ 08:18 น. วันที่ 13 มิ.ย. ตามเวลาไทย
รวมระยะเวลา: ประมาณ 7 ชั่วโมงครึ่ง

ปัญหาที่เกิดขึ้นคืออะไร

ปัญหาที่เกิดขึ้นคือ Google ได้อัปเดตระบบจัดการโควตา API โดยการเปลี่ยนแปลงโค้ดในระบบ Service Control ซึ่งมีการเปลี่ยนแปลงข้อมูลนโยบายใหม่ที่มีช่องว่าง (null field) ที่ไม่ได้รับการจัดการ ทำให้เกิดข้อผิดพลาดในโค้ดและทำให้ระบบล่มทั่วโลกโดยที่ไม่สามารถตรวจพบปัญหานี้ก่อนใช้งานจริง เนื่องจากไม่มีระบบควบคุม (feature flag) เพื่อป้องกันปัญหานี้

แนวทางแก้ไขที่ Google ดำเนินการ

ภายใน 10 นาทีหลังพบปัญหา วิศวกรเริ่มระบุสาเหตุและ กดใช้ “red-button” เพื่อปิดเส้นทางที่ทำให้เกิดข้อผิดพลาด
ภายใน 40 นาทีเริ่มเห็นสัญญาณการฟื้นตัวในบางภูมิภาค
ภูมิภาคใหญ่ เช่น us-central1 us-central1 ฟื้นตัวช้า เพราะระบบจำนวนมากพยายามรีสตาร์ทพร้อมกัน ทำให้ฐานข้อมูลที่เกี่ยวกับนโยบายโควตาถูกใช้งานหนักเกินไป และไม่มีระบบหน่วงเวลาช่วยกระจายโหลดอย่างเหมาะสม
บริการส่วนใหญ่ฟื้นตัวภายใน 3 ชั่วโมง และบริการทั้งหมดกลับมาใช้งานได้ปกติภายในเวลา 18:18 PDT (08:18 น. ตามเวลาไทย)

บริการที่ได้รับผลกระทบหลัก

Google Cloud: Compute Engine, Cloud Storage, BigQuery, App Engine, Cloud SQL, Vertex AI, Dataflow, Dialogflow, Firebase, Cloud Run, Cloud DNS, Cloud Functions, และอื่น ๆ
Google Workspace: Gmail, Google Meet, Google Drive, Docs, Calendar, Chat และ AppSheet
บริการ AI และ ML: Vertex AI Online Prediction, Model Garden, Speech-to-Text, Text-to-Speech
ภูมิภาคที่ได้รับผลกระทบ: แทบทุกภูมิภาคทั่วโลก รวมถึงเอเชียตะวันออกเฉียงใต้ ญี่ปุ่น ยุโรป สหรัฐฯ และอเมริกาใต้

สรุป: ปัญหาครั้งนี้ของ Google Cloud เกิดจากโค้ดที่ไม่มีการตรวจสอบช่องว่างข้อมูลและระบบจัดการนโยบายที่กระจายทั่วโลก เมื่อรวมกับการขาด feature flag และระบบ fallback ที่ดี ทำให้ส่งผลกระทบเป็นวงกว้างทั่วโลก แม้จะกู้ระบบได้เร็วในบางภูมิภาค แต่เหตุการณ์นี้ตอกย้ำถึงความเปราะบางของระบบคลาวด์ขนาดใหญ่ และความจำเป็นในการมีระบบป้องกันความผิดพลาดระดับสถาปัตยกรรม

ที่มา – Google

MODIFY: Technology News

Technology, Innovation, and Education เทคนิดการใช้งาน สมาร์ทโฟน คอมพิวเตอร์ เรื่องไอที