Google สรุปเหตุการณ์ระบบล่มของ Google Cloud วันที่ 12 มิถุนายน 2025 เกิดจาก ระบบจัดการโควตา API (Service Control)

Google Cloud logo

Google ชี้แจงปัญหา Google Cloud วันที่ 12 มิถุนายน 2025


เมื่อวันที่ 12 มิถุนายน 2025 Google Cloud ประสบปัญหาระดับโลกจากการล่มของระบบให้บริการ API ทำให้ผลิตภัณฑ์และบริการต่าง ๆ ของ Google Cloud และ Google Workspace ไม่สามารถใช้งานได้ตามปกติในหลายภูมิภาคทั่วโลก รวมถึงเอเชีย ยุโรป และอเมริกา

เหตุการณ์เกิดขึ้น

  • เริ่มต้น: 12 มิ.ย. 2025 เวลา 10:51 น. (PDT) / ตรงกับ 00:51 น. วันที่ 13 มิ.ย. ตามเวลาไทย
  • สิ้นสุด: 12 มิ.ย. 2025 เวลา 18:18 น. (PDT) / ตรงกับ 08:18 น. วันที่ 13 มิ.ย. ตามเวลาไทย
  • รวมระยะเวลา: ประมาณ 7 ชั่วโมงครึ่ง

ปัญหาที่เกิดขึ้นคืออะไร

ปัญหาที่เกิดขึ้นคือ Google ได้อัปเดตระบบจัดการโควตา API โดยการเปลี่ยนแปลงโค้ดในระบบ Service Control ซึ่งมีการเปลี่ยนแปลงข้อมูลนโยบายใหม่ที่มีช่องว่าง (null field) ที่ไม่ได้รับการจัดการ ทำให้เกิดข้อผิดพลาดในโค้ดและทำให้ระบบล่มทั่วโลกโดยที่ไม่สามารถตรวจพบปัญหานี้ก่อนใช้งานจริง เนื่องจากไม่มีระบบควบคุม (feature flag) เพื่อป้องกันปัญหานี้

แนวทางแก้ไขที่ Google ดำเนินการ

  • ภายใน 10 นาทีหลังพบปัญหา วิศวกรเริ่มระบุสาเหตุและ กดใช้ “red-button” เพื่อปิดเส้นทางที่ทำให้เกิดข้อผิดพลาด
  • ภายใน 40 นาทีเริ่มเห็นสัญญาณการฟื้นตัวในบางภูมิภาค
  • ภูมิภาคใหญ่ เช่น us-central1 us-central1 ฟื้นตัวช้า เพราะระบบจำนวนมากพยายามรีสตาร์ทพร้อมกัน ทำให้ฐานข้อมูลที่เกี่ยวกับนโยบายโควตาถูกใช้งานหนักเกินไป และไม่มีระบบหน่วงเวลาช่วยกระจายโหลดอย่างเหมาะสม
  • บริการส่วนใหญ่ฟื้นตัวภายใน 3 ชั่วโมง และบริการทั้งหมดกลับมาใช้งานได้ปกติภายในเวลา 18:18 PDT (08:18 น. ตามเวลาไทย)

บริการที่ได้รับผลกระทบหลัก

  • Google Cloud: Compute Engine, Cloud Storage, BigQuery, App Engine, Cloud SQL, Vertex AI, Dataflow, Dialogflow, Firebase, Cloud Run, Cloud DNS, Cloud Functions, และอื่น ๆ
  • Google Workspace: Gmail, Google Meet, Google Drive, Docs, Calendar, Chat และ AppSheet
  • บริการ AI และ ML: Vertex AI Online Prediction, Model Garden, Speech-to-Text, Text-to-Speech
  • ภูมิภาคที่ได้รับผลกระทบ: แทบทุกภูมิภาคทั่วโลก รวมถึงเอเชียตะวันออกเฉียงใต้ ญี่ปุ่น ยุโรป สหรัฐฯ และอเมริกาใต้

สรุป: ปัญหาครั้งนี้ของ Google Cloud เกิดจากโค้ดที่ไม่มีการตรวจสอบช่องว่างข้อมูลและระบบจัดการนโยบายที่กระจายทั่วโลก เมื่อรวมกับการขาด feature flag และระบบ fallback ที่ดี ทำให้ส่งผลกระทบเป็นวงกว้างทั่วโลก แม้จะกู้ระบบได้เร็วในบางภูมิภาค แต่เหตุการณ์นี้ตอกย้ำถึงความเปราะบางของระบบคลาวด์ขนาดใหญ่ และความจำเป็นในการมีระบบป้องกันความผิดพลาดระดับสถาปัตยกรรม

ที่มา – Google 

Share This :
About modify 6827 Articles
สามารถนำบทความไปเผยแพร่ได้อย่างอิสระ โดยกล่าวถึงแหล่งที่มา เป็นลิงค์กลับมายังบทความนั้นๆ บทความอาจมีการพิมพ์ตกเรื่องภาษาไปบ้าง ต้องขออภัย พยามจะพิมพ์ผิดให้น้อยที่สุด (ทำเว็บคนเดียวไม่มีคนตรวจทาน) บทความที่สอนเรื่องต่างๆ กรุณาอ่านบทความให้เข้าใจก่อนโพสต์ถาม ติดตรงไหนสามารถถามได้ที่โพสต์นั้นๆ

Be the first to comment

Leave a Reply

Your email address will not be published.