Google DeepMind เปิดตัว Gemini 2.5 Computer Use Model โมเดลเฉพาะทางใหม่ที่ต่อยอดจาก Gemini 2.5 Pro โดยเพิ่มความสามารถให้ AI สามารถ “ใช้งานคอมพิวเตอร์แทนมนุษย์” ได้จริง ไม่ว่าจะเป็นการคลิก ลาก พิมพ์ หรือกรอกฟอร์มในหน้าเว็บและแอปพลิเคชัน จุดประสงค์คือเพื่อช่วยนักพัฒนาสร้างเอเจนต์อัจฉริยะ (AI agents) ที่โต้ตอบกับส่วนติดต่อผู้ใช้ (UI) ได้โดยตรง
Gemini 2.5 Computer Use เปิดให้เข้าทดลองแบบพรีวิวผ่าน Gemini API ใน Google AI Studio และ Vertex AI โดยโมเดลนี้ทำงานได้เร็วกว่าโมเดลคู่แข่ง พร้อมประสิทธิภาพสูงสุดในหลายการทดสอบด้านการควบคุมเว็บและมือถือ เช่น Online-Mind2Web, WebVoyager และ AndroidWorld
การทำงานของโมเดล
แกนหลักของระบบคือเครื่องมือใหม่ชื่อว่า computer_use
ซึ่งจะทำงานแบบวนลูป (loop) โดยรับข้อมูลจากภาพหน้าจอ สถานะ URL ล่าสุด และคำสั่งของผู้ใช้ จากนั้นโมเดลจะวิเคราะห์และส่งคืนคำสั่งการกระทำ เช่น การคลิกหรือพิมพ์ข้อความ ซึ่งฝั่ง client จะเป็นผู้ดำเนินการให้จริง หากโมเดลต้องทำการเสี่ยง เช่น การซื้อของหรือกรอกข้อมูลส่วนตัว ระบบจะร้องขอให้ผู้ใช้ยืนยันก่อนทุกครั้ง
เมื่อแต่ละคำสั่งเสร็จสิ้น โมเดลจะรับภาพหน้าจอล่าสุดกลับมาเพื่อวิเคราะห์ต่อในลูปใหม่ กระบวนการนี้จะดำเนินต่อไปจนกว่างานจะสำเร็จหรือมีคำสั่งหยุด
แม้จะออกแบบมาสำหรับเว็บเบราว์เซอร์เป็นหลัก แต่ Google ระบุว่าโมเดลยังมีศักยภาพสูงในการควบคุม UI บนอุปกรณ์มือถือ และมีแนวโน้มขยายสู่ระดับระบบปฏิบัติการในอนาคต
ด้านความปลอดภัยและแนวทางป้องกันความเสี่ยง
Google ย้ำว่า AI ประเภทนี้มีความเสี่ยงเฉพาะ เช่น การถูกใช้ผิดวัตถุประสงค์หรือการตอบสนองที่ไม่คาดคิด จึงได้ฝังระบบความปลอดภัยไว้ในโมเดลโดยตรง รวมถึงเครื่องมือตรวจสอบการกระทำ (per-step safety service) ที่ตรวจทุกคำสั่งก่อนดำเนินการจริง และระบบยืนยันจากผู้ใช้ก่อนทำงานที่มีความเสี่ยงสูง เช่น การควบคุมอุปกรณ์แพทย์หรือการข้าม CAPTCHA
นอกจากนี้ยังมีแนวทางแนะนำให้นักพัฒนาเพิ่มการตรวจสอบความปลอดภัยเพิ่มเติมก่อนเปิดใช้งานจริง เพื่อป้องกันการโจมตีหรือการฉ้อโกงผ่านเว็บ
การใช้งานจริงจากผู้ทดสอบรุ่นแรก
ภายใน Google เองได้เริ่มใช้ Gemini 2.5 Computer Use ในการ ทดสอบระบบอัตโนมัติของ UI (UI testing) ซึ่งช่วยลดเวลาในการพัฒนาได้มาก รวมถึงใช้ในโครงการ Project Mariner และระบบ Firebase Testing Agent ที่เกี่ยวข้องกับการทดสอบซอฟต์แวร์
ผู้ใช้นอกบริษัทในโครงการ Early Access เช่น Poke.com และ Autotab รายงานว่าโมเดลใหม่นี้ทำงานได้เร็วกว่าโซลูชันคู่แข่งถึง 50% และแม่นยำกว่า 18% ในการประมวลผล UI ซับซ้อน ขณะที่ทีม Google Payments ใช้โมเดลนี้ช่วยกู้คืนการทดสอบที่ล้มเหลวได้กว่า 60% ซึ่งก่อนหน้านี้ต้องใช้เวลาหลายวันในการแก้ไข
Gemini 2.5 Computer Use ถือเป็นอีกก้าวของการพัฒนา “AI agents” ที่สามารถโต้ตอบกับคอมพิวเตอร์ได้เหมือนมนุษย์จริง ๆ และเป็นพื้นฐานสำคัญสำหรับระบบอัตโนมัติในอนาคต ทั้งในงานซอฟต์แวร์ การทดสอบระบบ และผู้ช่วยส่วนตัวอัจฉริยะ
ที่มา – Google